Post nella categoria “software”
Traduzione automatica: Windows Live Translator
Post pubblicato il 10 settembre 2008 in blogs.technet.com/terminologia. Nel 2009 il nome del servizio di traduzione è stato cambiato in Bing Translator.
Fino a qualche giorno fa il servizio di traduzione automatica di Windows Live Translator offriva due opzioni: la tecnologia Microsoft Research per testo con contenuto informatico e un sistema di terze parti, sviluppato da Systran, per testo generico, come si può vedere in questa vecchia schermata:
Lunedì il team MSR-MT ha annunciato che ora tutte le coppie di lingue disponibili in Windows Live Translator, tra cui italiano-inglese e inglese-italiano, utilizzano solamente tecnologia Microsoft:
Ho fatto un po’ di prove e in parecchi casi i risultati sono decisamente migliorati.
L’annuncio è interessante anche perché il sistema di traduzione automatica sviluppato da Microsoft (MSR-MT) è un sistema ibrido con un motore di tipo statistico mentre il modello Systran, che continua ad essere usato ad es. da Babel Fish, era principalmente basato su regole. Anche Google l’anno scorso è passata definitivamente da Systran a un proprio sistema di tipo statistico per tutte le coppie di lingue.
Semplificando al massimo, i sistemi basati su regole analizzano il testo di partenza per poi generare il testo di arrivo applicando regole di trasformazione. Per ogni lingua nel sistema è necessario definire regole precise di tipo morfologico, sintattico e semantico e un lessico di riferimento.
I sistemi di tipo statistico come quello Microsoft, invece, vengono "addestrati" (il training) con milioni di frasi da testi paralleli, ovvero testo originale e relativa traduzione umana. Non è necessario definire regole individuali per ciascuna lingua perché il sistema "impara" a riconoscere le corrispondenze tra parole e segmenti di frase in ogni coppia di lingue e assegna una probabilità più alta alle associazioni più ricorrenti, in modo da poterle poi riprodurre in fase di traduzione applicando altri algoritmi e parametri statistici.
Inizialmente il motore di traduzione MSR-MT era focalizzato su contenuto di tipo informatico perché era destinato alla traduzione automatica di articoli del sito Aiuto & Supporto (Knowledge Base). Il training era effettuato in particolare con le memorie di traduzione dei prodotti Microsoft.
Per il training di un sistema di tipo statistico sono necessari notevole forza bruta computazionale e corpora bilingui enormi. Ovviamente qualità, varietà e quantità dei corpora usati per il training sono tra i tanti fattori che incidono sul risultato finale: se il sistema non è stato esposto a particolari tipi di testo, potrebbe avere più difficoltà a tradurli in maniera soddisfacente.
Negli ultimi anni sono aumentate le iniziative per la condivisione di memorie di traduzione, ad es. da parte della Commissione europea. L’accesso a corpora paralleli vastissimi e diversificati e a computer sempre più potenti non può che dare un ulteriore impulso al perfezionamento dei sistemi di traduzione automatica ibridi con un motore di tipo statistico.
I margini di miglioramento sono comunque veramente ampi, come sanno tutti quelli che hanno avuto a che fare con testo tradotto automaticamente. Chi lavora in questo campo non è certo a rischio di disoccupazione!
…
Vedi anche: Altre informazioni sulla traduzione automatica.
…
Correttori ortografici ed effetto Cupertino
Post pubblicato il 29 agosto 2008 in blogs.technet.com/terminologia
Il team Office Natural Language di Microsoft sviluppa gli strumenti di correzione (proofing tool) per i prodotti Microsoft. L’ultimo post del loro blog segnala due articoli nel Seattle Times di ieri che parlano del lavoro del team.
Jobs with real authority: working on Microsoft’s spell-checker parte da una notizia che aveva avuto un certo rilievo negli Stati Uniti, e cioè che fino all’inizio dell’anno scorso il correttore ortografico di Office non riconosceva il nome proprio Obama e lo sostituiva con… Osama! Il problema è stato risolto, basta aver scaricato gli aggiornamenti per Office.
Ovviamente erano stati in molti quelli a cui non era parso vero poter parlare della cosa, però va considerato che Barack Obama era praticamente uno sconosciuto fino a due anni fa, a differenza del famigerato Osama.
Nella valutazione di cosa includere nei dizionari dei correttori ortografici viene infatti analizzata la frequenza di determinate parole nella lingua e l’evenienza che termini insoliti ma omografi di comuni errori di ortografia possano impedire di correggere questi ultimi, ignorandoli. È un fenomeno molto più accentuato in inglese, ad es. calender è un termine esistente che però è statisticamente molto meno probabile dell’errore di ortografia *calender per calendar, quindi è stata fatta la scelta di non includerlo nel dizionario del correttore. Ulteriori dettagli su come vengono selezionate le parole da aggiungere ai dizionari dei correttori in How Microsoft’s spell-check gatekeepers select words to add.
I correttori ortografici usano degli algoritmi per identificare la correzione più probabile di un errore di ortografia o di battitura; in particolare viene calcolata la edit distance, ovvero la "distanza" che separa l’errore dalla forma corretta, espressa in numero di caratteri da modificare, spostare, aggiungere o eliminare. Ad es., se scrivo *infromazione, la distanza di modifica da informazione è 1. Per chi è interessato a ulteriori dettagli sul concetto di edit distance, Thierry Fontanelle ne parla in Language Log.
Se in Office è stata attivata l’opzione di correzione automatica, il tipo di errore, la "distanza di modifica" e l’indice di probabilità di una particolare correzione rispetto ad altre possibili determinano se il correttore evidenzierà l’errore con la linea ondulata rossa e presenterà una serie di alternative, oppure se procederà con la sostituzione automatica della parola. È il motivo per cui chi ha un cognome insolito ma simile a una parola comune può trovarselo modificato automaticamente (la soluzione però è semplice: basta aggiungere la parola al dizionario personalizzato oppure disattivare la correzione automatica).
L’articolo fa anche un accenno al cosiddetto effetto Cupertino, termine coniato anni fa da alcuni traduttori della Commissione Europea quando si sono accorti che il termine inglese cooperation (variante di co-operation) non veniva riconosciuto e veniva automaticamente sostituito dal nome proprio Cupertino, che il correttore riteneva molto più probabile. Anche questo problema è stato risolto, ma è rimasto il termine effetto Cupertino: è descritto in dettaglio da Ben Zimmer nell’OUP blog, con un riferimento all’articolo in cui è apparso inizialmente.
…
PS Visto che ho parlato di errori di battitura, sicuramente me ne sarà sfuggito qualcuno: "chi punta il dito sugli errori di ortografia o grammatica, ne farà pure lui", è la Muphry’s law (via Freakonomics)!
Riconoscimento vocale e curiosità… umane
Post pubblicato il 6 agosto 2008 in blogs.technet.com/terminologia
Ho finito di leggere un po’ di numeri di The New Yorker che mi ha passato una mia amica. Interessante l’articolo Hello, Hal, una panoramica dell’evoluzione di sintesi vocale e riconoscimento vocale dai primi esperimenti ai giorni nostri, delle difficoltà in questo campo e delle applicazioni pratiche più recenti.
Molte informazioni sono note e facilmente reperibili (cfr. le voci Sintesi vocale e Riconoscimento vocale in Wikipedia) ma alcuni dettagli sono curiosi, specialmente quelli usati per illustrare come alcune capacità del cervello umano siano praticamente impossibili da riprodurre artificialmente. Due esempi:
| ▄ | In una conversazione telefonica, siamo in grado di percepire se l’interlocutore stia sorridendo, e di che tipo di sorriso si tratti, grazie alla capacità dell’orecchio umano di riconoscere le variazioni di suono causate dalle diverse espressioni facciali: proprio per questo agli operatori di call center verrebbe detto di sorridere sempre e comunque (Smile – and the world can hear you). |
| ▄ | Il nostro udito è così sofisticato che, a quanto pare, basta il suono per farci capire se del liquido che viene versato è caldo o freddo. |
Per chi è interessato all’articolo, direi che si può iniziare a leggere da pagina 2.
Un nome che può confondere: split button
Post pubblicato il 10 luglio 2008 in blogs.technet.com/terminologia
Le barre dei menu dei programmi più recenti e la barra multifunzione di Office possono avere tre tipi di pulsanti:

| 1 | Pulsanti tradizionali da barra degli strumenti; scegliendoli si esegue il comando che rappresentano |
| 2 | Pulsanti con un triangolino che punta verso il basso, di solito a destra; scegliendoli si apre un menu con le opzioni a disposizione. In inglese menu button o drop-down button, in italiano pulsante di menu |
| 3 | Pulsanti con un triangolino separato dal resto del pulsante da una barretta sottile; il comportamento del pulsante è diverso in base a dove si fa clic: a sinistra della barretta si esegue il comando (stessa funzionalità del pulsante 1), a destra si apre un menu con le opzioni a disposizione (come con il pulsante 2). Termine inglese: split button |
Il termine split button è stato documentato nel database terminologico solo dopo la localizzazione e ci siamo resi conto che non era stato tradotto adeguatamente: *pulsante di divisione e *pulsante Dividi. Appariva in stringhe senza contesto e non è difficile capire il perché dell’errore: split in inglese è ambiguo e in questo caso non va interpretato come imperativo o sostantivo, ma come participio passato (il pulsante è "diviso" in due).
La nuova traduzione è pulsante di menu combinato, per analogia con casella combinata (in inglese combo box), l’elemento
di interfaccia illustrato in questo esempio: è la casella che permette di digitare testo (A) oppure di scegliere tra un elenco di
opzioni disponibili (B).
Vi sembra una scelta adeguata? Se vi va, partecipate al progetto Microsoft Terminology Community Forum per Windows Vista e Office 2007 per farci sapere cosa ne pensate votando la traduzione proposta se siete d’accordo, o suggerendone una alternativa se non la trovate efficace.
Glossari Microsoft con MSDN e Technet
Post pubblicato il 2 luglio 2008 in blogs.technet.com/terminologia
Grazie agli abbonamenti MSDN e agli abbonamenti TechNet è possibile accedere ai "glossari" dei prodotti Microsoft, ovvero a file in formato CSV che contengono le stringhe delle versioni localizzate dei prodotti e altre informazioni:
- Stringhe inglesi
- Stringhe tradotte
- Tipo di stringa (ad esempio, ERR indica un messaggio di errore, BUT un pulsante)
- Piattaforma
- Nome del prodotto
Per scaricare i glossari è necessario un abbonamento MSDN o TechNet:
1. Accedere alla pagina Abbonamenti MSDN o Abbonamenti TechNet
2. Nel pannello a destra in Utenti registrati scegliere Fai clic qui
3. Scegliere la scheda Downloads
4. Seguire il percorso Tools and Resources quindi Microsoft Translation Glossaries
I glossari sono consultabili gratuitamente online tramite la funzionalità di ricerca del Portale linguistico Microsoft.
È o non E’?! Scrivere per il Web
Post pubblicato il 10 giugno 2008 in blogs.technet.com/terminologia
Il mestiere di scrivere segnala l’ebook Scrivere per il Web. Quando l’azienda comunica su Internet: piacevole da leggere e con suggerimenti utili anche per chi non si occupa di comunicazione aziendale.
Un paio di paragrafi riguarda l’uso di E’ (voce del verbo essere a inizio di frase), accettabile al posto di È perché le maiuscole accentate non sono disponibili da tastiera. Anche secondo me, però, la forma accentata è preferibile e in Office c’è un modo rapido per inserirla senza ricorrere a comandi da menu.
Forse non tutti lo sanno: basta digitare il carattere è, evidenziarlo e poi premere MAIUSC+F3.
In alternativa: ALT+0200 sul tastierino numerico (decisamente meno complicato della combinazione di tasti CTRL+`+MAIUSC+e, più adatta a una piovra che non a un essere umano).
A proposito, MAIUSC+F3 è il comando per modificare la combinazione di maiuscole e minuscole nel testo selezionato. Ecco cosa succede utilizzandolo più volte in sequenza:
questo è un esempio (tutto minuscolo)
Questo È Un Esempio (iniziali maiuscole, tipico dei titoli americani)
QUESTO È UN ESEMPIO (tutto maiuscolo)
questo è un esempio (tutto minuscolo)
e così via…
Commento di FrancoZ:
| Un articolo veramente interessante. Credo che certe cose come È ed E’ le notino solamente i traduttori professionisti! |
Avevo aggiunto:
| Conosco un tipografo della generazione “pre-computer”. Lavorava per alcune importanti riviste italiane ed è interessantissimo sentire cosa racconta, ad esempio nelle pubblicità era il tipografo a decidere tipo di carattere e corpo del testo, non il pubblicitario, proprio perché c’erano molte limitazioni. |
…
Soapbox
Post pubblicato il 28 maggio 2008 in blogs.technet.com/terminologia
Soapbox è il servizio di condivisione di video e filmati di MSN.
Trovo che in inglese il nome sia davvero indovinato: il termine soapbox è perfetto per descrivere una piattaforma dove esprimere il proprio punto di vista e inoltre "suona" bene. Mi domando però quale sia l’effetto del nome su chi non è di madrelingua inglese.
A me, ad esempio, fa venire in mente la terza media: per l’esame di inglese dovevamo imparare una serie di nozioni su Londra, incluso Hyde Park, e ricordo che l’idea di oratori allo Speakers’ Corner in piedi su fantomatiche "scatole di sapone" mi lasciava alquanto perplessa (ma quanto grandi potevano essere queste scatole, e perché proprio di sapone?). Dopo qualche anno ho finalmente scoperto il significato metaforico ma intanto è rimasta una traccia indelebile tra i miei neuroni che influenza la mia percezione del termine inglese.
Chissà se anche ad altri il nome Soapbox fa un effetto particolare, oppure se risulta semplicemente un nome inglese efficace e facile da memorizzare, senza alcuna connotazione particolare…
Combinazioni di tasti in Office 2007
Post pubblicato il 21 maggio 2008 in blogs.technet.com/terminologia
Giornate frenetiche, ma prima che passi troppo tempo torno sull’articolo Thanks, Microsoft Word… (mio ultimo post) perché mi sembra esagerato affermare che le combinazioni di tasti di Word 2003 non funzionano più in Word 2007.
Office 2007 conserva la maggior parte delle combinazioni di tasti premuti simultaneamente di Office 2003. I menu delle versioni precedenti, dove il nome del comando era seguito dall’eventuale combinazione di tasti, sono stati sostituiti dalla barra multifunzione ma basta fermare il puntatore del mouse sopra la funzione desiderata per visualizzare la descrizione del comando con la combinazione di tasti, come si può vedere in questo confronto tra interfaccia tradizionale (Publisher 2007) e nuova (Word 2007):
In Word (ma non in Excel o PowerPoint
) si possono poi aggiungere nuove combinazioni e modificare quelle esistenti, molto utile per chi, come me, usa più computer con interfacce in lingue diverse e vuole le stesse impostazioni: basta fare clic sul pulsante Microsoft Office in alto a sinistra, quindi sul pulsante Opzioni di Word, scegliere Personalizzazione, fare clic sul pulsante Personalizza e modificare le combinazioni disponibili o assegnarne di nuove. Le modifiche appariranno subito nella descrizione del comando:
E se si sostituisce il computer, basta usare Trasferimento dati Windows e si ritroveranno le impostazioni personalizzate di Office: l’ho fatto qualche giorno fa (addio, detestabile Tecra M4!) e confermo che funziona benissimo
.
Per quel che riguarda le combinazioni di tasti premuti in sequenza, anche in questo caso le affermazioni dell’articolo inglese non sono del tutto corrette.
Se si preme il tasto ALT, accanto a ogni funzionalità appare un "quadratino", un piccolo popup con il carattere da premere per effettuare la scelta da tastiera, ad es. qui a destra un’immagine di Word 2007 quando si digita la sequenza ALT,F, la stessa che in Word 2003 apre il menu File. In questo esempio anche la seconda lettera della sequenza, N in ALT,F,N, attiva lo stesso comando della versione precedente, Nuovo.
Negli altri casi i menu non esistono più ma molte vecchie combinazioni funzionano ancora. In Word 2003, ad esempio, la sequenza ALT,M,C apre il menu Modifica e attiva il comando Copia. In Word 2007 la vecchia combinazione viene riconosciuta e appare un avviso relativo a Office 2003, come si vede qui:
Si può continuare a usare la sequenza "vecchia" oppure quella specifica di Word 2007, che è ALT,H,C (Home, Copia):
Insomma, per chi vuole usare la tastiera c’è solo l’imbarazzo della scelta. E chi ha iniziato con Word per DOS e da 20 anni è stampa premendo CTRL+MAIUSC+F12 può continuare a farlo anche in Word 2007, senza pensarci su
.
Il ciclo di vita del prodotto
Post pubblicato il 3 aprile 2008 in blogs.technet.com/terminologia
Il ciclo di vita di un prodotto software può essere riassunto brevemente in quattro fasi:
1. definizione dei requisiti e progettazione
2. sviluppo del software
3. testing
4. rilascio del prodotto.
Si ricomincia poi con la progettazione di una nuova versione.
I tempi, la durata, le modalità e la complessità delle fasi variano da prodotto a prodotto. In fase di progettazione vengono effettuati gli interventi di globalizzazione per assicurarsi che il prodotto, indipendentemente dalla lingua, possa essere utilizzato in mercati diversi; sia in fase di progettazione che in fase di sviluppo si lavora molto sulla localizzabilità, quindi, prima che lo sviluppo venga completato, si inizia il processo di localizzazione, che procederà in parallelo con la fase di sviluppo e che aggiungerà al testing funzionale un testing di tipo linguistico, in modo da arrivare al rilascio contemporaneo del prodotto in inglese e nelle lingue principali. Le versioni localizzate per le altre lingue saranno disponibili successivamente.
…
Vedi anche: Versione beta, alfa, RC e RTM
È stata fatta una ricerca per la categoria “software”.
In una conversazione telefonica, siamo in grado di percepire se l’interlocutore stia sorridendo, e di che tipo di sorriso si tratti, grazie alla capacità dell’orecchio umano di riconoscere le variazioni di suono causate dalle diverse espressioni facciali: proprio per questo agli operatori di call center verrebbe detto di sorridere sempre e comunque (

