Terminologia etc.

Terminologia, localizzazione, traduzione e altre considerazioni linguistiche

Post con tag “traduzione automatica”

Si traduce meglio con Google, Yahoo! o Bing?

sito Gabble On Segnalo anch’io un’iniziativa di cui stanno parlando in molti: uno studio di Gabble On per valutare i motori di traduzione automatica di Google, Yahoo! (Babel Fish) e Microsoft (Bing).

Finora sono stati raccolti circa 900 voti per 22 lingue ma per avere dati statisticamente significativi la ricerca si prefigge di arrivare ad almeno a 10000 voti entro la fine di marzo.

Per partecipare: Which Engine Translates Best?  (c’è un Apple iPad in premio).

Vedi anche: post con tag traduzione automatica e in particolare Traduzione automatica: Windows Live Translator per le principali differenze tra motori di traduzione di tipo statistico (Google e Microsoft) e basati su regole (Systran, il sistema usato da Babel Fish).

E visto che è venerdì, per sorridere sulla traduzione automatica e umana: Translation Humor & Mocking Machine Translation (da eMpTy Pages, un bel blog su tecnologie per la traduzione, globalizzazione e collaborazione).

Immagini, traduzione automatica e tazze

Con i sistemi di traduzione automatica come Google Translate e Microsoft Translator è sempre più difficile vedere traduzioni come quelle che io trovavo esilaranti, tipo “addolorisi con i ventilatori dell’ape Gee” (mourn with Bee Gee fans, titolo apparso dopo la dipartita di uno dei cantanti) o “le lampadine della molla” (spring bulbs come tulipani e narcisi).

Qualche sorrisetto può ancora capitare in alcuni siti di immagini stock dove le parole chiave (keyword) associate a ciascuna foto e illustrazione sono presumibilmente tradotte automaticamente. Ecco ad esempio qualche risultato in Shutterstock, con l’italiano come lingua di ricerca, per la parola tazza:

alcuni risultati per la parola chiave 'tazza' in Shutterstock.com

Chi parla inglese fa presto i collegamenti: cup non è solamente la tazza tradizionale con il piattino ma anche il bicchiere di carta o di plastica (paper cup e plastic cup) e la coppa data in premio, ad esempio nei tornei di calcio; rubber cup è anche una ventosa di gomma e quindi cup plunger spiega lo sturalavandini (da non usare però per la tazza del water, toilet bowl!).  Mug, invece, è sia il tazzone alto che il boccale da birra. Più divertente, e sicuramente disorientante per chi non conosce l’inglese, il risultato con la foto segnaletica (mug shot, infatti mug è anche un sinonimo informale per faccia) e soprattutto la descrizione associata alla relativa immagine: “colpo della tazza dell’uomo Medio Evo” (mug shot of middle aged man)!

Vedi anche: post sulla traduzione automatica ed Espressioni idiomatiche inglesi per un altro esempio di cupbicchiere.

Traduzione automatica in Office

Il team MSR-MT (Microsoft Research-Machine Translation) ha rilasciato un plug-in che in pochi secondi installa Microsoft Translator come servizio predefinito di traduzione automatica in Office (per scaricarlo, qui). Maggiori informazioni nel blog del team.

Per tradurre del testo in Office 2007,  scegliere la scheda Revisione, quindi Traduci dal gruppo Strumenti di correzione. In alternativa, selezionare il testo, fare clic con il pulsante destro e scegliere Traduci.

traduzione automatica in Office

Si possono avere opinioni diverse sulla traduzione automatica ma va sottolineato che i servizi come Microsoft Translator e Google Translate sono in continuo miglioramento.

Vedi anche:
Traduzione automatica: Windows Live Translator
Altre informazioni sulla traduzione automatica

Aggiornamento 17 aprile 2009: anche il team di TechNet Italia oggi parla di traduzione automatica in TechNet Magazine e la Machine Translation.

Altre informazioni sulla traduzione automatica

Post pubblicato l’11 settembre 2008 in blogs.technet.com/terminologia

Riprendo l’ultimo post sulla traduzione automatica per aggiungere alcuni riferimenti sull’argomento, tutti però in inglese:

la pagina Machine Translation nel sito Microsoft Research, con una rappresentazione schematica del sistema MT-MSR, una panoramica delle tecnologie linguistiche che integrano l’approccio statistico, le applicazioni pratiche nei prodotti e servizi Microsoft e un elenco di pubblicazioni accademiche;
il blog Microsoft Research Machine Translation (MSR-MT) Team Blog per informazioni e aggiornamenti dal team che ha sviluppato il sistema di traduzione automatica di Microsoft;
la voce Statistical Machine Translation in Wikipedia;
il sito Machine Translation Archive, con elenchi di articoli, bibliografie e risorse sul mondo della traduzione automatica;
il sito Statistical Machine Translation, con una sezione di introduzione alla ricerca nel campo della traduzione automatica di tipo statistico e riferimenti a vari corpora paralleli;
il post The (probable) truth about Austria and Ireland in Language Log, che accenna a un problema che può succedere quando si "addestrano" i sistemi statistici con materiale localizzato.

Vedi anche: altri post con il tag traduzione automatica.

Traduzione automatica: Windows Live Translator

Post pubblicato il 10 settembre 2008 in blogs.technet.com/terminologia. Nel 2009 il nome del servizio di traduzione è stato cambiato in Bing Translator.

Fino a qualche giorno fa il servizio di traduzione automatica di Windows Live Translator offriva due opzioni: la tecnologia Microsoft Research per testo con contenuto informatico e un sistema di terze parti, sviluppato da Systran, per testo generico, come si può vedere in questa vecchia schermata:

Live Translator - vecchia versione

Lunedì il team MSR-MT ha annunciato che ora tutte le coppie di lingue disponibili in Windows Live Translator, tra cui italiano-inglese e inglese-italiano, utilizzano solamente tecnologia Microsoft:

Live Translator -  nuova versione

Ho fatto un po’ di prove e in parecchi casi i risultati sono decisamente migliorati.

L’annuncio è interessante anche perché il sistema di traduzione automatica sviluppato da Microsoft (MSR-MT) è un sistema ibrido con un motore di tipo statistico mentre il modello Systran, che continua ad essere usato ad es. da Babel Fish, era principalmente basato su regole. Anche Google l’anno scorso è passata definitivamente da Systran a un proprio sistema di tipo statistico per tutte le coppie di lingue.

Semplificando al massimo, i sistemi basati su regole analizzano il testo di partenza per poi generare il testo di arrivo applicando regole di trasformazione. Per ogni lingua nel sistema è necessario definire regole precise di tipo morfologico, sintattico e semantico e un lessico di riferimento.

I sistemi di tipo statistico come quello Microsoft, invece, vengono "addestrati" (il training) con milioni di frasi da testi paralleli, ovvero testo originale e relativa traduzione umana. Non è necessario definire regole individuali per ciascuna lingua perché il sistema "impara" a riconoscere le corrispondenze tra parole e segmenti di frase in ogni coppia di lingue e assegna una probabilità più alta alle associazioni più ricorrenti, in modo da poterle poi riprodurre in fase di traduzione applicando altri algoritmi e parametri statistici.

Inizialmente il motore di traduzione MSR-MT era focalizzato su contenuto di tipo informatico perché era destinato alla traduzione automatica di articoli del sito Aiuto & Supporto (Knowledge Base). Il training era effettuato in particolare con le memorie di traduzione dei prodotti Microsoft.

Per il training di un sistema di tipo statistico sono necessari notevole forza bruta computazionale e corpora bilingui enormi. Ovviamente qualità, varietà e quantità dei corpora usati per il training sono tra i tanti fattori che incidono sul risultato finale: se il sistema non è stato esposto a particolari tipi di testo, potrebbe avere più difficoltà a tradurli in maniera soddisfacente.

Negli ultimi anni sono aumentate le iniziative per la condivisione di memorie di traduzione, ad es. da parte della Commissione europea. L’accesso a corpora paralleli vastissimi e diversificati e a computer sempre più potenti non può che dare un ulteriore impulso al perfezionamento dei sistemi di traduzione automatica ibridi con un motore di tipo statistico.

I margini di miglioramento sono comunque veramente ampi, come sanno tutti quelli che hanno avuto a che fare con testo tradotto automaticamente. Chi lavora in questo campo non è certo a rischio di disoccupazione!

Vedi anche: Altre informazioni sulla traduzione automatica.