Terminologia etc.

Terminologia, localizzazione, traduzione e altre considerazioni linguistiche

Parolacce, software e localizzazione

What do you love è la funzionalità di ricerca di Google, per il momento solo in inglese, che restituisce risultati da più di venti servizi diversi in un’unica interfaccia. Se però si digitano parolacce o volgarità (ad es. shit), si ottengono informazioni sui gattini (kitten).

C’è chi ha identificato le parole proibite e le ha elencate in Google’s Official List of Bad Words; la scoperta è stata ripresa in vari siti ma va detto che le cosiddette offensive word list sono abbastanza comuni e hanno varie applicazioni nello sviluppo di software.

Ad esempio, servono a evitare che appaiano parole offensive nelle sequenze di lettere e numeri generati automaticamente, come nei codici per la registrazione di software (eventualità non rara, basti pensare all’inglese e alle sue four-letter words!), oppure possono essere usate per filtrare messaggi di posta elettronica o altro contenuto.

Un altro tipico campo di applicazione sono i correttori ortografici e i sistemi di riconoscimento vocale e di riconoscimento della grafia.

In questi casi si può ricorrere a due elenchi diversi, in base al grado di volgarità:
1 – parole altamente offensive che non vengono mai riconosciute
2 – parole meno offensive che vengono riconosciute ma mai proposte come suggerimento.

Faccio un esempio con il riconoscimento della scrittura diparola carro scritta in maniera ambigua in un Tablet PC, nell’ipotesi che la doppia consonante sia congruente con il proprio modo di scrivere la lettera z: se la voce cazzo è inclusa nell’elenco 1, la parola scritta verrà convertita in carro; se invece cazzo è nell’elenco 2, in questo caso la parola verrà riconosciuta come cazzo. Se invece la differenza tra modo di scrivere le lettere r e z non fosse apprezzabile, ossia in caso di ambiguità, l’unica alternativa contemplata sarebbe carro, in entrambi i casi (elenco 1 o 2). 
[Nota: questo esempio è inventato e per semplificare ho volutamente escluso altre parole che per il sistema sarebbero più probabili come corso, Carso ecc.].

incPer chi si occupa di localizzazione, la creazione e la gestione di questi elenchi possono essere complesse, soprattutto nelle lingue con molte forme flesse: ad esempio, se in inglese ci sono solo quattro forme verbali, in italiano si supera facilmente il centinaio quando si includono le combinazioni con particelle clitiche.

Va inoltre fatta attenzione a forme incluse automaticamente che possono essere omonime di altre parole più frequenti e del tutto neutre, come nel tipico esempio del presente indicativo del verbo trombare e delle parole trombo, termine medico, e tromba.

Non mancano comunque soluzioni alternative, ad es. nei codici alfanumerici generati automaticamente si possono escludere le vocali (ed eventualmente il numero 0) e così ridurre di molto le combinazioni potenzialmente imbarazzanti.

.
Aggiornamento dicembre 2013 – In Parole imbarazzanti per Android un esempio di cui si è discusso molto e che evidenzia una notevole confusione tra funzioni di riconoscimento e di suggerimento in chi ne scrive.


Vedi anche: Parole proibite alla TV americana e No Effin in Facebook.

Tag: ,

Non sono consentiti commenti o ping.

Un commento a “Parolacce, software e localizzazione”

  1. 3 ottobre 2011 13:10

    Andrea:

    avevo visto una foto con la targa d’automobile CA 220 NE