Parolacce, software e localizzazione

What do you love (wdyl.com, ora non più disponibile) era la funzionalità di ricerca di Google, disponibile solo in inglese, che restituiva risultati da più di venti servizi diversi in un’unica interfaccia. Se però si digitavano parolacce o volgarità (ad es. shit), si ottenevano informazioni sui gattini (kitten).

C’è chi ha identificato le parole proibite e le ha elencate in Google’s Official List of Bad Words; la scoperta è stata ripresa in vari siti ma va detto che le cosiddette offensive word list sono abbastanza comuni e hanno varie applicazioni nello sviluppo di software.

Ad esempio, servono a evitare che appaiano parole offensive nelle sequenze di lettere e numeri generati automaticamente, come nei codici per la registrazione di software (eventualità non rara, basti pensare all’inglese e alle sue four-letter words!), oppure possono essere usate per filtrare messaggi di posta elettronica o altro contenuto.

Un altro tipico campo di applicazione sono i correttori ortografici, il completamento automatico e i sistemi di riconoscimento vocale e di riconoscimento della grafia.

In questi casi si può ricorrere a due elenchi diversi, in base al grado di volgarità:
1 – parole altamente offensive che non vengono mai riconosciute
2 – parole meno offensive che vengono riconosciute ma mai proposte come suggerimento.

Faccio un esempio con il riconoscimento della scrittura di in un sistema con il riconoscimento della scrittura come un Tablet PC, nell’ipotesi che la doppia consonante sia congruente con il proprio modo di scrivere la lettera z: se la voce cazzo è inclusa nell’elenco 1, la parola scritta verrà convertita in carro; se invece cazzo è nell’elenco 2, in questo caso la parola verrà riconosciuta come cazzo. Se invece la differenza tra modo di scrivere le lettere r e z non fosse apprezzabile, ossia in caso di ambiguità, l’unica alternativa contemplata sarebbe carro, in entrambi i casi (elenco 1 o 2).
[Nota: questo esempio è inventato e per semplificare ho volutamente escluso altre parole che per il sistema sarebbero più probabili come corso, Carso ecc.].

inc Per chi si occupa di localizzazione, la creazione e la gestione di questi elenchi possono essere complesse, soprattutto nelle lingue con molte forme flesse: ad esempio, se in inglese ci sono solo quattro forme verbali, in italiano si supera facilmente il centinaio quando si includono le combinazioni con particelle clitiche.

Va inoltre fatta attenzione a forme incluse automaticamente che possono essere omonime di altre parole più frequenti e del tutto neutre, come nel tipico esempio del presente indicativo del verbo trombare e delle parole trombo, termine medico, e tromba, strumento musicale.

Non mancano comunque soluzioni alternative, ad es. nei codici alfanumerici generati automaticamente si possono escludere le vocali (ed eventualmente il numero 0) e così ridurre di molto le combinazioni potenzialmente imbarazzanti.

.
Aggiornamento dicembre 2013 – In Parole imbarazzanti per Android un esempio di cui si è discusso molto e che riguarda il completamento automatico (testo predittivo).

Vedi anche: Parole proibite alla TV americana e No Effin in Facebook.

1 commento su “Parolacce, software e localizzazione”