Come le Tech Company Perfezionano gli Algoritmi di Riconoscimento Vocale

Messaggi vocali. Tutti ne parlano, davvero pochi conoscono la tecnologia che vi è dietro. Il quartier generale di Google, ad esempio, utilizza delle camere insonorizzate per registrare delle semplici frasi ad un microfono ed “allenare” le App e i device di propria appartenenza basati sull’utilizzo della voce. Ovviamente, dato che la realtà sonora del mondo è ben più complessa di una camera insonorizzata, Google, Microsoft e gli altri colossi digitali raffinano gradualmente il livello tecnologico di questi sistemi di registrazione vocale aggiungendo, volutamente, dei rumori di fondo.

Gli stessi rumori di fondo che caratterizzano la navigazione in mobilità degli utenti, sempre meno connessi da fisso e sempre più dipendenti dal proprio smartphone. Chiacchericcio da bar, un treno in sottofondo, il clacson di una macchina intrappolata nel traffico urbano. Solo aggiungendo in modo artefatto questi rumori, le tech company possono addestrare i propri algoritmi sonori a rimuovere le imperfezioni acustiche, scremandole fino ad ottenere il suono pulito della voce umana.

SISTEMI VOCALI SEMPRE PIÙ INTELLIGENTI

Fino a qualche anno fa era solo possibile registrare la propria voce. Poi, la tecnologia ha reso possibile riconoscere la voce umana, dando indicazioni – ad esempio – al motore di ricerca di Mountain View al grido di «Ok, Google» seguito dalla query interessata (per la gioia degli utenti Android). Infine, il progresso ha fatto sì che questi dispositivi vocali diventassero in grado anche di rispondere in modo appropriato all’utente.

Il raffinamento di questi sistemi procede di pari passo alla diffusione di tante altre tecnologie. I device indossabili, le macchine autoguidate e la celebre Internet of Things condurranno i sistemi di riconoscimento vocale al perfezionamento, in un mondo sempre più dettato dalle indicazioni vocali e meno dallo sforzo di digitazione testuale. Entro un lustro Siri (per gli utenti iPhone) e Cortana (per gli utenti Windows Phone) resteranno solo un lontano ricordo di una tecnologia imperfetta e superata. Lo stesso Google sostiene che fino a pochi anni fa la percentuale di errore nel riconoscimento vocale si avvicinava intorno al 25%, mentre oggi è scesa all’8%. Segno che, da un lato, gli utenti hanno imparato ad utilizzare meglio questi sistemi, e, dall’altro, le tecnologie sono venute incontro alla fallibilità umana e alle interferenze circostanziali tipiche della vita in mobilità.

Una previsione? Tutto quello che viene diffuso gratuitamente, per queste aziende, ha sempre un riscontro economico sul lungo termine. Registrare la vostra voce, presto, sarà esattamente come leggere i vostri testi. Tradotto in termini di marketing, significherà ricevere pubblicità targhettizzate sulla base delle vostre indicazioni vocali e, perché no, delle vostre chiamate. Pensateci, la prossima volta che telefonerete un amico col VOIP di WhatsApp.

Silicon Valley is recording you.