Tehnologia de recunoaștere a vorbirii

Recunoașterea vorbirii, capacitatea dispozitivelor de a răspunde comenzilor vorbite. Recunoașterea vorbirii permite controlul mâinilor libere a diferitelor dispozitive și echipamente (o atenție specială pentru multe persoane cu dizabilități), furnizează o traducere automată și creează o dictare pregătită pentru imprimare. Printre primele aplicații de recunoaștere a vorbirii s-au numărat sisteme telefonice automate și software de dictare medicală. Este frecvent utilizat pentru dictare, pentru interogarea bazelor de date și pentru a da comenzi sistemelor bazate pe computer, în special în profesiile care se bazează pe vocabulare specializate. De asemenea, permite asistenții personali în vehicule și smartphone-uri, cum ar fi Siri Apple.

Înainte ca orice mașină să poată interpreta vorbirea, un microfon trebuie să transpună vibrațiile vocii unei persoane într-un semnal electric în undă. Acest semnal la rândul său este convertit de hardware-ul sistemului - de exemplu, placa de sunet a computerului - într-un semnal digital. Semnalul digital pe care un program de recunoaștere a vorbirii îl analizează pentru a recunoaște fonemele separate, elementele de bază ale vorbirii. Fonemele sunt apoi recombinate în cuvinte. Cu toate acestea, multe cuvinte sună la fel și, pentru a selecta cuvântul adecvat, programul trebuie să se bazeze pe context. Multe programe stabilesc contextul prin analiza trigramei, o metodă bazată pe o bază de date cu grupuri frecvente de trei cuvinte în care sunt atribuite probabilitățile ca oricare două cuvinte să fie urmate de un al treilea cuvânt dat. De exemplu, dacă un vorbitor spune „cine sunt”, următorul cuvânt va fi recunoscut ca pronumele „eu”, mai degrabă decât cu sunetul similar, dar mai puțin probabil „ochi”. Cu toate acestea, intervenția umană este uneori necesară pentru a corecta erorile.

Programele pentru recunoașterea câtorva cuvinte izolate, cum ar fi sistemele de navigație vocală telefonică, funcționează aproape pentru fiecare utilizator. Pe de altă parte, programele de vorbire continue, cum ar fi programele de dictare, trebuie să fie instruite pentru a recunoaște modelele de vorbire ale unei persoane; instruirea implică utilizatorul să citească cu voce tare mostre de text. Astăzi, odată cu puterea tot mai mare a computerelor personale și a dispozitivelor mobile, acuratețea recunoașterii vorbirii s-a îmbunătățit semnificativ. Ratele de eroare au fost reduse la aproximativ 5 procente în vocabulare care conțin zeci de mii de cuvinte. O precizie și mai mare este atinsă în vocabulare limitate pentru aplicații specializate, cum ar fi dictarea diagnosticelor radiologice.