Tehnologija prepoznavanja govora

Prepoznavanje govora, sposobnost uređaja da reagiraju na izgovorene naredbe. Prepoznavanje govora omogućuje hands-free kontrolu raznih uređaja i opreme (što je posebna blagodat za mnoge osobe s invaliditetom), omogućuje automatsko prevođenje i stvara diktat spreman za ispis. Među najranijim aplikacijama za prepoznavanje govora bili su automatizirani telefonski sustavi i medicinski softver za diktiranje. Često se koristi za diktiranje, za postavljanje upita baze podataka i za davanje naredbi računalno utemeljenim sustavima, posebno u profesijama koje se oslanjaju na specijalizirane vokabule. Također omogućuje osobne pomoćnike u vozilima i pametnim telefonima, kao što je Apple-ova Siri.

Prije nego što bilo koji stroj može protumačiti govor, mikrofon mora prevesti vibracije nečijeg glasa u električni signal poput vala. Ovaj signal zauzvrat hardver sustava pretvara - na primjer, zvučna kartica računala - u digitalni signal. To je digitalni signal koji program za prepoznavanje govora analizira kako bi prepoznao zasebne foneme, osnovne građevne dijelove govora. Fonemi se zatim rekombiniraju u riječi. Međutim, mnoge riječi zvuče slično, a kako bi se odabrala odgovarajuća riječ, program se mora oslanjati na kontekst. Mnogi programi uspostavljaju kontekst pomoću trigram analize, metode koja se temelji na bazi podataka čestih trojezičnih klastera u kojima je dodijeljena vjerojatnost da će bilo koje dvije riječi slijediti treća riječ. Na primjer, ako govornik kaže „tko sam“, sljedeća će riječ biti prepoznata kao izgovor „ja“, a ne kao zvučan, ali manje vjerovatno „oko“. Unatoč tome, ponekad je potrebna ljudska intervencija da bi se ispravile pogreške.

Programi za prepoznavanje nekoliko izoliranih riječi, poput telefonskih govornih navigacijskih sustava, rade za gotovo svakog korisnika. S druge strane, kontinuirani govorni programi, poput programa diktata, moraju biti osposobljeni za prepoznavanje govornih obrazaca pojedinca; trening uključuje korisnika koji čita naglas uzorke teksta. Danas, s rastućom snagom osobnih računala i mobilnih uređaja, točnost prepoznavanja govora značajno se poboljšala. Stope pogrešaka smanjene su na oko 5 posto u vokabulama koji sadrže desetke tisuća riječi. Još je veća točnost postignuta u ograničenim rječnicima za specijalizirane aplikacije poput diktata radioloških dijagnoza.