Kõnetuvastus

Maailmas on ligi 200 riiki ja räägitakse pea 7000 erinevas keeles. Kuid keeli, mida arvutitele õpetatakse, on vaid viiskümmend, nende seas ka eesti keel. TTÜ Küberneetika Instituudi foneetika ja kõnetehnoloogia laboratooriumis tegeldakse tarkvara arendustega, mis lubavad inimestel arvutiga eesti keeles suhelda – infot pärida, teed küsida, lasta vahemaid arvutada, aritmeetilisi tehteid teha, kõnet tekstiks teisendada jne. Kõik need rakendused on kättesaadavad juba ka nutitelefonis. Kuidas kõnetuvastus täpselt toimub, selgitavad Tanel Alumäe ja Einar Meister.

Kõnetuvastuse toimimisest

Selles videos selgitab Tanel Alumäe järgmisi küsimusi:

  • Mis on kõnekorpus?
  • Kuidas toimub kõnetuvastus ja käekirjatuvastus?
  • Kui palju sõnu sisaldab praegune tuvastussüsteem?
  • Milliseid mudeleid kõnetuvastusmootoris kasutatakse?
  • Millised on programmiga seotud tänased peamised probleemid?

Digitaliseeritud heli uurimisest

Einar Meister demonstreerib, kuidas tõlgendab arvuti helilaineid, mida inimene tajub kõnena:  kus on üksikute häälikute piirid ja millised on nende tunnused. Kõnetuvatastusprotsessi esimeseks sammuks ongi heli salvestamine ja digitaliseerimine. Seejärel eeltöödeldakse signaali selleks, et teisaldada see tuvastuseks sobivamale kujule. Meister selgitab, kuidas uuritakse kõne meloodiat ja rõhke ning millised parameetrid mõjutavad aksendi tajumist.

Aksendist ja võõrkeelse inimese keeletajust

TTÜ foneetikalaboris uuritakse ka aktsente. Lia Meister on peamiselt vaadelnud eesti keele keerukust vene keele kõnelejate jaoks. Kõige raskem on eesti häälduse juures tema sõnul see, et meil on 9 vokaali aga vene keeles vaid 6 vokaali ja just need, mis puuduvad vene keeles ,tekitavad raskusi nii taju kui häälduse tasandil. Need häälikud on ü,ö,ä ja ka õ sest õ eesti keeles ja vene keeles on erinevad. Erinevate aksentide uurimisel kasutatakse artikulograafi, mille abil saab jälgida keele liikumist, keele kõrgust ühe või teise vokaali hääldamisel ning siis võrrelda eestlaste ja muulaste hääldamisharjumusi ja selle põhjal aidata keeleõppes artikulatsiooni paika panna. Lia Meisteri teiseks uurimisvaldkonnaks on võõrkeelse inimese keeletaju. Ja Eesti keeles on siin üsna mitmeid komistusmomente.

Artikulatsiooni uurimisest

Inimestevaheline suhtlus on oma olemuselt multimodaalne – lisaks kõnele edastame informatsiooni ka visuaalselt žestide, näoilme, kehakeele, jm kaudu. Järgnevas videos tõmbab Einar Meister kätte anduritega kindad, tänu millele saab uurida artikulatsiooni. Meister selgitab, kuidas kinnaste abil artikulatsiooni uurimine käib. Tulevikus soovivad teadlased luuga ka kahe kindaga süsteemi, mille abil saaks luua kõnetuvastusprogrammi ka viipekeelele.

Kõnetuvastuse rakendused nutitelefonidele

 Tänu Tallinna Tehnikaülikooli foneetikalaborile on meil võimalik nutitelefonidega eesti keeles suhelda ja neilt nõu küsida. Valminud on kolm rakendust android operatsiooniga nutitelefonile. Esimene neist nimega Diktofon töötab tavalise diktofonina, salvestades teksti – näiteks võib see rakendus sobida kirjade dikteerimiseks. Lisaks  tavalise diktofoni funktsionaalsusele oskab ta eestikeelseid kõnesalvestusi automaatselt transkribeerida. Teine rakendus võimaldab peaaegu reaalajalist dikteerimist ja on mõeldud lühemate kõnesalvestuste tegemiseks olukordades, kus teksti on vaja kiiresti, näiteks SMS-i dikteerimiseks. Kolmas lahendus, mis kannab nime Arvutaja oskab arvutada matemaatilisi tehteid ja teisendada ühikuid – näiteks miile kilomeetriteks, mis oleks kasulik abi näiteks Ameerika pikkadel kiirteedel sõitjaile, et teekondade pikkusest paremat aimu saada.

Kõnetuvastus: mis? miks? kuidas?

Kõnetuvastus on tehnoloogia, mille abil leitakse automaatselt sõnad ja laused, mis kõige paremini vastavad sisendiks olevale inimkõnele. Selline tehnoloogia võimaldab luua mitmesuguseid rakendusi, kus kõnetuvastuse väljund võib olla lõpptulemuseks (näit. dikteerimine) või sisendiks edasisele töötlusele (näit. tuvastatud sõnade põhjal käskluste edastamine seadmetele, kõne semantiline analüüs automaatses dialoogisüsteemis). Kõnetuvastusteadus on interdistsiplinaarne valdkond, kus kasutatakse meetodeid arvutiteadusest, signaalitöötlusest, matemaatikast, foneetikast ja lingvistikast. Järgnevas videos räägib Einar Meister lahti küsimused, kas eesti keeles saab arvutitega juba rääkida, kui palju on kõnetuvastus tuleviku tehnoloogia ja kui palju juba tänapäev ning ka sellest, miks on kõnetuvastus inseneride ja mitte filoloogide ala?

TTÜ Küberneetika Instituudi foneetika ja kõnetehnoloogia laboratooriumis tehti esimesed eksperimendid eestikeelse kõnetuvastusega juba kaheksakümnendate lõpus. Aktiivsemalt hakati tuvastusega tegelema 2000-ndate keskel. Suure tõuke sellele andis kahe mahuka eesti keelse kõne andmebaasi (BABEL ja Eesti SpeechDat) loomine, mis võimaldasid treenida juba üsna hästi toimivaid akustilisi mudeleid…

Loe edasi (ja täienda) Vikipeediast

Roheline Kool

Seekordsed kooliviktoriiniküsimused:

  1. Mis kohta (ja miks) saatis kõnetuvastusseade Tallinn-Varssavi marsruudiküsimise peale küsija „Püramiidi tipus saates?
  2. Kui pikk on minimaalne paus, mida kõnetuvastus võib pidada sõnavaheks (Einar Meisteri sõnul)?
  3. Millisest kirjandusteosest (pealkiri+autor) pärineb järgnev katkend:
 “Sa kuulsid, kuidas ma selle robotiga kohtusin,” alustas Alvin. “Tema valduses peavad olema hindamatud teadmised minevikust, mis ulatub aega, mil linna, nagu me seda praegu tunneme, ei olnud veel olemas. Võib-olla saaks ta meile isegi rääkida maailmadest, mis asuvad väljaspool Maad, sest ta tegi kaasa Meistri rännakud. Õnnetuseks on tema kõnelülitused blokeeritud.”

Loe lähemalt viktoriinist Roheline Kool!

Lisalugemist

Kuidas arvuti kuulab ja kõneleb? (Horisont, 2010)
Einar Meister ja Tanel Alumäe kirjutavad pikalt ja põhjalikult lahti kõnesignaali olemuse, kõneanalüüsi, kõnesünteesi ja tuvastusprotsessi.


Inimkõne on arvutile võõrkeel
(Horisont, 2004)
Artikkel kõnetuvastusest, autoriteks Tanel Alumäe ja Toomas Kirt.


Kõnetehnoloogia on huvitav ja perspektiivne ala
(Õpetajate Leht, 2010)
Sirje Tohver intervjueerib Tanel Alumäed kõnetuvastuse teemal.

Foneetika ja kõnetehnoloogia laboratooriumi veebileheküljelt
leiad infot laboris töötavate inimeste, projektide ja väljatöötatud tarkvara kohta.

EINAR MEISTER (1957) on Tallinna Tehnikaülikooli Küberneetika Instituudi foneetika ja kõnetehnoloogia labori juhataja, vanemteadur, PhD.
Alates aastast 1999 Rahvusvahelise Kõnekommunikatsiooni Assotsiatsiooni (International Speech Communication Association) liige.
Talle on antud aastal 2003 Eesti Vabariigi teaduspreemia tehnikateaduste alal „Eesti keele tekst-kõne süntees” koos Meelis Mihkla, Aevo Eegi ja Heiki-Jaan Kaalepiga.
Teadustöö põhisuunad: kõnesignaalide analüüs, süntees ja tuvastus, kõnelejatuvastus, kõne andmebaasid, eksperimentaalfoneetika, keeletehnoloogia rakendused.

TANEL ALUMÄE (1976) on Tallinna Tehnikaülikooli Küberneetika Instituudi foneetika ja kõnetehnoloogia labori vanemteadur, PhD. Doktorikraadi kaitses 2006. aastal Tallinna Tehnikaülikoolis teemal „Suure sõnavaraga eestikeelse kõnetuvastuse meetodid”. Peamine uurimisteema jätkuvalt automaatne kõnetuvastus.
Täiendanud end muuhulgas Saksamaal Erlangen-Nürnbergi ülikoolis ning järeldoktorantuuris Pariisis ja Helsingis Aalto ülikoolis.

 

  • Toetajad

    ESF TeaMe Archimedes      Haridus- ja Teadusministeerium