LECTIO PRAECURSORIA, Mikko Kurimo, 3.10.1997

Herra Valvoja, Herra Vastaväittäjä, Arvoisat Kuulijat:

Automaattisen puheentunnistuksen tavoitteena on helpottaa ihmisten kommunikaatiota sekä koneiden että toisten ihmisten kanssa.

Koska nykyisenkaltaiset tietokoneet eivät ymmärrä välitettyjä viestejä samalla tavoin kuin ihmiset, automaattisella puheentunnistuksella tarkoitetaankin yleensä vain tiettyjen sanojen, niiden osien tai irrallisten yksinkertaisten lauseiden erottamista ihmispuheesta. Puheen ymmärtämistä ja sen mukaista toimintaa ei tässä työssä ole tarkasteltu, vaikka se kiinteästi tunnistamiseen liittyykin.


Puheentunnistuksen useimmat kaupalliset nykysovellukset liittyvät tehtäviin, joissa puheesta poimitaan automaattisesti tiettyjä komentoja ja toimitaan, edelleen automaattisesti, niiden mukaan.

Näissä sovelluksissa tunnistusvirheet johtavat yleensä tehtävän epäonnistumiseen, joten epävarmoissa tapauksissa tunnistettu komento on varmennettava tai toistettava. Käytettävissä oleva sanasto on näissä sovelluksissa yleenä suppeahko ja puhujan tiedossa. Esimerkkinä tällaisesta on puheohjattava matkapuhelin ja automaattiset palvelupuhelimet.

Puheentunnistuksen tärkeistä sovelluksista osa on myös sellaisia, joissa puhe automaattisesti muunnetaan tekstiksi toisia ihmisiä varten. Tällöin tulos saa sisältää myös kirjoitusvirheitä kuten kirjoitetut viestitkin, mutta käytettävissä olevan sanaston tulee olla hyvin laaja.

Tunnistusvirheiden minimoimiseksi on usein mahdollista käyttää ns. puhujariippuvia tunnistusmalleja. Mallit voidaan opettaa kokonaan puhujan antamien puhenäytteiden perusteella tai mukauttaa kunkin puhujan erityispiirteisiin käyttäen lähtökohtana yleisempää tunnistusmallia.

Esimerkkinä tällaisesta sovelluksesta on vaikkapa tulostava sanelukone tai kirjoitettuja äänteitä tulostava puhelin huonokuuloisille.


Vahvasti yksinkertaistettuna puhetta tunnistetaan seuraavina neljänä päävaiheena:

  1. Puheen tallennus digitaaliseksi signaaliksi
  2. Signaalia kuvaavien piirteiden laskeminen lyhyissä ajanjaksoissa
  3. Piirrevektorijonon luokittelu foneemeiksi ja sanoiksi
  4. Tunnistustuloksen jälkikäsittely sovelluksen mukaan

Puheentunnistamisen ensimmäiset vaiheet, aina piirrevektorien laskemiseen asti, on lähes kaikissa nykyisissä puheentunnistimissa toteutettu melko samankaltaisin keinoin. Tunnetuin menetelmä on ns. kepstrikerrointen laskeminen kullekin signaalista irroitetulle lyhyelle ikkunalle.

KUVA (Kepstrejä)

Koska useimmat puhesignaalin piirteet vaihtuvat melko hitaasti ikkunoiden leveyteen, noin 0.01 sekuntia, verrattuna, on luokittelua varten tapana täydentää piirrevektoria liittämällä mukaan kepstrikertoimien muutoksia tai keskiarvoja läheisissä ikkunoissa. Lähiympäristön huomioonottaminen on hyödyllistä myös siksi, että äänteet usein mukautuvat jonkin verran naapureihinsa.

Myös muita piirteitä kuin kepstrejä voidaan käyttää, mutta ne ovat harvoin johtaneet merkittäviin tulosparannuksiin.


Tässä työssä on perehdytty etupäässä siihen, miten puhesignaalia kuvaava piirrevektorijono saadaan muutettua tekstiksi niin, että syntyy mahdollisimman vähän kirjoitusvirheitä.

Eräs ratkaisu olisi yksinkertaisesti ensin pilkkoa ajan mukana etenevä piirrevektorijono puheen eri foneemeita vastaaviin palasiin. Sitten vaan luokitellaan kukin pala erikseen ja annetaan tulokseksi foneemeja vastaavat kirjaimet.

Käytännössä tämä ei kuitenkaan ole järkevää, sillä piirrevektorijonon pilkkomien eli segmentointi liittyy hyvin kiinteästi luokittelutehtävään. Erillinen segmentointi hukkaa siten luokittelua varten tärkeää tietoa puheen ajallisesta rakenteesta.

Parhaan tunnistustuloksen saavuttamiseksi piirrevektorijonon jako foneemeiksi ja foneemien luokittelu, yhdistetään yhdeksi laajemmaksi tehtäväksi. Ratkaisuvaihtoehdoista valitaan sitten se, jossa foneemeille opetetut mallit ja näytteestä lasketut piirrevektorit, parhaiten sopivat yhteen.


KUVA (Puhesignaalin jakaantuminen tiloihin)

Tällaista ongelmaa voidaan kuvata likimääräisellä mallilla, jossa signaalia tuottava systeemi (eli puhujan ääniväylä) siirtyy tilasta toiseen ja kussakin tilassa tuottaa tilastollisilta piirteiltään hieman erilaista signaalia.

Luokittimen tehtävä on valita puheesta lasketulle piirrevektorijonolle sitä parhaiten vastaavien tilojen jono, kun luokittimelle on etukäteen opetettu minkälaisia piirteitä mikin tila tuottaa ja miten tiloista siirrytään toisiin tiloihin.

Tilamallia kutsutaan kätketyksi Markov-malliksi eli HMM:ksi (engl. Hidden Markov model), jota on laajalti sovellettu juuri puheentunnistukseen. Malli sopii hyvin myös muihin tunnistustehtäviin, joissa systeemistä voidaan likimäärin erottaa äärellinen määrä tiloja, jotka voidaan erottaa toisistaan tuotettujen signaalien tilastollisten ominaisuuksien perusteella. Esimerkkinä mm. käsinkirjoitettujen merkkien tunnistus.

Yksinkertainen matemaattisen käsittely perustuu oletuksiin että systeemi voi olla vain yhdessä tilassa kerrallaan ja mahdollisuus siirtymiseen tilasta toiseen ei riipu siitä mitä kautta lähtötilaan on päädytty. Tätä kutsutaan matematiikassa ns. Markov-ominaisuudeksi. Lisäksi peräkkäisten piirremittausten tulisi olla riippumattomia toisistaan.

Nimitys kätketty Markov-malli tulee siitä että systeemin tila ei ole suoraan näkyvissä vaan se täytyy määrittää yhdistämällä saatuihin havaintoihin liittyvät todennäköisyydet tilojen ominaisuuksiin.


Tässä väitöskirjassa puheen automaattisesta muuntamista tekstiksi on tutkittu tutkimuslaboratoriossamme kehitettyjen neuroverkkoalgoritmien eräänä pilottisovelluksena.

Tarkoitus on selvittää voidaanko neuroverkkoalgoritmien avulla helpottaa tavanomaisten tilastollisten menetelmien käyttöä sellaisissa tapauksissa, jossa tehtävän vaikeus ja tarvittavan esimerkkiaineiston laajuus tekevät tavanomaisen matemaattisen mallinnuksen hankalaksi.


Suurten tietoaineistojen havainnollistamisessa käytetään nykyään yleisesti professori Kohosen vuonna 1981 julkistamaa itseorganisoivaa karttaa eli SOM:ää (engl. Self-Organizing Map).

Itseorganisoiva kartta oppii automaattisesti kuvaamaan esimerkkiaineiston karttapisteiden joukkona, jossa lähekkäiset pisteet kuvaavat lähekkäisiä tietoalkioita. Samalla itseorganisoituva kartta oppii kuvaamaan aineiston tiheysjakaumaa, siten että niillä alueilla, joilla näytteitä on paljon, myös karttapisteitä on tiheässä. Näinollen aineiston tiheysfunktion arvo on sitä suurempi, mitä lähempänä lähimmät karttapisteet ovat havaintoa.

Kartta itseorganisoituu siksi, että kutakin valittua esimerkkipistettä kohti sitä parhaiten vastaava karttapistettä opetetaan kuvaamaan esimerkki hiukan paremmin. Tärkeää tässä algoritmissa on erityisesti se, että myös parhaan karttapisteen naapurit oppivat. Tästä seuraa vähitellen, että koko aineisto kuvautuu kartalle järjestäytyneesti.

Tällöin kuvaus on myös sileä, koska jokaisen pisteen sijaintiin vaikuttaa myös sen lähiympäristöön osuneet esimerkkipisteet.


Kun kätketyillä Markovin malleilla halutaan saavuttaa mahdollisimman suuri tarkkuus, tarvitaan mallin jokaisessa tilassa esiintyville piirteille mahdollisimman tarkka kuvaus.

Esimerkiksi oletus normaalijakaumasta on aivan riittämätön. Hyvä tarkkuus voidaan sen sijaan saavuttaa yhdistämällä monta normaalijakaumaa, joiden keskikohdat on valittu sopivasti. Tällaista tiheysfunktiota kutsutaan ns. sekoitetiheysfunktioksi (engl. mixture density function).

Tässä työssä on saavutettu hyviä tuloksia sijoittamalla nämä normaalijakaumien keskikohdat itseorganisoivan kartan karttapisteisiin. Tällöin saavutetaan tiheysfunktiolle suurin tarkkuus kohdissa missä esimerkkinäytteiden tiheys on suurin, koska siellä on myös eniten karttapisteitä ja havainnot ovat lähellä normaalijakaumien keskikohtia.

Kartoitustarkkuuden kohdentuminen tärkeimmille alueille sopii hyvin tilojen väliseen luokitteluun. Vain niiden tilaehdokkaiden, joiden ominaisuudet parhaiten sopivat havaittuihin piirteisiin, tarkat tiheysfunktion arvot ovat luokittelutuloksen kannalta tärkeitä.


Pyrittäessä optimaaliseen luokittelutarkkuuteen eri vaihtoehtojen kesken on järkevää keskittyä nimenomaan parhaiden kandidaattien välisten erojen selkiyttämiseen. Luokitteluvirheiden minimoimiseksi päätösrajat asetetaan niin, että aina tulee valituksi se vaihtoehto, jonka tiheysfunktion arvo kyseisessä tapauksessa on suurin.

Käytännön ongelmissa eri vaihtoehtojen tiheysfunktiot ovat usein tuntemattomia ja niin monimutkaisia ettei niitä voida kerätyn esimerkkiaineiston avulla määrätä kyllin tarkasti. Neuraalilaskennan menetelmillä luokittelun kannalta oleelliset piirteet voidaan kuitenkin automaattisesti oppia esimerkkiaineistosta.

KUVA (Aineistopilvien luokittelu)

Päätösrajan määrittäminen oppimalla esimerkeistä perustuu siihen että kokeilemalla erilaisia päätösrajoja ja tekemällä asteittaisia korjauksia oikeaan suuntaan saadaan virheiden määrä mahdollisimman pieneksi. Lopputulos on tällöin sitä parempi mitä paremmin opetus- ja testiaineisto sopivat toisiinsa. Laskennallisesti hyvin yksinkertainen, mutta tehokas menetelmä tähän on prof. Kohosen kehittämä oppiva vektorikvantisaatio eli LVQ (engl. Learning Vector Quantization).

Oppiva vektorikvantisaatiossa päätös näytteen luokasta tehdään valitsemalla sille lähimmän mallivektorin edustama luokka. Kuvassa mallivektoreita ovat toisaalta mustat pisteet ja toisaalta vaaleat ympyrät. Kahden luokan välinen raja kulkee silloin niiden pisteiden kautta, jotka ovat yhtä kaukana molempien luokkien lähimmistä mallivektoreista.


Vertailtaessa eri menetelmin laskettuja kätkettyjä Markov-malleja on havaittu, että puheentunnistusvirheitä voidaan tehokkaasti vähentää, kun parametrien opetuksessa hyödynnetään oppivaa vektorikvantisointia. Tällä menetelmällä tilojen tiheysfunktiomallit oppivat automaattisesti sellaisiksi, että eri mallien tilojen välinen luokittelutarkkuus on mahdollisimman hyvä.

KUVA (Nuolikaavio opetuksesta)

Tunnistusmallien opettaminen kullekin suomen kielen foneemille sujuu niin, että ensin puhenäytteet jaetaan sanalistan ja jonkin karkean tunnistusmallin mukaan alustavasti kutakin foneemia koskeviin osiin. Karkea tunnistusmalli voi olla alunperin jollakin toisella aineistolla opetettu ja melko yksinkertainen, koska tässä vaiheessa jaon tarkkuus ei ole tärkeä.

Saadusta esimerkkiaineistosta alustetaan kullekin foneemille oma kätketty Markov-malli lähtien itseorganisoivasta kartasta, kuten edellä esitettiin.

Saadun mallin avulla segmentoidaan näytteet eli jaetaan ne uudelleen hieman tarkemmin kutakin mallin tilaa vastaaviin osiin. Tätä jakoa käyttäen mallin parametreille voidaan laskea paremmat arvot.

Tämän jälkeen toistetaan vuorotellen näytteiden segmentointia ja mallien parametriarvojen parantelua yhä uudelleen, kunnes saavutetaan riittävän hyvät mallit.

Oppivan vektorikvantisaation käyttöä varten voidaan segmentointivaiheessa tuottaa kilpailevia luokitteluvaihtoehtoja, joiden malleja päivitetään sopivasti luokitteluvirheiden ehkäisemiseksi.

Koko oppimisprosessi voidaan toteuttaa millä tahansa yleiskäyttöisellä tietokoneella, joskin hyvään tarkkuuteen vaadittavan suuren parametrimäärän ja esimerkkiaineiston käyttö hidastaa oppimisprosessia Myös reaaliaikainen tunnistus on toteutettavissa tehokkailla työasemilla.


Tässä väitöskirjassa esitellään suuri joukko erilaisia tunnistustuloksien vertailuja, jotka on tehty laboratoriossa kehitetyn puheentunnistusjärjestelmän pilottiversion avulla.

Kokeiltujen mallien opetusmenetelmien vertailuista on nähtävissä, että tiettyjen neuraalilaskentamenetelmien käyttö perinteisten tilastollisten mallien apuna johtaa keskimääräisen tunnistusvirhemäärän vähenemiseen.

Väitöskirjatyöni tärkeimpänä pidän niiden menetelmien tutkimista, joilla itseorganisoiviin karttoihin ja oppivaan vektorikvantisaatioon perustuvia automaattisia oppimismenetelmiä voidaan hyödyntää pyrittäessä parantamaan nykyään laajalti käytössäolevien puheentunnistusmallien toimintaa entistä tarkemmilla malleilla.


TKK:n Informaatiotekniikan laboratotion puheentunnistusjärjestelmää on käytetty erilaisten hahmontunnistusmenetelmien testipenkkinä jo lähes 20 vuoden ajan ja sen avulla on saavutettu useita, maailmanlaajuisestikin merkittäviä tuloksia.

Tämän väitöskirjan tutkimuksien suorittamista ovat nämä puheentunnistuksen pitkät perinteet helpottaneet monin tavoin ja haluan siitä kiittää kaikkia aiempia alan tutkijoita sekä muita tutkimustyötä edistäneitä henkilöitä kuten rahoittajia ja kaikkia puhenäytteiden tallentajia.


Back to the thesis home page


Mikko Kurimo
Thu Nov 6 19:43:32 EET 1997