Large Vocabulary Statistical Language Modeling for Continuous Speech Recognition in Finnish

Vesa Siivola, Mikko Kurimo, Krista Lagus

Neural Networks Research Centre, Helsinki University of Technology
Vesa.Siivola@hut.fi Mikko.Kurimo@hut.fi Krista.Lagus@hut.fi

Non-English abstract

Tilastollinen kielen mallinnus (SLM) on oleellinen osa jokaista laajan sanaston jatkuvan puheen tunnistusjärjestelmää (LVCSR). Englanninkielisen LVCSR:n tavoitteet ovat vahvasti vaikuttaneet myös perus-SLM-menetelmien kehitykseen. Suomen kielen rakenne on huomattavasti erilainen kuin englannin, joten perus-SLM-menetelmiä suoraan soveltamalla menestys ei ole missään tapauksessa taattua. Tässä paperissa kuvataan ensimmäisiä yrityksiämme suomenkielisen LVCSR-systeemin rakentamiseksi ja niitä uusia SLM:iä, joita olemme kokeilleet. Koska yksi tavoitteistamme on ollut uutislähetysten indeksointi ja tunnistus, niin aiheen määrittäminen, sanojen palauttaminen perusmuotoonsa ja opetusaineiston huonosti kattamien sanojen mallinnus ovat erityisiä mielenkiinnon kohteitamme. Uudet menetelmämme perustuvat neurolaskentaan käyttäen itseorganisoivia karttoja (SOM), joiden on äskettäin osoitettu onnistuneesti eroittavan ja approksimoivan piileviä semanttisia rakenteita massiivisista tekstikokoelmista.

English abstract

Statistical language modeling (SLM) is an essential part in any large-vocabulary continuous speech recognition (LVCSR) system. The development of the standard SLM methods has been strongly affected by the goals of LVCSR in English. The structure of Finnish is substantially different from English, so if the standard SLMs are directly applied, the success is by no means granted. In this paper we describe our first attempts of building a LVCSR for Finnish and the new SLMs that we have tried. One of our objective has been the indexing and recognition of broadcast news, so special issues of our interest are topic detection, word stemming and modeling words that are poorly covered in the training data. Our new methods are based on neural computing using the self-organizing map (SOM) which has recently been shown to successfully extract and approximate latent semantic structures from massive text collections.

The paper itself

Entire paper (29 kB)
Mikko Kurimo
Last modified: Tue Apr 9 12:28:49 EEST 2002