Large Vocabulary Statistical Language Modeling for Continuous
Speech Recognition in Finnish
Vesa Siivola, Mikko Kurimo, Krista Lagus
Neural Networks Research Centre,
Helsinki University of Technology
Vesa.Siivola@hut.fi
Mikko.Kurimo@hut.fi
Krista.Lagus@hut.fi
Non-English abstract
Tilastollinen kielen mallinnus (SLM) on oleellinen osa jokaista laajan
sanaston jatkuvan puheen tunnistusjärjestelmää (LVCSR).
Englanninkielisen LVCSR:n tavoitteet ovat vahvasti vaikuttaneet myös
perus-SLM-menetelmien kehitykseen.
Suomen kielen rakenne on huomattavasti erilainen kuin englannin,
joten perus-SLM-menetelmiä suoraan soveltamalla menestys ei ole
missään tapauksessa taattua.
Tässä paperissa kuvataan ensimmäisiä yrityksiämme suomenkielisen
LVCSR-systeemin rakentamiseksi ja niitä uusia SLM:iä, joita olemme
kokeilleet.
Koska yksi tavoitteistamme on ollut uutislähetysten indeksointi ja
tunnistus, niin aiheen määrittäminen, sanojen palauttaminen
perusmuotoonsa ja opetusaineiston huonosti kattamien sanojen mallinnus
ovat erityisiä mielenkiinnon kohteitamme.
Uudet menetelmämme perustuvat neurolaskentaan käyttäen itseorganisoivia
karttoja (SOM), joiden on äskettäin osoitettu onnistuneesti eroittavan
ja approksimoivan piileviä semanttisia rakenteita massiivisista
tekstikokoelmista.
English abstract
Statistical language modeling (SLM) is an essential part in any
large-vocabulary continuous speech recognition (LVCSR) system. The
development of the standard SLM methods has been strongly affected by
the goals of LVCSR in English. The structure of Finnish is
substantially different from English, so if the standard SLMs are
directly applied, the success is by no means granted. In this paper
we describe our first attempts of building a LVCSR for Finnish and the
new SLMs that we have tried. One of our objective has been the
indexing and recognition of broadcast news, so special issues of
our interest are topic detection, word stemming and
modeling words that are poorly covered in the training data. Our
new methods are based on neural computing using the self-organizing
map (SOM) which has recently been shown to successfully extract and
approximate latent semantic structures from massive text collections.
The paper itself
Entire paper (29 kB)
Mikko Kurimo
Last modified: Tue Apr 9 12:28:49 EEST 2002