Taso 2 (ylemmälle tasolle, seuraava samalla tasolla) In English, please

Mallintamisen teoriaa

Bayesiläinen todennäköisyyslaskenta

Bayesiläisessä tilastotieteessä todennäköisyys tulkitaan uskomuksen asteeksi. Tulkinta on siis laajempi kuin ns. frekventistisessä koulukunnassa, jossa todennäköisyys käsitetään tapahtuman esiintymistiheyden raja-arvoksi äärettömyydessä. Laajempi tulkinta mahdollistaa oppimisen ja älykkyyden kuvaamisen täsmällisellä matemaattisella kielellä.

Peruskaavat

Bayesiläisen todennäköisyyslaskennan peruskaavat ovat summa- ja tulokaava:
P(A | C) + P(¬A | C) = 1
P(AB | C) = P(A | C) P(B | AC)
C tarkoittaa tässä taustaoletuksia. Usein C jätetään merkitsemättä:
P(A) + P(¬A) = 1
P(AB) = P(B) P(A | B)

Jos B1, ..., Bn ovat n toisensa poissulkevaa selitystä A:lle, summa- ja tulokaavasta voidaan johtaa marginalisaatioperiaate
P(A) = P(AB1) + ... + P(ABn) = P(A | B1) P(B1) + ... + P(A | Bn) P(Bn).
Toisin sanoen A:n todennäköisyys saadaa käymällä läpi kaikki mahdolliset selitykset A:lle.

Bayesin sääntö taas kertoo kuinka hypoteesien todennäköisyys muuttuu, jos mitataan A.
P(Bi | A) = P(Bi) P(A | Bi) / P(A)
Toisin sanoen niiden selitysten, jotka sopivat hyvin havaintoon, todennäköisyys kasvaa.

Yhteys logiikkaan

Klassisessa deduktiivisessa logiikassa käsitellään päättelyä säännöistä, kun käytetään binäärisiä kyllä/ei -totuusarvoja. Bayesiläisen todennäköisyyslaskennan voi johtaa aksioomista, jotka kuvaavat epävarmoilla totuusarvoilla tapahtuvaa päättelyä. Bayesiläisen todennäköisyyslaskennan voi siis käsittää klassisen logiikan laajennuksena epävarmoille totuusarvoille.

Tämä laajennus mahdollistaa myös induktiivisen logiikan kuvaamisen: premisseiksi valitaan joukko hypoteeseja mahdollisista maailmoista ja havainnot tukevat joitakin hypoteeseja ja ovat joitakin vastaan. Induktiivisuus siis upotetaan premisseihin ja varsinainen päättely on deduktiivista. Induktiiviseen päättelyyn pystyvän logiikan täytyy pystyä esittämään epävarmuutta, koska yleensä havainnot eivät täysin varmista tai hylkää mitään hypoteesia vaan ainoastaan tukevat tai ovat vastaan.

Tilastollinen malli

Tilastollinen malli on apuväline, jolla pystytään määrittelemään joukko hypoteeseja mahdollisista havainnot tuottaneista maailmoista. Kukin malli määrittelee datalle D (havainnoille) todennäköisyysjakauman p(D | MwI). M on mallin rakenne ja w parametrit. Premissejä merkitään tässä I:llä. Bayesin säännöstä saadaan mallien ja parametrien posterioritiheys
p(Mw | DI) = p(Mw | I) p(D | MwI) / p(D | I),
jota voidaan käyttää uusien asioiden ennustamiseen. Usein neuroverkoissa otetaan vain yksi rakenne ja yhdet parametrit, mutta bayesiläisen todennäköisyyslaskennan mukaan oikea tapa on käyttää kaikkia rakenteita ja parametreja painotettuna posterioritiheydellä.

Posteriorin approksimaatio

Jos parametreja on paljon, kuten neuroverkoissa usein on, posterioritiheyttä on yleensä mahdoton tarkasti esittää käyttökelpoisessa muodossa. Käytännössä posterioritiheyttä täytyy approksimoida. Gaussinen approksimaatio on laskennallisesti hallittavissa ja voidaan osoittaa, että posterioritiheys lähestyy asymptoottisesti gaussista jakaumaa näytteiden määrän kasvaessa. Jos parametreja on hyvin paljon, täyden kovarianssimatriisin esittäminen approksimaatiolle on liian raskasta. Oletetaan, että käytetään diagonaalista kovarianssia, jolloin parametrien posterioritiheyden approksimaatiossa täytyy kuvata vain parametrien keskiarvot ja varianssit. Merkitään approksimaatiota p(M, w | i, m, v):lla. Tässä i on mallin rakenteen indeksi (eli approksimaatio antaa nollasta poikkeavia todennäköisyyksiä vain yhdelle rakenteelle), m on parameterien keskiarvo ja v varianssi.

Kullback-Leibler-informaatio

Posterioritiheyden approksimaation hyvyydelle tarvitaan mitta, jolla voidaan valita paras approksimaatio. Kullback-Leibler-informaatio mittaa kahden jakauman etäisyyttä, joten se soveltuu tehtävään. Oppimisen tavoitteena on siis löytää mallin rakenteen ja parametrien tiheydelle approksimaatio, joka on mahdollisimman lähellä todellista posterioritiheyttä.

Yhteys informaatioteoriaan

Mitä monimutkaisempi malli on, sitä paremmin sillä voi kuvata datan. Kuitenkaan liian monimutkainen malli ei ole järkevä. Oletetaan esimerkiksi, että on mitattu data D. Äärimmäinen esimerkki monimutkaisesta mallista on sellainen, jonka mukaan mittaus on D. Se siis selittää mittauksen täysin, mutta sitä ei kuitenkaan voi käyttää mihinkään.

Intuitiivisesti on selvää, että yksinkertainen selitys on parempi kuin monimutkainen, jos molemmat selittävät datan yhtä hyvin. Informaatioteoreettisesti perusteltu menetelmä Minimum Message Length (MML) ilmaisee tämän eksaktisti. Siinä tarkastellaan kuinka pitkä datan kuvaus on, kun apuna käytetään mallia. Ensin kuvataan datalle malli ja sitten kuvataan mallin tekemät virheet. Näiden yhteenlaskettu kuvauspituus yritetään sitten minimoida.

Kullback-Leibler-informaation minimointi antaa erikoistapauksena käytännöllisesti katsoen saman kaavan kuin MML.

Yhteys MacKayn evidenssiin

Myös MacKay on käyttänyt gaussista approksimaatiota posteriorille. Hän on kuitenkin käyttänyt täyttä kovarianssimatriisia. Hyvä puoli on tietenkin se, että approksimaatio on parempi. Huono puoli on se, että täyden kovarianssimatriisin laskeminen ja käyttäminen on erittäin raskasta ja altista virheille, jos parametreja on paljon. MacKay on käyttänyt hyväksi sitä, että approksimaatio on lokaalisti tarkka. Tässä käytetty Kullback-Leibler-informaatio palautuu MacKayn menetelmään, jos käytetään samaa approksimaatiota posterioritiheydelle, mutta tässä esitetty menetelmä soveltuu myös tapauksiin, joissa approksimaatio ei ole edes lokaalisti tarkka.

Lisäksi MacKay on käyttänyt MAP-estimaattia, mistä aiheutuu ongelmia. MacKayn menetelmässä kaikkia parametreja ei esimerkiksi välttämättä voi estimoida samanaikaisesti. (Esimerkiksi MacKayn kuvaamat ongelmat w:n, alfan ja beetan samanaikaisessa estimoinnissa johtuvat MAP-estimaatista.) Tässä esitettyssä menetelmässä minimoidaan yhtä ainoaa virhefunktiota: posterioritiheyden ja sen approksimaation välistä Kullback-Leibler-informaatiota.

Odotusarvon laskeminen neuroverkoille

Olen osoittanut, kuinka neuroverkoille saa tehokkaasti laskettua Kullback-Leibler-informaation laskemiseen tarvittavan odotusarvon. Tavallisesti neuroverkon neuronit laskevat aktivaationsa muiden neuronien aktivaatioista. Esittämäni menetelmä perustuu diagonaaliseen kovarianssiin posterioritiheyden gaussisessa approksimaatiossa ja siihen, että kaikille verkon aktivaatioille lasketaan keskiarvo ja varianssi. Verkon neuronit siis laskevat aktivaationsa keskiarvon ja varianssin muiden neuronien aktivaatioiden keskiarvoista ja variansseista.


Taso 2 (ylemmälle tasolle, seuraava samalla tasolla)

Päivitetty 7.10.1998
Harri Lappalainen

<Harri.Lappalainen@hut.fi>