Taso 2 (ylemmälle tasolle, seuraava samalla tasolla) | In , please |
Bayesiläisen todennäköisyyslaskennan peruskaavat ovat summa- ja
tulokaava:
P(A | C) + P(¬A | C) = 1
P(AB | C) = P(A | C) P(B | AC)
C tarkoittaa tässä taustaoletuksia. Usein C jätetään merkitsemättä:
P(A) + P(¬A) = 1
P(AB) = P(B) P(A | B)
Jos B1, ..., Bn ovat n toisensa poissulkevaa
selitystä A:lle, summa- ja tulokaavasta voidaan johtaa
marginalisaatioperiaate
P(A) = P(AB1) + ... + P(ABn) = P(A |
B1) P(B1) + ... + P(A | Bn)
P(Bn).
Toisin sanoen A:n todennäköisyys saadaa käymällä läpi kaikki
mahdolliset selitykset A:lle.
Bayesin sääntö taas kertoo kuinka hypoteesien todennäköisyys
muuttuu, jos mitataan A.
P(Bi | A) = P(Bi) P(A | Bi) / P(A)
Toisin sanoen niiden selitysten, jotka sopivat hyvin havaintoon,
todennäköisyys kasvaa.
Klassisessa deduktiivisessa logiikassa käsitellään päättelyä säännöistä, kun käytetään binäärisiä kyllä/ei -totuusarvoja. Bayesiläisen todennäköisyyslaskennan voi johtaa aksioomista, jotka kuvaavat epävarmoilla totuusarvoilla tapahtuvaa päättelyä. Bayesiläisen todennäköisyyslaskennan voi siis käsittää klassisen logiikan laajennuksena epävarmoille totuusarvoille.
Tämä laajennus mahdollistaa myös induktiivisen logiikan kuvaamisen: premisseiksi valitaan joukko hypoteeseja mahdollisista maailmoista ja havainnot tukevat joitakin hypoteeseja ja ovat joitakin vastaan. Induktiivisuus siis upotetaan premisseihin ja varsinainen päättely on deduktiivista. Induktiiviseen päättelyyn pystyvän logiikan täytyy pystyä esittämään epävarmuutta, koska yleensä havainnot eivät täysin varmista tai hylkää mitään hypoteesia vaan ainoastaan tukevat tai ovat vastaan.
Mitä monimutkaisempi malli on, sitä paremmin sillä voi kuvata datan. Kuitenkaan liian monimutkainen malli ei ole järkevä. Oletetaan esimerkiksi, että on mitattu data D. Äärimmäinen esimerkki monimutkaisesta mallista on sellainen, jonka mukaan mittaus on D. Se siis selittää mittauksen täysin, mutta sitä ei kuitenkaan voi käyttää mihinkään.
Intuitiivisesti on selvää, että yksinkertainen selitys on parempi kuin monimutkainen, jos molemmat selittävät datan yhtä hyvin. Informaatioteoreettisesti perusteltu menetelmä Minimum Message Length (MML) ilmaisee tämän eksaktisti. Siinä tarkastellaan kuinka pitkä datan kuvaus on, kun apuna käytetään mallia. Ensin kuvataan datalle malli ja sitten kuvataan mallin tekemät virheet. Näiden yhteenlaskettu kuvauspituus yritetään sitten minimoida.
Kullback-Leibler-informaation minimointi antaa erikoistapauksena käytännöllisesti katsoen saman kaavan kuin MML.
Myös MacKay on käyttänyt gaussista approksimaatiota posteriorille. Hän on kuitenkin käyttänyt täyttä kovarianssimatriisia. Hyvä puoli on tietenkin se, että approksimaatio on parempi. Huono puoli on se, että täyden kovarianssimatriisin laskeminen ja käyttäminen on erittäin raskasta ja altista virheille, jos parametreja on paljon. MacKay on käyttänyt hyväksi sitä, että approksimaatio on lokaalisti tarkka. Tässä käytetty Kullback-Leibler-informaatio palautuu MacKayn menetelmään, jos käytetään samaa approksimaatiota posterioritiheydelle, mutta tässä esitetty menetelmä soveltuu myös tapauksiin, joissa approksimaatio ei ole edes lokaalisti tarkka.
Lisäksi MacKay on käyttänyt MAP-estimaattia, mistä aiheutuu ongelmia. MacKayn menetelmässä kaikkia parametreja ei esimerkiksi välttämättä voi estimoida samanaikaisesti. (Esimerkiksi MacKayn kuvaamat ongelmat w:n, alfan ja beetan samanaikaisessa estimoinnissa johtuvat MAP-estimaatista.) Tässä esitettyssä menetelmässä minimoidaan yhtä ainoaa virhefunktiota: posterioritiheyden ja sen approksimaation välistä Kullback-Leibler-informaatiota.
Olen osoittanut, kuinka neuroverkoille saa tehokkaasti laskettua Kullback-Leibler-informaation laskemiseen tarvittavan odotusarvon. Tavallisesti neuroverkon neuronit laskevat aktivaationsa muiden neuronien aktivaatioista. Esittämäni menetelmä perustuu diagonaaliseen kovarianssiin posterioritiheyden gaussisessa approksimaatiossa ja siihen, että kaikille verkon aktivaatioille lasketaan keskiarvo ja varianssi. Verkon neuronit siis laskevat aktivaationsa keskiarvon ja varianssin muiden neuronien aktivaatioiden keskiarvoista ja variansseista.
Päivitetty 7.10.1998
Harri Lappalainen