Taso 3 (ylemmälle tasolle, edellinen ja seuraava samalla tasolla)

Tilastollinen malli datalle

Edellä esitellyssä induktiivisessa päättelyssä kaikkien mahdollisten hypoteesien on sisällyttävä premisseihin, eikä oppimisella näin ollen voida keksiä uusia hypoteeseja. Premisseinä annettavan hypoteesien joukon on siksi oltava mahdollisimman kattava. Toisaalta oppiminen voi muuttua laskennallisesti hyvin raskaaksi, jos joudutaan päivittämään todennäköisyys valtavan suurelle määrälle hypoteeseja jokaisen uuden havainnon jälkeen.

Ratkaisuna tähän ongelmaan voidaan käyttää parametrisia tilastollisia malleja, jotka ovat hypoteeseja siitä kuinka data (havainnot) on syntynyt. Merkitään dataa D:llä ja premissejä I:llä. Tilastollinen malli M, jolla on parametrit w, kertoo datan todennäköisyyden p(D | MwI). Premissien mukaan siis datan todennäköisyys p(D | MwI) riippuu mallin rakenteesta M ja parametreista w.

Yksinkertainen esimerkki tilastollisesta mallista on gaussinen jakauma, jonka parametrit ovat keskiarvo ja varianssi. Erilaisten gaussisten jakaumien joukko ei tietenkään ole mitenkään erityisen kattava. Väitöskirjani käsittelee neuroverkkoja, joka on yleisnimitys astetta monimutkaisemmille parametrisille malleille. Neuroverkkojen rakenne on yleensä modulaarinen ja sinänsä yksinkertainen, mutta ne sisältävät hyvin suuren määrän parametreja ja ovat siksi joustavia.

Ennustus havaintojen ja mallin avulla

Vaikka premissien I mukaan datan on tuottanut jokin malli, tätä ei pidä ymmärtää siten, että yhden mallin `oikeasti' ajatellaan pitävän paikkansa. Mallit ovat apuvälineitä, joilla havainnot voidaan muuttaa ennustuksiksi ja päätöksiksi bayesiläistä todennäköisyyslaskentaa käyttäen.

Olkoon X asia, jonka todennäköisyys halutaan selvittää havainnoista D mallien M avulla. Marginalisaatioperiaatteen mukaan todennäköisyys p(X | DI) saadaan integroimalla mallien ja parametrien yli todennäköisyydestä p(XMw | DI), joka taas saadaan laskettua tulokaavasta.

p(XMw | DI) = p(Mw | DI) p(X | MwDI)

Mallit pyritään valitsemaan siten, että p(X | MwDI) on helppo laskea. Usein pyritään esimerkiksi siihen, että data D voidaan unohtaa, jos malli M on tiedossa: p(X | MwDI) = p(X | MwI).

p(XMw | DI):n kaavasta nähdään, että X:n todennäköisyyden laskemiseen käytetään kaikkia malleja painotettuna mallien posterioritiheydellä p(Mw | DI).

Mallien priori- ja posterioritiheys

Posterioritiheys p(Mw | DI) voidaan laskea Bayesin säännön avulla:

p(Mw | DI) = p(Mw | I) p(D | MwI) / p(D | I)

p(D | MwI) saadaan mallin määritelmästä. p(Mw | I) on mallien ja parametrien prioritiheys, eli uskomus mallien todennäköisyyksistä ja niiden parametrien arvoista ennen kuin mittauksia on tehty. Mikäli priorista ei ole tietoa, voidaan käyttää Jeffreysin prioria (mahdollisesti hieman muunneltuna).

Bayesin sääntö kertoo kuinka havainto D muuttaa prioritiheyden posterioritiheydeksi. Mitä paremmin malli ennustaa havainnon eli mitä suurempi p(D | MwI) on sitä suurempi mallin posterioritiheys on suhteessa prioritiheyteen.

p(D | I) on termi, joka normalisoi posterioritiheyden niin, että se integroituu ykköseksi, eli p(D | I) saadaan integroimalla p(Mw | I) p(D | MwI) = p(DMw | I) mallien M ja niiden parametrien w yli.

Esimerkki ennustamisesta Gaussin jakaumalla ja Jeffreysin priorilla mallintamalla.

Mallien jakaumasta

Kaikki tilastotieteilijät eivät hyväksy yllä esitetty bayesiläistä lähestymistapaa mallintamiseen. Frekventistit ovat sitä mieltä, että todennäköisyydestä voidaan puhua vain, kun käsitellään havaintoja, joita jokin tilastollinen prosessi tuottaa, siis silloin, kun todennäköisyys voidaan tulkita frekvenssiksi. Frekventisti tulkitsee havaintojen syntyneen tilastollisen prosessin tuloksena, kun taas malli on kiinteä. Siksi frekventisti ei halua puhua mallien todennäköisyyksistä, vaan kaikki tarkastelu rajoitetaan datan todennäköisyyteen p(D | MwI). Sen sijaan että käytettäisiin useaa mallia, frekventistisessä analyysissä käytetään yleensä vain parasta, missä paras on määritelty jonkin sopivan kriteerin mukaan.

Ero bayesiläisen ja frekventistisen tilastotieteen välillä syntyy siis todennäköisyyden käsitteen tulkinnassa. Kuten edellä on nähty, summa- ja tulokaava voidaan johtaa hyvin yleisistä periaatteista, joissa tarkastellaan vain uskomuksen muuttumista havainnon seurauksena. Näin ollen funktio p() voidaan käsittää myös uskottavuudeksi. Jos siis lähdetään siitä, kuinka paljon uskomme X:ään havaittuamme D:n, päädytään bayesiläisen tilastotieteen kaavoihin.

Ensisilmäyksellä frekventistisen ja bayesiläisen mallintamisen ero ei näytä suurelta. Erot tulevat ilmeisiksi vasta, kun tarkastellaan riittävän monimutkaisia malleja. Koska monimutkaisempi malli pystyy luultavasti kuvaamaan datan tarkemmin, p(D | MwI) on yleisesti ottaen sitä suurempi mitä monimutkaisempi malli on. Jos valitaan yksi ainoa malli pelkästään p(D | MwI):n perusteella, päädytään siis käyttämään mahdollisimman monimutkaista mallia, joka ei luultavasti ole hyvä p(X | MwI):n laskemiseen. Bayesiläisessä analyysissä tätä ongelmaa ei tule, kun käytetään kaikkia malleja marginalisaatioperiaatteen mukaisesti.


Taso 3 (ylemmälle tasolle, edellinen ja seuraava samalla tasolla)

Päivitetty 7.10.1998.
Harri Lappalainen

<Harri.Lappalainen@hut.fi>