Taso 3 (ylemmälle tasolle, edellinen ja seuraava samalla tasolla)

Bayesiläisen todennäköisyyslaskennan yhteys logiikkaan

Deduktiivinen logiikka

Klassisessa deduktiivisessa logiikassa tarkastellaan sääntöjä, joiden mukaan alkuoletuksista, premisseistä, tehdään päätelmiä. Jos esimerkiksi A:sta seuraa B ja tiedetään A, voidaan päätellä B (logiikassa tämän päättelysäännön nimi on modus ponens). Logiikan merkinnöin

((A => B) & A) => B

Tämän saman voi ilmaista myös bayesiläisen todennäköisyyslaskennan kielellä. Merkitään premissejä C:llä. Niiden mukaan siis A:sta seuraa B, eli P(B | AC) = 1, ja tiedetään A, eli P(A | C) = 1. Marginalisaatioperiaatteen mukaan

P(B | C) = P(B | AC) P(A | C) + P(B | ¬AC) P(¬A | C) = 1,

joten C:stä saadaan johdettua B. Samaten logiikan merkinnöin esitetty lause (päättelysäännön nimi logiikassa on modus tollens)

((A => B) & ¬B) => ¬A

voidaan ilmaista bayesiläisen todennäköisyyslaskennan merkinnöin P(B | AC) = 1 ja P(B | C) = 0, mistä seuraa

P(A | C) = P(AB | C) + P(A¬B | C) = P(B | C) P(A | BC) + P(A | C) P(¬B | AC) = 0,

joten C:stä saadaan johdettua ¬A.

Bayesiläinen todennäköisyyslaskenta redusoituu klassiseen deduktiiviseen logiikkaan, jos kaikki premisseinä annetut todennäköisyydet ovat nollia ja ykkösiä. Sitä voi kuitenkin soveltaa myös päättelyyn, jossa alkuoletuksissa on epävarmuutta, joten se on deduktiivisen logiikan laajennus.

Induktiivinen logiikka

Kun deduktiivisessa logiikassa yleisistä säännöistä johdetaan erikoistapauksia, induktiivisessa logiikassa erikoistapauksista johdetaan yleisiä sääntöjä. Ilman kykyä löytää yleisiä sääntöjä deduktiivisella logiikalla ei ole merkitystä, koska sitä voidaan käyttää vain jos säännöt ovat jo olemassa.

Klassisessa logiikassa induktio usein sivuutetaan. Esimerkiksi kirjassa Allwood - Andersson - Dahl - Logiikka ja kieli todetaan:

"Deduktiivista logiikkaa on toistaiseksi tutkittu paljon perusteellisemmin kuin induktiivista logiikkaa. Koska edelleen on niin, että deduktiivinen logiikka tarjoaa mielenkiintoisimmat näköalat kielen struktuuriin, niin aiomme seuraavassa käsitellä vain deduktiivista logiikkaa. Tästä lähtien käytämme termiä 'logiikka' termin 'deduktiivinen logiikka' synonyyminä."

Olen eri mieltä kommentista "deduktiivinen logiikka tarjoaa mielenkiintoisimmat näköalat kielen struktuuriin", koska ihmisen kyky muodostaa abstraktioita ja yleistyksiä on osoitus nimenomaan induktiivisen logiikan käytöstä. Ilman sitä kieltä ei olisi olemassa.

Logiikalla tarkoitetaan yleensä juuri deduktiivista logiikkaa, koska vain sille on mahdollista esittää täsmälliset, edes jossain määrin objektiiviset säännöt. Tässä mielessä vain deduktiivinen logiikka on logiikkaa. Myös Bayesiläisen todennäköisyyslaskennan pohjalle rakennettu logiikka on säännöiltään objektiivista ja deduktiivista. Se soveltuu kuitenkin myös induktiivisen logiikan kieleksi, koska sillä voi kuvata epävarmuutta.

Väitöskirjani käsittelee oppimista, joka on luonteeltaan induktiivista, koska yksittäisistä havainnoista rakennetaan yleisempiä malleja. Tähän voidaan soveltaa deduktiivista päättelyä, kun premisseiksi otetaan joukko hypoteeseja mahdollisista malleista. Havainnot sitten tukevat toisia hypoteeseja ja ovat tosia vastaan. Tämä osa päättelystä tapahtuu Bayesin sääntöä soveltaen, kuten edellisessä kappaleessa näytettiin.

Tällaisella induktiivisella päättelyllä ei yleensä koskaan päästä täyteen varmuuteen 'oikeasta' mallista. Todennäköisyydet voivat kyllä rajatta lähestyä ykköstä tai nollaa, kun havaintoja saadaan lisää, mutta eivät koskaan saavuta rajaa. On myös muistettava että varmuutta voi olla vain suhteessa premisseihin (hypoteeseihin mahdollisista malleista). Vaikka havainnot pakottaisivatkin hylkäämään kaikki muut paitsi yhden mallin, voi jollakulla toisella olla toiset premissit, joissa on hypoteesi, joka ei tule hylätyksi. Induktiivinen päättely on siis luonteeltaan subjektiivista. Esimerkkejä hypoteeseista, joita mikään havainto ei voi hylätä, ovat usko Jumalaan tai solipsismi.

Todennäköisyyslaskennan aksiomaattinen perusta

Tässä kappaleessa esitellään pääpiirteissään Coxin johto bayesiläiselle todennäköisyyslaskennalle. Lähtökohtana on tarkastella, millaisia sääntöjä älykkään agentin pitäisi päättelyssään käyttää. Aksiooma on ehkä liian jyrkkä termi kuvaamaan rajoituksia, joita päättelyltä vaaditaan; Jaynes on käyttänyt termiä desideratum, toivottu asia.

Yleensä todennäköisyyslaskussa otetaan aksioomiksi Kolmogorovin aksioomat, jotka perustuvat mittateoriaan ja joukko-oppiin. Nämä aksioomat ovat kuitenkin varsin abstrakteja eivätkä lainkaan ota kantaa siihen, miten todennäköisyys pitäisi tulkita tai mihin sitä voisi käyttää. Koska seuraavassa siis johdetaan todennäköisyyslaskenta lähtien älykkäältä agentilta vaadittavista ominaisuuksista, voidaan todeta, että todennäköisyyttä voidaan käyttää ainakin kuvaamaan uskomuksen astetta ja sen muutoksia uusien havaintojen seurauksena.

Ensimmäinen vaatimus on, että uskomuksen astetta kuvataan reaaliluvulla. Merkitään varmuutta totuudesta ß1:llä ja varmuutta epätodesta ß0:lla. Luonnollisesti vaaditaan, että ß0 on erisuuri kuin ß1. Sitä ei rajoiteta, kumpi on suurempi.

Merkitään (A|B):llä astetta, jolla A:han uskotaan, jos B on oletetaan todeksi. Vaaditaan, että (A|B) on ß0:n ja ß1:n välissä.

Seuraava vaatimus on, että päättelyssä käytetyt propositiot noudattavat Boolen algebran sääntöjä. Jatkossa tullaan käyttämään mm. sääntöjä ¬¬A = A ja (AB)C = A(BC). Koska minkä tahansa Boolen funktion voi määritellä käyttämällä ainoastaan negaatio- sekä ja-operaatiota, riittää määritellä negaation ja konjunktion todennäköisyydet. Itse asiassa yhdistetty negaatio- sekä ja-operaatiokin riittäisi (tätä tulisi vastaamaan kaava P(¬(AB) | C) = 1 - P(A | C) P(B | AC)), mutta on luontevampaa tarkastella negaatiota ja konjunktiota erikseen.

Tulokaava

Kuten aiemmin todettiin, (AB|C) ilmeisesti riippuu (A|C):stä ja (B|AC):stä, sillä jos halutaan varmistua AB:n totuudesta, voidaan ensin varmistua A:n totuudesta ja sitten B:n totuudesta ehdolla A. On siis olemassa funktio F: RxR -> R siten, että AB|C = F(A|C, B|AC).

Funktiota F rajoittava ehto saadaan, kun muistetaan, että ABC = (AB)C = A(BC).

(AB)C|D = F(AB|D, C|ABD) = F(F(A|D, B|AD), C|ABD) ja
A(BC)|D = F(A|D, BC|AD) = F(A|D, F(B|AD, C|ABD))

Jos merkitään x = A|D, y = B|AD ja z = C|ABD, ehto voidaan kirjoittaa F(F(x, y), z) = F(x, F(y, z)). Voidaan osoittaa, että yleinen ratkaisu yhtälölle on

F(x,y) = f-1(f(x) f(y)),

missä f(x) on mielivaltainen bijektiivinen funktio. Lisäehtoja saadaan identiteeteistä A1 = 1A = A sekä A0 = 0 => F(x, ß1) = F(ß1, x) = x ja F(x, ß0) = ß0. Nämä ehdot toteutuvat, kun f(ß1) = 1 ja f(ß0) = 0 tai ääretön. Jos f(ß0) = ääretön, voidaan määritellä f'(ß0) = 1 / f(ß0). Tästä saadaan F(x,y):lle ratkaisu, joka toteuttaa f'(ß1) = 1 ja f'(ß0) = 0.

Jos F(x,y):n yhtälön molempiin puoliin sovelletaan funktiota f, saadaan siis

f(AB|C) = f(A|C) f(B|AC)

siten, että f(ß1) = 1 ja f(ß0) = 0.

Summakaava

Tarkastellaan seuraavaksi proposition ja sen negaation välistä suhdetta. (¬A|B) ilmeisesti riippuu (A|B):stä, joten f(¬A|B) riippuu f(A|B):stä. On siis olemassa funktio S: [0,1] -> [0,1] siten, että f(¬A|B) = S(f(A|B)). Koska S(S(f(A|B))) = S(f(¬A|B)) = f(¬¬A|B) = f(A|B), S:lle ilmeisesti pätee S(S(x)) = x. Lisäksi S(1) = S(f(ß1)) = f(ß0) = 0 ja vastaavasti S(0) = 1.

Soveltamalla kaavaa f(AB|C) = f(A|C) f(B|AC) saadaan

f(AB|C) = f(A|C)f(B|AC) = f(A|C) S(f(¬B|AC)) = f(A|C) S(f(A¬B|C) / f(A|C)) =
f(BA|C) = ... = f(B|C) S(f(B¬A|C) / f(B|C)).

Jos valitaan ¬B = AD, saadaan A¬B = A(AD) = (AA)D = AD = ¬B ja B¬A = (¬A + ¬D)¬A = ¬A + ¬A¬D = ¬A. Kun nämä sijoitetaan edelliseen, saadaan

f(A|C) S(f(¬B|C) / f(A|C)) = f(B|C) S(f(¬A|C) / f(B|C)).

Käyttäen merkintöjä x = f(A|C) ja y = f(B|C) saadaan

x S(S(y) / x) = y S(S(x) / y).

Voidaan näyttää, että nämä ehdot toteuttava yleinen ratkaisu on muotoa

S(x) = (1 - xm)1/m,

missä m on mielivaltainen nollasta poikeava vakio. Jos nyt merkitään P(x) = fm(x), nähdään että kaavat saavat muodon

P(AB|C) = fm(AB|C) = fm(A|C) fm(B|AC) = P(A|C) P(B|AC)
P(¬A|B) = fm(¬A|B) = 1 - fm(A|B) = 1 - P(A|B)

P(x) on siis kuvaus alkuperäisiltä uskomuksen asteilta frekvenssiasteikolle, jossa pätee P(ß0) = 0, P(ß1) = 1, P(¬A|B) = 1 - P(A|B) ja P(AB|C) = P(A|C) P(B|AC), eli bayesiläisen todennäköisyyslaskennan kaavat.

Yllä oleva kaavojen johto osoittaa, että mikä tahansa konsistentti epävarmoilla totuusarvoilla päättely eroaa bayesiläisen todennäköisyyslaskennan kaavoista ainoastaan siinä, millä asteikolla uskomuksen astetta mitataan.


Taso 3 (ylemmälle tasolle, edellinen ja seuraava samalla tasolla)

Päivitetty 7.10.1998
Harri Lappalainen

<Harri.Lappalainen@hut.fi>