Taso 3 (ylemmälle tasolle, seuraava samalla tasolla) In English, please

Bayesiläinen todennäköisyyslaskenta

Pastori Thomas Bayes (1702-1761)

Todennäköisyyden tulkinta

Todennäköisyyden tulkinnasta on kaksi koulukuntaa. Klassisessa tilastotieteessä vallalla on ollut tulkinta, jonka mukaan tapahtuman todennäköisyys on raja-arvo äärettömyydessä, kun jotain koetta toistetaan. Esimerkiksi todennäköisyys saada nopan heitossa numero kolme on noin yksi kuudesta (tasan vain jos noppa on ideaalinen).

Arkikielessä todennäköisyys kuitenkin käsitetään laajemmin. Voidaan esimerkiksi puhua sateen todennäköisyydestä huomenna, vaikka tapahtuma on ainutkertainen, eikä sen frekvenssiä voida mitata toistuvilla kokeilla. Lisäksi eri ihmiset saattavat antaa samalle asialle eri todennäköisyyden. Tämä on luonnollista, koska eri ihmisillä on erilaiset taustatiedot ja uskomukset.

Bayesiläisen tilastotieteen tulkinta todennäköisyydelle on hyvin lähellä arkikieltä. Todennäköisyys ilmaisee kuinka vahvasti joku uskoo johonkin asiaan. Uskomus on aina subjektiivinen ja riippuu taustatiedoista. Merkintä P(A | B) tarkoittaa: kuinka todelta A vaikuttaa, jos oletetaan B. Usein kaikkia taustatietoja ei merkitä ja P(A) voi siis tarkoittaa eri asioita riippuen siitä, mitä taustaoletuksia käytetään. On kuitenkin hyvä muistaa, että absoluuttista todennäköisyyttä ei Bayesiläisen tulkinnan mukaan ole, koska ei ole olemassa mitään absoluuttisen oikeaa taustaoletusten joukkoa.

Joskus todennäköisyyden tulkinnalla ei ole vaikutusta siihen, kuinka varsinaiset laskut lasketaan tai mikä on lopputulos. Esimerkiksi nopanheiton tulosten laskennassa tulkinnalla ei ole merkitystä. Oppivien ja älykkäiden systeemien teorian kannalta tulkintaero on kuitenkin oleellinen.

Boolen algebra (George Boole 1854)

Propositiot, joille todennäköisyydet on määritelty, noudattavat Boolen algebran sääntöjä. Boolen algebra on määritetty alkioille, joilla on kaksi binääristä laskutoimitusta, summa ja tulo, sekä unaarinen laskutoimitus, komplementti, jota merkitään tässä ¬ -merkillä. Boolen algebran määrittelevä aksioomajoukko on

On olemassa 0 ja 1, jotka ovat erisuuria. [A1]
AB = BA A+B = B + A [A2]
A(B+C) = (AB)+(AC) A+(BC) = (A+B)(A+C) [A3]
1A = A 0+A = A [A4]
A¬A = 0 A+¬A = 1 [A5]

Samalla rivillä esitetyt aksioomat ovat duaalisia. Jos tulo ja summa sekä 0 ja 1 vaihdetaan keskenään, saadaan aksioomat muutettua toisikseen. Merkitään vasemmanpuoleisen sarakkeen aksioomia a:lla ja oikeanpuoleisen b:llä, eli A2b tarkoittaa aksioomaa A + B = B + A. Aksioomista voidaan johtaa mm. seuraavat apulauseet

¬¬A = A [L1]
AA = A A+A = A [L2]
¬1 = 0 ¬0 = 1 [L3]
AB = 0 & A+B = 1 => B = ¬A [L4]
0A = 0 1+A = 1 [L5]
A(A+B) = A A+AB = A [L6]
A(BC) = (AB)C A+(B+C) = (A+B)+C [L7]
¬A(AB) = 0 ¬A+(A+B) = 1 [L8]
¬(AB) = ¬A+¬B ¬(A+B) = ¬A¬B [L9]
AB = 1 => A = 1 A+B = 0 => A = 0 [L10]

Boolen logiikka saadaan kun algebraan otetaan mukaan vain alkiot 0 ja 1. Nolla tulkitaan epätotuudeksi ja ykkönen totuudeksi. Summa merkitsee tai-, tulo ja- ja komplementti negaatio-operaatiota. Toisin sanoen Boolen logiikassa AB = 1, jos ja vain jos A=1 ja B=1. A+B=1, jos ja vain jos A=1 tai B=1.

Bayesiläisen todennäköisyyslaskennan peruskaavat

Bayesiläisen todennäköisyyslaskennan voi perustaa muutamalle yksinkertaiselle säännölle. On ilmeistä että proposition ja sen negaation todennäköisyyksien välillä on jokin suhde. Summakaavan mukaan todennäköisyyksien summa on yksi.

Summakaava: P(A | B) + P(¬A | B) = 1

Jos halutaan varmistua AB:n totuudesta, voidaan ensin varmistua A:n totuudesta ja sitten B:n totuudesta olettaen A. Niinpä P(AB | C) on ilmeisesti P(A | C):n ja P(B | AC):n funktio. Tulokaavan mukaan tämä funktio on tulo.

Tulokaava: P(AB | C) = P(A | C) P(B | AC)

Todennäköisyys on reaaliluku nollan ja ykkösen välillä. Todennäköisyyttä ei ole määritelty, jos alkuoletukset eli premissit ovat ristiriitaisia. Esimerkiksi P(A | B¬B) ei siis ole määritelty.

Muita kaavoja

Aritmetiikan ja Boolen algebran sääntöjä käyttäen summa- ja tulokaavasta voidaan johtaa kaikki muut kaavat. Esimerkiksi voidaan ottaa vaikkapa yleistetyn summasäännön johto. Seuraavassa on kaavan johdon jokaisen vaiheen kohdalle merkitty sääntö, jota sovelletaan, ellei ole sovellettu pelkästään perusaritmetiikkaa.
P(A+B | C) = [L1]
P(¬¬(A+B)) | C) = [L9b]
P(¬(¬A¬B) | C) = [Summakaava]
1 - P(¬A¬B | C) = [Tulokaava]
1 - P(¬A | C) P(¬B | ¬AC) = [Summakaava]
1 - P(¬A | C) [1 - P(B | ¬AC)] =
1 - P(¬A | C) + P(¬A | C) P(B | ¬AC) = [Summakaava]
P(A | C) + P(¬A | C) P(B | ¬AC) = [Tulokaava]
P(A | C) + P(¬AB | C) = [A2a]
P(A | C) + P(B¬A | C) = [Tulokaava]
P(A | C) + P(B | C) P(¬A | BC) = [Summakaava]
P(A | C) + P(B | C) [1 - P(A | BC)] =
P(A | C) + P(B | C) - P(B | C) P(A | BC) = [Tulokaava]
P(A | C) + P(B | C) - P(BA | C) = [A2a]
P(A | C) + P(B | C) - P(AB | C)

Yleensä kaikkia välivaiheita ei tietenkään esitetä. Summa- ja tulokaavasta voidaan johtaa myös kaavat P(1 | A) = 1 ja P(A | B) > 0 => P(A | AB) = 1. Merkitään x = P(1 | A), jolloin

1 - x = 1 - P(1 | A) = P(0 | A) = P(10 | A) = P(1 | A) P(0 | 1A) = x(1 - x) => x² - 2x + 1 = 0,

jonka ainoa ratkaisu on x = 1. Toisaalta

P(A | B) = P(AA | B) = P(A | B) P(A | AB),

mistä seuraa P(A | AB) = 1, jos P(A | B) > 0.

Marginalisaatioperiaate

Oletetaan, että B1, B2, ..., Bn ovat n propositiota, joista tasan yksi on tosi. Siis B1 + B2 + ... + Bn = 1 ja BiBj = 0, ellei i = j. Yleistetystä summakaavasta saadaan

P(AB1+AB2 | C) = P(AB1 | C) + P(AB2 | C) - P(AB1AB2 | C) = P(AB1 | C) + P(AB2 | C).

Tämä seuraa siis siitä, että AB1AB2 = A(B1B2) = A0 = 0. Edelleen

P(AB1+AB2+AB3 | C) = P(AB1 | C) + P(AB2 | C) + P(AB3 | C) - P((AB1 + AB2)AB3 | C) = P(AB1 | C) + P(AB2 | C) + P(AB3 | C).

Jatkamalla n:ään saakka saadaan

P(AB1 + AB2 + ... + ABn | C) = P(AB1 | C) + P(AB2 | C) + ... + P(ABn | C).

Toisaalta, koska AB1 + AB2 + ... + ABn = A(B1 + B2 + ... + Bn) = A1 = A, saadaan

P(A | C) = P(AB1 | C) + P(AB2 | C) + ... + P(ABn | C).

Soveltamalla tulokaavaa saadaan marginalisaatioperiaate

P(A | C) = P(A | B1C) P(B1 | C) + ... + P(A | BnC) P(Bn | C).

Kaavan merkitys selviää, kun tulkitsee propositiot Bi mahdollisiksi selityksiksi A:lle. A:n todennäköisyys on siis summa eri selitysten antamista todennäköisyyksistä A:lle painotettuna selitysten todennäköisyyksillä.

Bayesin sääntö

Tulokaavaa soveltamalla voidaan johtaa Bayesin sääntö, joka kertoo, kuinka selitysten todennäköisyydet muuttuvat, kun A havaitaan.

P(Bi | AC) = P(Bi | C) P(A | BiC) / P(A | C)

P(Bi | C) on todennäköisyys ennen tietoa A:sta ja sitä kutsutaan Bi:n prioritodennäköisyydeksi. Vastaavasti P(Bi | AC):tä kutsutaan Bi:n posterioritodennäköisyydeksi. Bayesin kaavasta nähdään, että sellaisten selitysten Bi, jotka selittävät A:n hyvin, posterioritodennäköisyys on prioritodennäköisyyttä suurempi ja päinvastoin.

Esimerkki selventänee Bayesin säännön käyttöä. A = minulla on kuumetta, B1 = minulla on flunssa ja B2 = ei flunssaa = ¬B1. Oletetaan, että tunnen todennäköisyydet P(A | B1C), P(A | B2C) ja P(B1 | C), siis todennäköisyydet, että flunssaisena minulla on kuumetta, että kuumetta on vaikka flunssaa ei ole ja että minulla on flunssa. Annetaan näille numeroarvot P(A | B1C) = 0,95, P(A | B2C) = 0,05 ja P(B1 | C) = 0,1. Marginalisaatioperiaatteen mukaan kuumeen todennäköisyys ylipäätään on

P(A | C) = P(A | B1C) P(B1 | C) + P(A | B2 C) P(B2 | C) = 0,95 * 0,1 + 0,05 * 0,9 = 0,095 + 0,045 = 0,14.

Flunssan todennäköisyys on alunperin aika pieni, vain yksi kymmenestä. Jos nyt kuitenkin kuumemittari näyttää minulla olevan kuumetta, kasvaa flunssan todennäköisyys

P(B1 | AC) = P(B1 | C) P(A | B1C) / P(A | C) = 0,1 * 0,95 / 0,14 = 0,68..

Yhdessä marginalisaatioperiaate ja Bayesin sääntö kertovat kuinka hypoteesien uskottavuus muuttuu, kun tehdään mittauksia, ja kuinka hypoteesien uskottavuudet otetaan huomioon, kun ennustetaan niiden perusteella asioita.

Todennäköisyystiheys

Reaaliarvoisten suureiden tapauksessa minkä tahansa yksittäisen arvon todennäköisyys on yleensä 0. Eli vaikka kynä olisikin mittauksen mukaan noin 16 cm pitkä, todennäköisyys sille, että sen pituus on täsmälleen 16 cm, on nolla. Sen sijaan todennäköisyys, että pituus on 15 ja 17 cm:n välissä, voi hyvinkin olla lähellä yhtä.

Ilmiö on sama kuin massan mittaamisessa. Jos otetaan kappaleesta yksi piste, sen massa on nolla. Jos taas otetaan joku tilavuus, massa on nollasta poikkeava. Aivan kuten kappaleen tiheys on massa jaettuna tilavuudella, todennäköisyystiheys on jonkun välin todennäköisyys jaettuna välin pituudella.

Bayesin sääntö säilyy täsmälleen samana, vaikka käytettäisiin todennäköisyystiheyksiä.

Usein todennäköisyysmassaa merkitään isolla P-kirjaimella ja tiheyttä pienellä, mutta yleensä asiayhteydestä joka tapauksessa selviää, tarkoitetaanko massaa vai tiheyttä.


Taso 3 (ylemmälle tasolle, seuraava samalla tasolla) In English, please

Päivitetty 15.10.1998
Harri Lappalainen

<Harri.Lappalainen@hut.fi>