Taso 3 (ylemmälle tasolle)

Parametrien posterioritiheyden approksimaatio

Kesken.

Neuroverkko tilastollisena mallina

Useimmat perinteiset neuroverkot voidaan tulkita tilastollisiksi malleiksi. Yleensä verkon opetuksessa pyritään minimoimaan jotain datasta riippuvaa virhefunktiota, esimerkiksi neliöllistä virhettä. Tämä voidaan tulkita tilastolliseksi malliksi olettamalla, että datan jakauma on gaussinen vakio varianssilla ja keskiarvolla, jonka neuroverkko antaa. Tällöin virhe E(D) = -log p(D | M, w).

Ohjaamattomassa oppimisessa on paljon parametreja. Piirteetkin ovat matemaattiselta kannalta parametreja vieläpä eri parametreja eri ajan hetkillä.

Posterioritiheyden parametrinen approksimaatio

Parametrien ja mallien posterioritiheyden p(M, w | D) dimensionaalisuus on sama kuin mallin parametrien määrä. Jos mallissa on hyvin paljon parametreja, posterioritiheyttä on käytänössä mahdoton kuvata tarkasti, ellei mallin yksinkertaisesta rakenteesta johtuen posterioritiheyttä sattumalta voida ilmaista yksinkertaisella analyyttisellä funktiolla. Neuroverkkojen tapauksessa näin ei yleensä ole.

Yksi tavallinen neuroverkko vastaa yhtä pistettä M,w-avaruudessa. Posteriori on määritelty koko avaruudelle ja Bayesiläisen teorian mukaan kaikkia pitää käyttää painotettuna posteriorilla. Suurelle osalle pisteitä posteriori on hyvin pieni. Todennäköisyysmassasta suurin osa on keskittynyt hyvin pienelle alueelle, joten yleensä riittää mallittaa vain niitä alueita. Antamalla parametreille varianssi neuroverkko vastaa w-avaruudessa tilavuutta (M-avaruus on diskreetti). Näin kohtuullisella määrällä neuroverkkoja voi approksimoida koko posterioria.

Ensemble: Josiah Willard Gibbs, ensemble learning: David MacKay


Harri Lappalainen
<Harri.Lappalainen@hut.fi>