Proceedings of STeP'96. Jarmo Alander, Timo Honkela and Matti Jakobsson (eds.),
Publications of the Finnish Artificial Intelligence Society, pp. 1-3.

Neuroverkot: johdatus moderniin tekoälyyn

Timo Honkela
Teknillinen korkeakoulu
Neuroverkkojen tutkimusyksikkö
Timo.Honkela@hut.fi
http://nucleus.hut.fi/~tho/


Artikkelissa kerrotaan lyhyesti neuroverkkojen eli keinotekoisten hermoverkkojen perusteista ja asemasta tekoälytutkimuksen piirissä.

Johdanto

Tekoälytutkimuksen voidaan katsoa alkaneen samoihin aikoihin, kun ensimmäiset tietokoneet tulivat käyttöön. Jo hyvin varhaisessa vaiheessa 1950-luvulla tutkittiin mm. mahdollisuutta automaattiseen kielenkääntämiseen. Tekoälyn alueella voidaan katsoa kilpailleen alusta lähtien kaksi koulukuntaa. Toinen niistä perustuu ajatukseen siitä, että älykästä toimintaa voidaan onnistuneesti mallintaa käyttäen symbolisia eli kielellisen tason esitysmuotoja. Puhutaan symbolimanipulaatiosta, jolla tarkoitetaan esimerkiksi erilaisten sääntöjärjestelmien käyttöä. tai läheistä sukua predikaattilogiikalle olevien menetelmien käyttämistä.

Symbolirakenteille kriittinen toinen koulukunta on aivofysiologian tutkimuksesta innoituksensa saanut suuntaus, jossa älykkääksi katsottavien toimintojen mallintaminen perustuu keinotekoisiin hermoverkkoihin (neuroverkkoihin). Neuroverkkoja opetetaan antamalla niille esimerkkejä kohteena olevasta ilmiöstä, kun puolestaan symbolisen tekoälyn malleja (esimerkiksi asiantuntijajärjestelmät) on tyypillisesti tehty ``käsin'' (ks. kuva 1 alla).

Kuva 1: Neuroverkkojen ja sääntöjärjestelmien käytön peruseroja. Hieman leikillisenä esimerkkinä on esitetty kaavakuva järjestelmästä, jonka tarkoituksena on päätellä kasvokuvasta, hymyileekö henkilö vai ei. Neuroverkkomallina kuvaan on hahmoteltu yhdellä piilokerroksella varustettu yksisuuntainen kerrosverkko.

Symbolinen tekoäly oli vahvoilla koko 1970-luvun ajan ja 1980-lukukin oli aktiivista sääntöpohjaisten asiantuntijajärjestelmien kehittämisen aikaa. Alkaen 1980-luvun puolesta välistä neuroverkot ja laajemminkin ns. pehmolaskenta on vallannut alaa. Tämä englanniksi ``soft computing'' termillä nimetty kokonaisuus sisältää neuroverkkojen lisäksi sumean logiikan ja geneettiset algoritmit. Siinä missä neuraalilaskennan kuuluisimpia nimiä ovat vastavirta- (backpropagation) algoritmin tunnetuksi tehneet David Rumelhart ja James McClelland ja itseorganisoivalla kartallaan maailmanmainetta niittänyt Teuvo Kohonen, vastaavasti sumean logiikan ``grand old man'' on Kaliforniassa vaikuttava Lotfi Zadeh. Sumeaa logiikkaa hyödynnetään runsaasti esimerkiksi japanilaisissa tuotteissa kameroista autoihin. Suomessa neuroverkkojen tutkimus ja kehitystyö on kansainvälisesti erittäin arvostetulla tasolla.

Mitä neuroverkot ovat

Neuroverkko koostuu tyypillisesti joukosta yksinkertaisia solmuja (``keinotekoiset hermosolut''), joiden välillä on joukko liitoksia (``keinotekoiset synapsit''). Tietoa käsitellään verkossa liitoksien välityksellä aktivaation leviämisenä solmulta toiselle. Näiden perusperiaatteiden puitteissa on kehitetty suuri joukko toisistaan melkoisestikin eriäviä malleja.

Neuroverkko oppii sille annettujen esimerkkien perusteella eli sitä ei suoraan ohjelmoida vastaamaan tiettyyn syötteeseen tietyllä tavalla. Oppiminen toteutuu liitoksien voimakkuuksien muutoksina. Tapa, jolla voimakkuuksien muutos tapahtuu, on toki ohjelmoitu. Verkon oppimissäännöllä on keskeinen osuus sen ominaisuuksissa. Kuvan 1 yläosassa on esitetty pelkistetty ja hieman leikillinen sovellusesimerkki, jossa tuodaan esille neuroverkon ja sääntöjoukkoon perustuvan asiantuntijajärjestelmän keskeisiä eroja. Järjestelmän tarkoituksena on päätellä, hymyileekö syötteenä annetun kuvan henkilö vai ei. Kuva muutetaan kuvapisteittäin numeeriseen muotoon eli joukoksi numeroarvoja, jotka kuvaavat kuvapisteen ``tummuutta''. Syöte annetaan esikäsittelyyn, jotka tuottaa kuvasta joukon piirteitä, jotka voidaan syöttää tulkintaa varten eteenpäin. Verkko antaa vastauksensa luonteeltaan rinnakkaisen laskennan edettyä verkon läpi. Neuroverkkoa opetetaan tekemään tulkinta tarjoamalla riittävä määrä esimerkkejä. Neuroverkkomenetelmiä on kehitetty myös piirteenirrotukseen.

Neuroverkot toimivat luonnostaan assosiatiivisina muisteina. Verkko voi palauttaa muististaan hahmoja, jotka perustuvat epätäydelliseen tai kohinaiseen syötteeseen. Verkko osaa myös yleistää eli se voi oppia yleisiä periaatteita yksittäisten esimerkkien perusteella. Neuroverkon toiminnalle on ominaista tilastollisuus. Tämä onkin järkevää, kun tarkastellaan yleistettyjen päätelmien luonnetta. Yleiset periaatteet eivät useimmiten ole ``aukottomia'' vaan niiden oikeellisuudessa voi olla poikkeamia. Tällaisia asiayhteydestä riippuvia ilmiöitä neuroverkot pystyvät mallintamaan varsin hyvin.

Oppiminen voi olla joko ohjattua tai ei-ohjattua. Ohjatussa oppimisessa syötteet sisältävät myös ``oikean vastauksen'' eli halutun tulkinnan erilaisissa tapauksissa. Kilpailuoppimiseen perustuvissa verkoissa erityyppiset syötteet kuvautuvat ei-ohjatusti eri osiin verkkoa ja muodostavat syötteen mielekkään kuvauksen. Laajimmin käytetty kilpailuoppimiseen perustuva verkkomalli on Kohosen itseorganisoiva kartta.

On korostettava, että neuroverkot ovat laskennallisia järjestelmiä, joissa on pyritty löytämään aivofysiologisten tutkimustulosten perusteella keskeiset käsittelymekanismit. Verkot ovat yksinkertaistettuja malleja hyvin monimutkaisen, osin tuntemattoman inhimillisen järjestelmän jostakin osasta. Neuroverkkomalleja ohjelmoidaan useimmiten perinteisillä tietokoneilla. Myös erityisiä useiden satojen tai tuhansien prosessorien rinnakkaislaskennan mahdollistavia tietokoneita on kehitetty tarkoitusta varten nopeuttamaan laskentaa.

Miksi neuroverkkoja käytetään

Neuroverkkojen oppimiskyky ja mahdollisuus mallintaa ``pehmeästi'' todellisuuden ilmiöitä ovat syitä, jotka ovat johtaneet niiden nopeaan hyödyntämiseen mitä erilaisimmissa tehtävissä. Neuroverkkoja käytettäessä painotetaan ilmiöiden moniulotteisuutta, kokonaisvaltaisuutta ja jatkuvutta tai ``sumeutta'', kun taas perinteisen symbolisen tekoälyn voidaan katsoa perustuvan oletukselle, että todellisuus koostuu joukosta olioita ja niiden välisiä suhteita.

Yksittäisenä sovellusesimerkkinä voidaan tarkastella kielen ymmärtämisen edellytyksiä. Sanojen taipumista ja lauseiden rakentumista kuvaavia malleja on tehty menestyksekkäästi. Esimerkiksi Kimmo Koskenniemen kehittämä sanojen taipumista kuvaava kaksitasomalli on levinnyt hyvin laajalle.

Kun sanoista ja lauseista edetään merkitykseen, kielen automaattinen käsittely vaikeutuu huomattavasti. Kielen tarkastelu ja käsittely pelkkänä rakenteellisena järjestelmänä on riittämätöntä monien tulkintaan liittyvien ilmiöiden kannalta:

Perinteisten eli symbolimanipulaatioon ja predikaattilogiikkaan perustuvien tekoälyjärjestelmien kannalta hienovaraiset todellisuuden ja kielen väliset suhteet sekä kielen tulkinnan tilanneriippuvuus ja yksilöllisyys ovat olleet lähes tavoittamattomia ilmiöitä. Neuroverkot puolestaan mahdollistavat hienovaraisten ja monisäikeisten riippuvuussuhteiden oppimisen esimerkkien avulla.

Sumealla joukko-opilla voidaan taas kätevästi mallintaa erilaisia jatkumoita. Esimerkiksi adjektiivin 'pitkä' käytölle on vaikeaa tai mahdotonta löytää tarkkoja rajoja. Sumeassa joukko-opissa lähdetään siitä, että joukkoon kuuluminen on asteittainen käsite. Joukkoon kuuluminen voidaan määrittää ``sumeasti', ei siis pelkästään ääriarvoina 'kuuluu' tai 'ei kuulu'. Tyypillisesti joukkoon kuulumisen aste esitetään reaalilukuna väliltä nollasta ykköseen. Termi sumea on hieman onneton valinta, koska sumeaa joukko-oppia voidaan ennemminkin pitää pyrkimyksenä määritellä täsmällisemmin kielen ja todellisuuden pakostakin epätäsmällistä suhdetta. Neuroverkkoja voidaan puolestaan käyttää tämän suhteen oppimisen välineenä.

Yhteenveto

Edellä esiteltiin lyhyesti neuroverkkomallien taustaa ja suhdetta muuhun tekoälytutkimukseen. Tutoriaaliesityksessä tarkastellaan tarkemmin erilaisia hermoverkkomalleja sekä niiden toimintaa ja oppimista (ohjattu oppiminen, itseorganisoituminen). Alan kirjallisuutta ja verkkojen hyödyntämismahdollisuuksia esitellään monin sovellusesimerkein, joihin löytyy viittauksia myös WWW-sivulta http://nucleus.hut.fi/~tho/neural/step96tut.html.