Google käynnisti vuonna 2004 tyylilleen uskollisen megalomaanisen hankkeen. Sen tavoitteena on saattaa kaikki maailmassa kirjoitetut kirjat sähköiseen muotoon ja laittaa ne avoimesti saataville internetiin.
Tarkoitusta varten Google kehitti skannauskoneen, joka
kääntää kirjojen sivut automaattisesti ja pystyy siten skannaamaan miljoonia
kirjoja. Muutamassa vuodessa maailman suurin digitaalinen kirjasto oli jo
pystyssä.
Kuvina nettiin tallennetuista kirjoista ei kuitenkaan voinut
tehdä sanojen tarkkuudelle ulottuvaa louhintaa, vaan piti yhä tietää mitä etsi.
Niinpä Google päätti vielä muuttaa kirjat dataksi tekstintunnistustyökalulla,
joka pystyy tunnistamaan kuvasta kirjaimet, sanat ja lauseet. Lopputuloksena
syntyi maailman laajin dataistettu kirjasto, joka ei ole vain ihmisten vaan
myös tietokoneiden luettavissa ja tulkittavissa.
Tällä hetkellä Googlen dataistetun digitaalisen kirjaston
koko on yli 30 miljoonaa teosta. Googlen omien karkeiden arvioiden mukaan se
kattaa jo 15–20 prosenttia maailman kirjoitetusta perinnöstä.
Tutkijat ja tutkimusryhmät ovat luonnollisesti olleet
aineistosta innoissaan tästä ennen näkemättömän kokoisesta aineistosta.
Hankkeen tuloksena on jopa syntynyt kokonaan uusi tieteenhaara nimeltään
culturomics, joka pyrkii ymmärtämään ihmisten käyttäytymistä ja kulttuurisia
trendejä kvantitatiivisen analyysin pohjalta.
Culturomicsin pioneerit Erez Aiden ja Jean-Baptiste Michel
käyttivät dataistettuja aineistoja tarkastellessaan sanojen syntyä ja
yleisyyttä eri ajanjaksoina. Yksi heidän tutkimuksensa päälöydöksistä oli, että
yli puolet englannin kielessä käytössä olevista sanoista ei ole sanakirjoissa.
Näiden tutkimusten innoittamana syntyi myös Google Ngram Viewer -hakukone,
jonka avulla voi helposti tutkia sanojen syntyä ja yleistymistä tai vaikka
henkilöiden suosiota eri ajanjaksoina.
Aiden ja Michel ovat kutsuneet culturomicsia aivan
uudenlaiseksi ”kulttuuriseksi teleskoopiksi” ja verranneet sen mahdollisuuksia
vaatimattomasti jopa Galileo Galileihin, joka heidän sanojansa lainaten,
”pudotti maapallon pois universumin keskiöstä vain 30 kertaa ihmissilmää
tehokkaammalla teleskoopilla”.
Tutkija Helga Nowotnyn mukaan Isaac Newton olisi kuitenkin
culturomicsille paljon luontevampi vertailukohta. Olihan Newtonin yksi vähemmän
tunnetuista suurista haaveista saada selvyys sivilisaatioiden syntyhistoriasta
luomalla teksteille, erityisesti raamatun teksteille, astrologiasta johdettu
numeraalinen tulkintakoodi.
Nowotnyn mukaan Newton keräsi vuosien saatossa harrastustaan
varten laajan aineiston, aikansa big data -aineiston, jonka avulla hän yritti
ymmärtää ihmiskunnan historiaa matemaattisin termein, toisin sanoen
kvantifioimalla ja mittaamalla ihmiskulttuurin tuotoksia. Ajatus siitä, että
vaihtuvuuden ja sattumanvaraisuuden, näennäisen kaaoksen takana oli ehdottomia,
tarkkoja ja ennakoitavissa olevia maailmaa koskettavia sääntöjä, jotka voitiin
laskea ja selittää matemaattisesti, oli 1600-luvulla vastustamaton. Luonnon
lait löytäneen Newtonin haave inhimillisen toiminnan taustalla olevien ”lakien”
löytämisestä ei kuitenkaan toteutunut.
Mitä sitten voimme odottaa culturomicsilta? Käykö tämän
uuden menetelmän suurille odotuksille samoin kuin Newtonin haaveille?
Ainakin toistaiseksi suuret läpimurrot odottavat vielä
itseään. Jo konkretisoituneena edistysaskeleena voidaan kai pitää sitä, että
suuri dataistettu nettikirjasto on tehnyt kiinnostavien uusien lähteiden
löytämisestä entistä helpompaan ja toisaalta plagioinnista entistä vaikeampaa.
Tiettävästi Google on myös hyödyntänyt suurta tekstimassaa automaattisen
kielenkääntäjän kehitystyössä.
Tutkimuspuolella sen sijaan ollaan vasta alkutaipaleella. Jo
nykyisellään työskentely ennen näkemättömän suurten tekstidatojen kanssa voi
auttaa tutkijoita tekemään uusia löydöksiä ja tarkentamaan katsetta ilmiöihin,
jotka perinteisten aineistojen kanssa jäisivät huomaamatta.
Suuria uutisaineistoja samalla metodiikalla tutkimalla on jo
onnistuttu tekemään kiinnostavia verkostoanalyysejä maailman ”luonnollisista
sivilisaatioista” ja havaitsemaan jännitteiden kasvu Pohjois-Afrikan maissa
ennen arabikevättä, tosin jälkikäteen. Mikäli koneiden kyky luonnollisen kielen
analysoinnissa kehittyy odotetusti, pitäisi myös nopeiden yhteenvetojen ja
kulttuuristen muutosten ymmärtäminen olla mahdollista lähitulevaisuudessa.
Toistaiseksi kuitenkin datan syvempi ymmärrys vaatii rinnalleen perinteisiä tutkimusmetodeja sekä ihmisen tekemää analyysiä. Nowotnyn mukaan jatkossa tarvitaan myös yhä syvempää tieteiden välistä yhteistyötä, mikäli culturomicsista halutaan saada irti eriskummallisia historiallisia detaljeja enemmän.
***
Julkaistu 28.9.2016 Sitra.fi -verkkosivuilla.
Ei kommentteja:
Lähetä kommentti