Jonkinlainen Big Data
–hybriksen kulminaatiopiste koettiin rapakon takana jo vuonna 2008, kun
Wired-lehden silloinen päätoimittaja Chris Andersson ennusti
datan räjähdysmäisen kasvun johtavan koko tieteellisen metodin hylkäämiseen
kirjoituksessaan The End of Theory: The Data Deluge Makes the Scientific Method
Obsolete. Anderssonin mukaan tieteellisestä luokittelusta, ontologiasta,
hypoteeseista ja testaamisesta voidaan pian luopua, koska numerot puhuvat jo
puolestaan. Tilastollisten algoritmien avulla on mahdollista löytää kaavoja,
joiden kautta saadaan tiedettä nopeampia ja tarkempia tietoja ihmisten
todellisesta käyttäytymisestä. Syy, miksi ihmiset toimivat niin kuin toimivat,
ei Anderssonin mielestä ollut oleellista. Riitti kun tiedettiin, miten he
todellisuudessa toimivat. Se innoitti hänet päättämään kirjoituksensa
klassikoksi nousseeseen kysymykseen: mitä tiede voisi oppia googlelta?
Tiedeyhteisössä
Anderssonin provokatiiviset teesit herättivät luonnollisesti heti tuoreeltaan
vasta-argumenttien vyöryn, mutta keskustelu datamurroksesta on jatkunut elävänä
senkin jälkeen. Vuonna 2014 julkaistussa tieteellisessä artikkelissa Big Data: a big mistake ekononomisti Tim
Harford muistutti Anderssonin kaltaisia datauskovaisia tilastotieteen
perusopeista. Google-hakujen perusteella flunssakausia oli pystytty ennakoimaan
useita vuodenaikoja peräjälkeen. Yhtenä sesonkina ennustukset eivät kuitenkaan
pitäneetkään paikkansa. Miksi?
Syitä voi tietysti
olla lukemattomia, koska hakujen ja flunssan leviämisen välillä on vain
korrelaatiosuhde, ei kausaliteettia. Harfordin mukaan tämä on yksi hyvä
esimerkki siitä, että teorioista vapaa tarkastelu voi johtaa harhaan. Tieteen
tehtävänä on ymmärtää myös syitä ja tuottaa selityksiä, jonka vuoksi löydöksiä
ei voi vahvistaa pelkän datan perusteella, vaan on ymmärrettävä myös laajemmin
ympäröivää todellisuutta.
Liikenne ja
viestintäministeriön Big data –selvityksen mukaan digitaalinen avaruus
kasvaa 40% vuosittain kasvaen kymmenkertaiseksi vuoteen 2020 mennessä. Kuten
edellä kuvattiin, tieteellisen tutkimuksen näkökulmasta käyttävissä olevan
datan määrän kasvu ei ole oikotie parempaa ymmärrykseen maailmasta. Mikään
määrä dataa ja sen teknistä murskaustaitoa ei riitä, jos datan puutteita ei
ymmärretä, tai jos siltä ei osata kysyä relevantteja kysymyksiä. On silti
selvää, että dataistuminen tulee tarjoamaan paljon uusia mahdollisuuksia myös
tutkimusmaailmalle. Nostan niistä esiin kolme näkökulmaa, jotka ehkä tarjoavat
vastauksia myös Anderssonin esittämään haasteeseen.
1. Entistä laajemmat tutkimusaineistot
Tietovarantojen digitalisoituminen, tiedon keruun automatisoituminen sekä tiedon varastoinnin halpeneminen mahdollistavat yhä laajempien aineistojen haltuunoton tutkimuksissa. Parhaimmillaan se voi johtaa entistä parempiin empiirisiin tutkimuksiin, vaikka hyvä nyrkkisääntö onkin syytä pitää mielessä: data itsessään ei missään mittakaavassa ole arvokasta, vaan vasta datan jalostaminen, organisointi ja analysointi tuottavat tietoa, joka voi olla arvokasta.
Big datan
mahdollisuuksiin on reagoitu myös ihmistieteiden puolella, jossa on lähdetty
hyödyntämään datatieteen menetelmiä aineiston keruussa, hallinnassa ja
analyysissä. Yksi kiinnostavimmista meneillään olevista suomailaisista
hankkeista on Kansakunnan Mielenliikkeet –konsortiohanke, jossa
tarkastellaan Suomi24-keskustelufoorumin aineistoa hyödyntäen tilastollisia ja
kieliteknologisia menetelmiä sekä visuaalisia työkaluja. Aller Oy:n tutkijoille
avaamassa aineistossa on yli 70 miljoonaa suomalaisten kirjoittamaa viestiä yli
15 vuoden ajalta. Työ on vasta alussa, mutta yksi hankkeen tehtävistä onkin
toimia tienraivaajana digitaalisten tekstiaineistojen yhteiskuntatieteellisessä
tutkimuksessa.
2. Tarkempaa tietoa ihmisten käyttäytymisestä
Verkkoon kytkettyjen laitteiden, sosiaalisen median, sensoriverkkojen ja paikkatietojen avulla on mahdollista saada yhä tarkempaa, moninaisempaa ja reaaliaikaisempaa dataa ihmisten todellisesta käyttäytymisestä. Automaattinen datan keruu ei kärsi samanlaisista kognitiivisista vinoumista tai viiveistä, kuten esimerkiksi kyselytutkimukset, jolloin todellisuuden mallinnukset ja todellisuus lähenevät entisestään toisiaan.
Etlan tutkimuksessa on havaittu, että lisäämällä Google-hakujen sisältämä informaatio olemassa oleviin malleihin, on mahdollista tehdä entistä tarkempia ennusteita nykyhetken ja lähitulevaisuuden työttömyydestä Suomessa. Google-haut tarkentavat ennusteita erityisesti käännekohdissa. Löydöksen pohjalta Etla on kehittänyt yhteistyössä 28 eurooppalaisen tutkimuslaitoksen kanssa uuden ETLAnow ennustetyökalun, joka ennakoi työttömyyden kehitystä jokaisessa EU-maassa. ETLAnow on ensimmäinen internetin suuria aineistoja hyödyntävä talousennuste, joka on julkisesti saatavilla. Työkalu hyödyntää ennusteissa Googlen hakutietoja ja Eurostatin virallisia aineistoja. Tulevaisuudessa sen käyttöalaa on tarkoitus laajentaa koskemaan muitakin talouden ilmiöitä, kuten asuntomarkkinoiden kehitystä.
3. Uudet yllättävät löydökset
Suurten ja entistä monimuotoisempien digitaalisten data-aineistojen avulla on mahdollista löytää aiemmin piilossa olleita yhteyksiä. Tästä hyvänä esimerkkinä on Hollannin veroviranomaisten Big data -kokeilu, jossa yhdistelemällä eri viranomaisten alle kuuluvia tietoja havaittiin, että henkilöillä joiden avioliitto oli juuri päättynyt eroon, oli huomattavasti keskimääräistä suurempi todennäköisyys tehdä virheitä veroilmoituksissaan. Korjaavat toimenpiteet tehtiin sen mukaisesti. Viranomaisille tällaiset löydökset ovat totta kai arvokkaita, mutta samoin myös tutkijoiden vastaavat oivallukset voivat johtaa yhä parempaan ymmärrykseen ihmisten ja yhteiskunnan toiminnasta.
Yhteistyön merkitys korostuu
Tutkimusyhtiö Gartnerin mukaan Big datan alkuhuuma on ohi. Ilmiö on vakiintumassa ja siltä odotetaan jo konkreettisempia tuloksia. Tästä huolimatta tutkija Sami Holopaisen mukaan Big data –ilmiöön ollaan herätty Suomessa ja muualla Euroopassa vasta aivan viime vuosina. Samalla kun suuret tietotalot ovat kiirehtineet ottamaan Big dataan liittyvät tuotteet osaksi portfolioitaan, yliopisto-opetus laahaa jäljessä. Holopainen arveleekin Futura-lehteen kirjoittamassaan artikkelissa, ettei Big dataa nähdä yliopistoissa kovinkaan merkittävänä ilmiönä.
Lähes kaikissa Big dataa käsittelevissä tutkimuksissa ja selvityksissä korostetaan sitä, että työskentely suurten strukturoitujen ja strukturoimattomien data-aineistojen parissa edellyttää uudenlaista dialogisuutta, tieteidenvälisyyttä ja monimetodisuutta. Edellä mainitun Kansakunnan Mielenliikkeet -hankkeenkin yhtenä julkilausuttuna tavoitteena on rakentaa siltaa eri alojen sisältötutkijoiden, kielentutkijoiden ja toisaalta kieliteknologien ja data-analyytikkojen välille. Parhaimmillaan tällaisen vuorovaikutuksen tuloksena voi syntyä aivan uudenlaisia analyysityökaluja ja menetelmiä myös ihmis- ja yhteiskuntatieteisiin. Olisi syytä, että jatkossa tällaiset kokeilut jalkautuvat entistä vahvemmin myös suomalaiseen korkeakouluopetukseen. Osaamisen ja osaajien puutetta pidetään yhtenä keskeisimmistä Big datan mahdollisuuksia jarruttavista pullonkauloista.
***
Julkaistu Sitra.fi -verkkosivulla 7.7.2016.
Ei kommentteja:
Lähetä kommentti