maanantai 13. helmikuuta 2017

Kun faktat muuttuvat, muutatko mielipiteesi?

Mitä teet, kun kohtaat uutta vakuuttavaa tietoa, joka haastaa aiemmat käsityksesi asioista? Muutatko mielipiteesi?

Arvelen, että enemmistö vastaisi kysymykseen myöntävästi. Kuitenkin politiikan tutkijat Brendan Nyhan ja Jason Reifler havaitsivat kokeellisissa tutkimuksissaan, että vain harva toimii todellisuudessa näin.  Erityisesti ideologisesti vakaumukselliset ihmiset osoittautuivat lähes luodinkestäviksi tiedoille, jotka sotivat heidän maailmankuvaansa vastaan. Heidän kohdallaan jopa havaittiin, että virheellisten tietojen haastaminen johti yhä voimakkaampaan sitoutumiseen vääriin käsityksiin. Nyhan ja Reifler kutsuvat ilmiötä backfire-vaikutukseksi. 

Vahva sitoutuminen ideologioihin osoittautui häiriötekijäksi myös Philip Tetlocking tutkimusprojektissa, jossa tavalliset ihmiset haastoivat ammattilaisia geopoliittisten tapahtumien ennakoinnissa. Parhaiten pärjänneitä ns. ”superennustajia” tarkemmin tutkittuaan Tetlock havaitsi, että heillä kaikilla oli tiettyjä kognitiivisia kykyjä ja persoonallisuuspiirteitä, jotka edesauttoivat heidän menestystään kilpailussa. Ensinnäkin superennustajat olivat pragmaattisia. He arvostivat erilaisia mielipiteitä ja sulauttivat niitä osaksi arvioitaan. Toiseksi he päivittivät jatkuvasti tietojaan ja muuttivat arvioitaan säännöllisesti uusien faktojen ilmaantuessa. Lisäksi superennustajat osoittautuivat itsekriittisiksi. He kohtelivat uskomuksiaan testattavina hypoteeseina, eivät suojeltavina aarteina.

Tetlock korostaa tutkimusprojektinsa pohjalta kirjoittamassaan bestseller-kirjassa Superforecasting: The Art and Science of Prediction, että vaikka parhaat ”tavisennustajat” päihittivätkin kilpailussa jopa parhaat asiantuntijat, he eivät ole mitään superihmisiä. Jokainen ihminen pystyy parantamaan tulevaisuuden arviointikykyään, jos vain on valmis korjaamaan ajattelunsa kognitiivisia ja tiedollisia vinoumia analyyttisellä ajattelulla sekä älyllisellä uteliaisuudella.

Tieto lisääntyy, entä ymmärryksemme?

Meillä informaatioaikakauden ihmisillä pitäisi olla ennennäkemättömät mahdollisuudet hyödyntää monipuolisia tietoa ajatustemme, arvioittemme ja päätöstemme tukena. Onko lisääntynyt tieto kuitenkaan johtanut parempiin päätöksiin tai laadukkaampaan faktapohjaiseen keskusteluun? 

Pikemminkin näyttäisi siltä, että lopputuloksena on yhä kasvava epävarmuus. Tiedon lisääntymisen ohella myös epäluotettavan tiedon ja kaikenlaisen huuhaan määrä on kasvanut räjähdysmäisesti. Jatkuvan informaatiotulvan vuoksi faktoja on yhä vaikeampi erottaa fiktiosta, samoin kuin todellisuutta (mieli)kuvista tai merkityksellistä merkityksettömästä. Osittain on käynyt juuri niin kuin sosiologi Jean Baudrillard ennusti jo vuosikymmeniä sitten: Todellisuus on muuttunut merkeiksi vailla merkitystä.

Entä onko kenelläkään aikaa omaksua sitä tietoa, jota päätöksenteoksen tueksi jatkuvasti tuotetaan? Sixten Korkmankin valitteli hiljattain radiohaastattelussa, että poliittiset päätökset perustuvat liian harvoin tutkittuun tietoon. Tiukan paikan tullen kaavamaiset ongelmanratkaisukeinot jyräävät alleen tietopohjaisen päätöksenteon. Tärkeintä on vain saada aikaan päätöksiä niiden sisällöstä riippumatta.

Uusi valistusaika

Todellisuus tuskin on aivan niin tumma, kuin edellä kuvasin. Silti suhtautumisemme tietoon kaipaisi jonkinlaista päivitystä. Tieto lisääntyy koko ajan niin nopeasti, että tarvitsisimme uusia tapoja luokitella, arvottaa ja hyödyntää sitä. Olen jopa leikitellyt ajatuksella uudesta valistuksen aikakaudesta.

Valistuksen aikahan, joka liitetään vahvasti 1700-lukuun, oli koko uuden ajan modernisaatioprosessin lähtökohta. Tuolloin luotiin nykymaailman henkinen perusta. Tiede otti valtavia harppauksia, tiedon määrä lisääntyi ja ajattelu vapautui uskonnon kahleista. Samalla tietoa luokiteltiin uudella tavalla, koottiin jopa yksiin kansiin. Ensimmäisten ensyklopedioiden kunnianhimoisena tavoitteena oli pyrkiä kartoittamaan koko inhimillisen tiedon kenttää.  

Valistuksen ytimessä olivat ihmiset, jotka kokivat vapautuneensa tietämättömyydestä ja elävänsä valistuneella aikakaudella. Ovatko informaatioaikakautemme valistuksen ytimessä ne ihmiset, jotka kokevat vapautuneensa informaatio- ja disinformaatioähkystä valjastamalla tiedon uudella tavalla hyötyynsä koneiden avulla?

En ole teknologiauskovainen, mutta olen silti kiinnostunut pohtimaan sitä, kuinka kehittyvä keinoäly voisi tuoda helpotusta arkeemme auttamalla meitä hyödyntämään tietoa monipuolisemmin ja ymmärrystä lisäävästi. Koneet eivät tule koskaan korvaamaan ajatteluamme, mutta parhaimmillaan keinoäly voisi auttaa meitä ylittämään joitakin ihmisajattelun kognitiivisia rajoitteita ja vinoumia. Kuten David Ferrucci, IBM:n Watson-keinoälyn yksi pääkehittäjistä, on todennut:
“I think it’s going to get stranger and stranger for people to listen to the advice of experts whose views are informed only by their subjective judgement. Human thought is beset by psychological pitfalls, a fact that has only become widely recognized in the last decade or two. So what I want is that human expert paired with a computer to overcome the human cognitive limitations and biases.”

***

Julkaistu Sitra.fi -verkkosivuilla 10.5.2016

Mitä tiede voisi oppia Googlelta?

Jonkinlainen Big Data –hybriksen kulminaatiopiste koettiin rapakon takana jo vuonna 2008, kun Wired-lehden silloinen päätoimittaja Chris Andersson ennusti datan räjähdysmäisen kasvun johtavan koko tieteellisen metodin hylkäämiseen kirjoituksessaan The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Anderssonin mukaan tieteellisestä luokittelusta, ontologiasta, hypoteeseista ja testaamisesta voidaan pian luopua, koska numerot puhuvat jo puolestaan. Tilastollisten algoritmien avulla on mahdollista löytää kaavoja, joiden kautta saadaan tiedettä nopeampia ja tarkempia tietoja ihmisten todellisesta käyttäytymisestä. Syy, miksi ihmiset toimivat niin kuin toimivat, ei Anderssonin mielestä ollut oleellista. Riitti kun tiedettiin, miten he todellisuudessa toimivat. Se innoitti hänet päättämään kirjoituksensa klassikoksi nousseeseen kysymykseen: mitä tiede voisi oppia googlelta?

Tiedeyhteisössä Anderssonin provokatiiviset teesit herättivät luonnollisesti heti tuoreeltaan vasta-argumenttien vyöryn, mutta keskustelu datamurroksesta on jatkunut elävänä senkin jälkeen. Vuonna 2014 julkaistussa tieteellisessä artikkelissa Big Data: a big mistake ekononomisti Tim Harford muistutti Anderssonin kaltaisia datauskovaisia tilastotieteen perusopeista. Google-hakujen perusteella flunssakausia oli pystytty ennakoimaan useita vuodenaikoja peräjälkeen. Yhtenä sesonkina ennustukset eivät kuitenkaan pitäneetkään paikkansa. Miksi?

Syitä voi tietysti olla lukemattomia, koska hakujen ja flunssan leviämisen välillä on vain korrelaatiosuhde, ei kausaliteettia. Harfordin mukaan tämä on yksi hyvä esimerkki siitä, että teorioista vapaa tarkastelu voi johtaa harhaan. Tieteen tehtävänä on ymmärtää myös syitä ja tuottaa selityksiä, jonka vuoksi löydöksiä ei voi vahvistaa pelkän datan perusteella, vaan on ymmärrettävä myös laajemmin ympäröivää todellisuutta.

Liikenne ja viestintäministeriön Big data –selvityksen mukaan digitaalinen avaruus kasvaa 40% vuosittain kasvaen kymmenkertaiseksi vuoteen 2020 mennessä. Kuten edellä kuvattiin, tieteellisen tutkimuksen näkökulmasta käyttävissä olevan datan määrän kasvu ei ole oikotie parempaa ymmärrykseen maailmasta. Mikään määrä dataa ja sen teknistä murskaustaitoa ei riitä, jos datan puutteita ei ymmärretä, tai jos siltä ei osata kysyä relevantteja kysymyksiä. On silti selvää, että dataistuminen tulee tarjoamaan paljon uusia mahdollisuuksia myös tutkimusmaailmalle. Nostan niistä esiin kolme näkökulmaa, jotka ehkä tarjoavat vastauksia myös Anderssonin esittämään haasteeseen.

1. Entistä laajemmat tutkimusaineistot

Tietovarantojen digitalisoituminen, tiedon keruun automatisoituminen sekä tiedon varastoinnin halpeneminen mahdollistavat yhä laajempien aineistojen haltuunoton tutkimuksissa. Parhaimmillaan se voi johtaa entistä parempiin empiirisiin tutkimuksiin, vaikka hyvä nyrkkisääntö onkin syytä pitää mielessä: data itsessään ei missään mittakaavassa ole arvokasta, vaan vasta datan jalostaminen, organisointi ja analysointi tuottavat tietoa, joka voi olla arvokasta.
Big datan mahdollisuuksiin on reagoitu myös ihmistieteiden puolella, jossa on lähdetty hyödyntämään datatieteen menetelmiä aineiston keruussa, hallinnassa ja analyysissä. Yksi kiinnostavimmista meneillään olevista suomailaisista hankkeista on Kansakunnan Mielenliikkeet –konsortiohanke, jossa tarkastellaan Suomi24-keskustelufoorumin aineistoa hyödyntäen tilastollisia ja kieliteknologisia menetelmiä sekä visuaalisia työkaluja. Aller Oy:n tutkijoille avaamassa aineistossa on yli 70 miljoonaa suomalaisten kirjoittamaa viestiä yli 15 vuoden ajalta. Työ on vasta alussa, mutta yksi hankkeen tehtävistä onkin toimia tienraivaajana digitaalisten tekstiaineistojen yhteiskuntatieteellisessä tutkimuksessa.

2. Tarkempaa tietoa ihmisten käyttäytymisestä

Verkkoon kytkettyjen laitteiden, sosiaalisen median, sensoriverkkojen ja paikkatietojen avulla on mahdollista saada yhä tarkempaa, moninaisempaa ja reaaliaikaisempaa dataa ihmisten todellisesta käyttäytymisestä. Automaattinen datan keruu ei kärsi samanlaisista kognitiivisista vinoumista tai viiveistä, kuten esimerkiksi kyselytutkimukset, jolloin todellisuuden mallinnukset ja todellisuus lähenevät entisestään toisiaan.

Etlan tutkimuksessa on havaittu, että lisäämällä Google-hakujen sisältämä informaatio olemassa oleviin malleihin, on mahdollista tehdä entistä tarkempia ennusteita nykyhetken ja lähitulevaisuuden työttömyydestä Suomessa. Google-haut tarkentavat ennusteita erityisesti käännekohdissa. Löydöksen pohjalta Etla on kehittänyt yhteistyössä 28 eurooppalaisen tutkimuslaitoksen kanssa uuden ETLAnow ennustetyökalun, joka ennakoi työttömyyden kehitystä jokaisessa EU-maassa. ETLAnow on ensimmäinen internetin suuria aineistoja hyödyntävä talousennuste, joka on julkisesti saatavilla. Työkalu hyödyntää ennusteissa Googlen hakutietoja ja Eurostatin virallisia aineistoja. Tulevaisuudessa sen käyttöalaa on tarkoitus laajentaa koskemaan muitakin talouden ilmiöitä, kuten asuntomarkkinoiden kehitystä.

3. Uudet yllättävät löydökset

Suurten ja entistä monimuotoisempien digitaalisten data-aineistojen avulla on mahdollista löytää aiemmin piilossa olleita yhteyksiä. Tästä hyvänä esimerkkinä on Hollannin veroviranomaisten Big data -kokeilu, jossa yhdistelemällä eri viranomaisten alle kuuluvia tietoja havaittiin, että henkilöillä joiden avioliitto oli juuri päättynyt eroon, oli huomattavasti keskimääräistä suurempi todennäköisyys tehdä virheitä veroilmoituksissaan. Korjaavat toimenpiteet tehtiin sen mukaisesti. Viranomaisille tällaiset löydökset ovat totta kai arvokkaita, mutta samoin myös tutkijoiden vastaavat oivallukset voivat johtaa yhä parempaan ymmärrykseen ihmisten ja yhteiskunnan toiminnasta.

Yhteistyön merkitys korostuu 

Tutkimusyhtiö Gartnerin mukaan Big datan alkuhuuma on ohi. Ilmiö on vakiintumassa ja siltä odotetaan jo konkreettisempia tuloksia. Tästä huolimatta tutkija Sami Holopaisen mukaan Big data –ilmiöön ollaan herätty Suomessa ja muualla Euroopassa vasta aivan viime vuosina. Samalla kun suuret tietotalot ovat kiirehtineet ottamaan Big dataan liittyvät tuotteet osaksi portfolioitaan, yliopisto-opetus laahaa jäljessä. Holopainen arveleekin Futura-lehteen kirjoittamassaan artikkelissa, ettei Big dataa nähdä yliopistoissa kovinkaan merkittävänä ilmiönä.

Lähes kaikissa Big dataa käsittelevissä tutkimuksissa ja selvityksissä korostetaan sitä, että työskentely suurten strukturoitujen ja strukturoimattomien data-aineistojen parissa edellyttää uudenlaista dialogisuutta, tieteidenvälisyyttä ja monimetodisuutta. Edellä mainitun Kansakunnan Mielenliikkeet -hankkeenkin yhtenä julkilausuttuna tavoitteena on rakentaa siltaa eri alojen sisältötutkijoiden, kielentutkijoiden ja toisaalta kieliteknologien ja data-analyytikkojen välille. Parhaimmillaan tällaisen vuorovaikutuksen tuloksena voi syntyä aivan uudenlaisia analyysityökaluja ja menetelmiä myös ihmis- ja yhteiskuntatieteisiin. Olisi syytä, että jatkossa tällaiset kokeilut jalkautuvat entistä vahvemmin myös suomalaiseen korkeakouluopetukseen. Osaamisen ja osaajien puutetta pidetään yhtenä keskeisimmistä Big datan mahdollisuuksia jarruttavista pullonkauloista.

***

Julkaistu Sitra.fi -verkkosivulla 7.7.2016.

Tutkijat jahtaamassa Newtonin unelmaa


Google käynnisti vuonna 2004 tyylilleen uskollisen megalomaanisen hankkeen. Sen tavoitteena on saattaa kaikki maailmassa kirjoitetut kirjat sähköiseen muotoon ja laittaa ne avoimesti saataville internetiin.

Tarkoitusta varten Google kehitti skannauskoneen, joka kääntää kirjojen sivut automaattisesti ja pystyy siten skannaamaan miljoonia kirjoja. Muutamassa vuodessa maailman suurin digitaalinen kirjasto oli jo pystyssä.

Kuvina nettiin tallennetuista kirjoista ei kuitenkaan voinut tehdä sanojen tarkkuudelle ulottuvaa louhintaa, vaan piti yhä tietää mitä etsi. Niinpä Google päätti vielä muuttaa kirjat dataksi tekstintunnistustyökalulla, joka pystyy tunnistamaan kuvasta kirjaimet, sanat ja lauseet. Lopputuloksena syntyi maailman laajin dataistettu kirjasto, joka ei ole vain ihmisten vaan myös tietokoneiden luettavissa ja tulkittavissa. 

Tällä hetkellä Googlen dataistetun digitaalisen kirjaston koko on yli 30 miljoonaa teosta. Googlen omien karkeiden arvioiden mukaan se kattaa jo 15–20 prosenttia maailman kirjoitetusta perinnöstä.

Tutkijat ja tutkimusryhmät ovat luonnollisesti olleet aineistosta innoissaan tästä ennen näkemättömän kokoisesta aineistosta. Hankkeen tuloksena on jopa syntynyt kokonaan uusi tieteenhaara nimeltään culturomics, joka pyrkii ymmärtämään ihmisten käyttäytymistä ja kulttuurisia trendejä kvantitatiivisen analyysin pohjalta.

Culturomicsin pioneerit Erez Aiden ja Jean-Baptiste Michel käyttivät dataistettuja aineistoja tarkastellessaan sanojen syntyä ja yleisyyttä eri ajanjaksoina. Yksi heidän tutkimuksensa päälöydöksistä oli, että yli puolet englannin kielessä käytössä olevista sanoista ei ole sanakirjoissa. Näiden tutkimusten innoittamana syntyi myös Google Ngram Viewer -hakukone, jonka avulla voi helposti tutkia sanojen syntyä ja yleistymistä tai vaikka henkilöiden suosiota eri ajanjaksoina.

Aiden ja Michel ovat kutsuneet culturomicsia aivan uudenlaiseksi ”kulttuuriseksi teleskoopiksi” ja verranneet sen mahdollisuuksia vaatimattomasti jopa Galileo Galileihin, joka heidän sanojansa lainaten, ”pudotti maapallon pois universumin keskiöstä vain 30 kertaa ihmissilmää tehokkaammalla teleskoopilla”.

Tutkija Helga Nowotnyn mukaan Isaac Newton olisi kuitenkin culturomicsille paljon luontevampi vertailukohta. Olihan Newtonin yksi vähemmän tunnetuista suurista haaveista saada selvyys sivilisaatioiden syntyhistoriasta luomalla teksteille, erityisesti raamatun teksteille, astrologiasta johdettu numeraalinen tulkintakoodi.

Nowotnyn mukaan Newton keräsi vuosien saatossa harrastustaan varten laajan aineiston, aikansa big data -aineiston, jonka avulla hän yritti ymmärtää ihmiskunnan historiaa matemaattisin termein, toisin sanoen kvantifioimalla ja mittaamalla ihmiskulttuurin tuotoksia. Ajatus siitä, että vaihtuvuuden ja sattumanvaraisuuden, näennäisen kaaoksen takana oli ehdottomia, tarkkoja ja ennakoitavissa olevia maailmaa koskettavia sääntöjä, jotka voitiin laskea ja selittää matemaattisesti, oli 1600-luvulla vastustamaton. Luonnon lait löytäneen Newtonin haave inhimillisen toiminnan taustalla olevien ”lakien” löytämisestä ei kuitenkaan toteutunut.

Mitä sitten voimme odottaa culturomicsilta? Käykö tämän uuden menetelmän suurille odotuksille samoin kuin Newtonin haaveille?

Ainakin toistaiseksi suuret läpimurrot odottavat vielä itseään. Jo konkretisoituneena edistysaskeleena voidaan kai pitää sitä, että suuri dataistettu nettikirjasto on tehnyt kiinnostavien uusien lähteiden löytämisestä entistä helpompaan ja toisaalta plagioinnista entistä vaikeampaa. Tiettävästi Google on myös hyödyntänyt suurta tekstimassaa automaattisen kielenkääntäjän kehitystyössä.

Tutkimuspuolella sen sijaan ollaan vasta alkutaipaleella. Jo nykyisellään työskentely ennen näkemättömän suurten tekstidatojen kanssa voi auttaa tutkijoita tekemään uusia löydöksiä ja tarkentamaan katsetta ilmiöihin, jotka perinteisten aineistojen kanssa jäisivät huomaamatta.

Suuria uutisaineistoja samalla metodiikalla tutkimalla on jo onnistuttu tekemään kiinnostavia verkostoanalyysejä maailman ”luonnollisista sivilisaatioista” ja havaitsemaan jännitteiden kasvu Pohjois-Afrikan maissa ennen arabikevättä, tosin jälkikäteen. Mikäli koneiden kyky luonnollisen kielen analysoinnissa kehittyy odotetusti, pitäisi myös nopeiden yhteenvetojen ja kulttuuristen muutosten ymmärtäminen olla mahdollista lähitulevaisuudessa.

Toistaiseksi kuitenkin datan syvempi ymmärrys vaatii rinnalleen perinteisiä tutkimusmetodeja sekä ihmisen tekemää analyysiä. Nowotnyn mukaan jatkossa tarvitaan myös yhä syvempää tieteiden välistä yhteistyötä, mikäli culturomicsista halutaan saada irti eriskummallisia historiallisia detaljeja enemmän.

***

Julkaistu 28.9.2016 Sitra.fi -verkkosivuilla.