Googlemaisen data-analyysin voittokulku

12.10.2009 Kirjoittanut Marko Terviö

Mikä on tärkeä verkkosivu? No tietenkin sellainen, johon tärkeät verkkosivut linkittävät. Tämä ensi alkuun kehäpäätelmältä kuulostava määritelmä on perustana oivalle tavalle löytää tärkeät osat mistä tahansa verkosta, jonka jäsenet “viittaavat” toisiinsa ja jossa viitatuksi tuleminen kertoo “tärkeydestä.” Menetelmän arkipäiväisin sovellus on Googlen tapa rankata verkkosivuja, mutta muitakin sovelluksia on ja uusia tulee. Hyödyllisin on tieteellisten aikakauslehtien eli journalien arviointi.

Googlen kehittäjät ovat havainnolistaneet menetelmän ideaa ns satunnaisen verkkosurffarin tarinalla. Hän valitsee verkkosivulta löytyvien linkkien joukosta satunnaisesti aina yhden, seuraa valitsemaansa linkkiä, ja päätyy uudelle sivulle jossa taas satunnaisesti valitsee yhden linkeistä jne. Jos hän jatkaa tätä satunnaista surffausta ikuisesti, niin lopulta todennäköisyys sille, että hän millä tahansa hetkellä on sivulla X, on sivun X merkittävyyden mitta. (Suomenkieliseksi nimeksi sopisi kai ominaisfaktori).

Kehäpäätelmästä päästään irti, koska vastaus ei riipu siitä millä vastauksella (miltä verkkosivulta) lähdetään liikkeelle. Matkaan tulee kuitenkin pieni mutka, jos verkon rakenne sellainen, että osa sivuista ei linkitä minnekään, koska silloin ennen pitkää satunnainen surffari jäisi jumiin. Ongelma ratkeaa, kun lisätään vielä pieni todennäköisyys sille, että surffari siirtyy mille tahansa verkon sivulle, oli sitä linkattu nykyiseltä sivulta tai ei.  Juuri tämä ylimääräinen satunnaishyppy oli Googlen kehittäjien keksintö, joka mahdollisti ominaisfaktorien soveltamisen verkkosivujen rankkaamiseeen - tosin heidän opiskeluaikaisista kirjoituksistaan jäisi se käsitys, että he keksivät kaiken muunkin asiaan liittyvän. Taisivat jo pedata tulevia patenttihakemuksia.

Muita sovelluskohteita. Mitkä ovat ravintoverkossa merkittäviä lajeja? Ne, jotka ovat huomattava ravinnonlähde ravintoverkossa merkittäville lajeille. Mitkä ovat hyviä jalkapallojoukkueita? Ne, jotka voittavat hyviä jalkapallojoukkueita. (Tämä on hyödyllinen epätäydellisissä turnauksissa, joissa kaikki eivät pelaa kaikkia vastaan). Mitkä akateemiset laitokset ovat merkittäviä tohtorinkoulutusohjelmia? Ne, joista valmistuneita tohtoreita palkataan akateemisesti merkittäviin laitoksiin. Mikä on merkittävä tieteellinen lehti? No tietenkin sellainen, johon merkittävissä tieteellisissä lehdissä viitaataan.

Mikään mekaaninen arviointiformula ei ole täydellinen, mutta puhdas mekaanisuus on joskus hyve sinänsä. Ainakin taloustieteen journaleiden kesken ominaisfaktorit tuottavat sen verran järkevän rankkauksen, että jonkun toisen alan lehtiä arvioitaessa luottaisin mielummin ominaisfaktoreihin kuin jonkun satunnaisesti valitun tutkijan mielipiteeseen. Varsinkin jos on tarkoitus arvioida kyseisen tutkijan omien julkaisujen tasoa.

Ominaisfaktorilla on myös yksinkertaisempi ja helposti höynäytettävä veli, impaktifaktori, jota on perinteisesti käytetty journalien merkittävyyden vertailuun. Siinä tuo kehäpäätelmältä kuulostava kysymys esitetään vain kerran. Eli ensin lasketaan kuinka monta viittausta kukin journali saa, ja sitten painotetaan kaikki viittaukset tällä lukumäärällä. Jos verkkosivuja rankattaisiin impaktifaktoreiden avulla, niin korkean rankkauksen saisi kun perustaisi pari verkkosivua ja laittaisi niihin miljoona linkkiä toisiinsa.  Tällainen manipuolointi on lehtialalla kalliimpaa ja saa siten hieman lievempiä muotoja.

Sivuhuomautuksena akateemiseen maailmaan perehtymättömille: poislukien kuppikuntaa pienempi pyöristysvirhe, ei ole olemassa niin huonoa tutkimusta, etteikö sitä pystyisi julkaisemaan jossain tieteellisessä journalissa. Jos olisi, niin silloin niin huonoja tutkimuksia tekevät tutkijat lyöttäytyisivät yhteen kuppikunnaksi ja perustaisivat journalin, jossa he julkaisisivat toistensa juttuja. (Ja näin on jo tapahtunut, useita kertoja). Pari tällaista journalia saa jo ihan kohtuullisen impaktifaktorin, jos he ottavat tavaksi viitata joka artikkelissa suureen määrään toistensa juttuja. Sen sijaan ominasfaktoria ei noin vain hämätä, koska satunnaisen surffarin on vaikea löytää klikkiin, johon ulkopuoliset eivät viittaa.


Tällä menetelmällä ja sen pienoisilla muunnelmilla on monia nimiä, mm influence weights, invariant method, PageRank™ ja Perron vector. Mielestäni eigenfactor (ominaisfaktori) on kuvaavin, koska kyse on normalisoidun viittausmatriisin suurinpaan ominaisarvoon liittyvästä ominaisvektorista.

Avainsanat:

Aihealueet: Lajittelematon

4 kommenttia kirjoitukseen “Googlemaisen data-analyysin voittokulku”

  1. Teemu kirjoitti:

    Hei! Kiitos mielenkiintoisesta kirjoituksesta, oli kiva lukea.

  2. Marko Terviö kirjoitti:

    ilkka: “Mikään mekaaninen arvointiformula ei ole täydellinen.” Ominaisfaktori on mielestäni parannus impaktifaktoriin verrattuna, juuri tuon vaikeamman manipuloitavuuden takia.

    RA: Aikakauslehtien vertailu mielestäni hyödyllisin näistä muista sovelluksista, ei toki yhtä hyödyllinen kuin Google. Julkaisujen merkittävyyttä arvioidaan usein impaktifaktorien avulla, ja tämä vaikuttaa resurssien jakoon akatemiassa. Jos on pakko käyttää mekaanista formulaa, niin ominaisfaktori olisi parannus (tai vähintäänkin lisäys) ja johtaisi järkevämpään resurssien jakoon. Muut sovellukset ovat enemmän tai vähemmän kuriositeetteja.

  3. ilkka kirjoitti:

    Täysin ongelmattomia journalien rankkingeja tuo menetelmä ei tuota. Ainakin Googlen käytössä PageRank ennustaa nettisivun suosiota eikä arvostusta. Wikipedia rankataan Britannican yläpuolelle. Vastaavasti Oxford English Dictionaryn ranking on verrattaen alhainen, koska maksullisuuden takia siihen linkataan vähemmän kuin ilmaisiin, mutta asiantuntijoiden mielestä selvästi huonompiin, kilpailijoihin. Samoin oikeastaan mikä tahansa erikoistunut sivu, johon vain muutamat alan asiantuntijat linkkaavat, jää näiden globaalien yleissivujen alle.

    Akateemisten journalien alalla tämä varmaan tarkoittaa sitä, että mekaaniset menetelmät arvostavat yleisjournalit alaspesifejä journaleita ylemmäksi, vaikka alaspesifit journalit olisivat laadukkaampia.

    Yksittäisen tutkijan mielipidettä parempia nämä rankkaukset ovat varmasti.

  4. Robert Aarts kirjoitti:

    Hyvä juttu mutta miksi ihmessa “hyödyllisin on tieteellisten aikakauslehtien eli journalien arviointi” ? Milla perustella ?

Vastaa