Olen viime vuosina monessa yhteydessä kritisoinut Tilastokeskusta eksoottisista laintulkinnoista. Kiva päästä vaihteeksi kehumaan:
Tilastolakia muutama vuosi sitten uudistettaessa työryhmässä tutkijoita edustaneilla oli kaksi keskeistä tavoitetta. Ensinnäkin halusimme päästä eroon pitkällisistä keskusteluista henkilötietojen luovuttamisesta tutkimustarkoituksiin. Vanhan Tilastolain mukaan tietoja, joista henkilön voisi periaatteessa tunnistaa, ei saanut tilastoviranomaisilta, vaikka yksityisyyden suojaksi rakennetun Henkilötietolain mukaan tällaisten tietojen käyttö asianmukaisesti toteutetussa tieteellisessä tutkimuksessa oli sallittu. Tämä esti pitkään koko väestöä koskevan datan käytön tutkimuksessa ja aiheutti jokaisessa käyttölupapäätöksessä ihmettelyä siitä, voiko tutkimusaineistossa olla esimerkiksi sekä henkilön asuinpaikka että ammatti. Uudesta Tilastolaista tällaiset säännökset (melkein) poistettiin, mikä helpottaa oleellisesti tutkimuksen tekemistä eikä tiettävästi ole aiheuttanut tietosuojan vaarantumista.
Toinen tavoite oli luoda mahdollisuus julkiseen käyttöön tarkoitettujen tiedostojen rakentamiseen. Maailmalla tällaiset tunnetaan nimellä “public use files” (tästä otsikon puffi). Tällainen avoin data on kenen tahansa vapaasti käytettävissä. Yksityisyyden suoja turvataan poistamalla tunnistetiedot, rajaamalla aineisto riittävän suppeaksi, pyöristämällä esimerkiksi tuloja koskevat tiedot ja poistamalla tiedot joita yhdistelemällä voisi yksittäisen henkilön datasta tunnistaa. Data on silti aitoa tilastotietoa, yhtään alkuperäistä lukua ei ole varsinaisesti vääristetty. Ajatuksena on että avoin data mahdollistaa myös erilaisten kaupallisten sovellusten rakentamisen. Erityisen hyödyllistä avoin data on kuitenkin opetuksessa. Sen saa käyttöön ilman käyttölupaprosessia suoraan verkosta, ja aikaa kuluu pari minuuttia. Tällaisen datan avulla opiskelijat voivat tehdä harjoitustyötä aidolla tutkimusaineistolla, ja oppia menetelmien lisäksi samalla jotain yhteiskunnasta.
Tilastokeskus on aikaisemminkin tarjonnut opetuskäyttöön aineistoja, mutta viime kuussa tilanne muuttui radikaalisti paremmaksi. Tilastokeskuksen sivulle on ilmestynyt linkki vuosien 1990-2010 Työssäkäyntitilastosta poimittuun noin 8000 hengen otokseen. Tästä otoksesta on tehty 20 vuoden paneeliaineisto. Tietosisältö on suppeahko, mutta mukana on kuitenkin tietoja koulutuksesta, tuloista, asuinpaikasta, työllisyydestä ja työttömyydestä ja jopa linkki yritykseen jossa otoshenkilöt ovat vuoden lopussa työssä (luonnollisesti yrityksenkin tiedot tehokkaasti salattuna). Kaikkien muuttujien nimet ja luokitukset vastaavat alkuperäistä dataa, mikä helpottaa aika lailla tilastoaineistojen käytön opettelua. Paljon parempaa harjoitustyödataa on vaikea toivoa. Kaunis kiitos siis aineistoprojektia Tilastokeskuksessa puffanneille.
Tilastokeskus varoittaa että aineisto ei sovellu tutkimukseen ja selvityksiin. Tällä tarkoitettaneen, että aineistosta lasketut tunnusluvut eivät välttämättä vastaa todellisuutta, koska aineistosta on tietosuojasyistä poistettu joitakin havaintoja. Tällainen tietoisesti aiheutettu otosharha ei tietysti ihan sovi avoimen datan ideaan, mutta opetuskäytössä, ei juuri ongelmia aiheuta. Sitä paitsi varoituskin on vähän liioiteltu. Pikaisten kokeilujen perusteella keskeisten muuttujien väliset suhteet, ovat kovin samanlaisia, kuin mitä alkuperäisessä aineistossa on tottunut näkemään.
Aihealueet: Julkinen talous, Kaupunkitalous, Koulutus, Työmarkkinat
Kiitos kiitoksista, hauskaa kuulla että olemme onnistuneet.
Toivon Puffeille laajaa käyttöä opetuksessa.
Sitten kun Puffien rajoitteet tulevat vastaan, saman tyyppisen aineiston voi saada tutkimuskäyttöön laajempana versiona käyttölupamenettelyn kautta.
Timo Koskimäki
Tilastotuotannon ylijohtaja,
Tilastokeskus