Valtavasti avointa dataa

Avoin data,
innovaation lähde,
räjähtää kasvuun.

Miten Big Dataa
ymmärtää, analysoi
liiketoiminta?

Open on avoin.
Miten ope hyödyntää
avointa dataa?

Systeemityöyhdistys Sytyken laivaseminaari järjestettiin 5 .- 7.9.12, pitkästä aikaa Silja Serenadella, jolla laivaseminaariperinne alkoi jo viime vuosituhannella, vuonna 1998. Ammattikorkeakoulujen Tietie-verkosto oli neljättä kertaa mukana kehittämispäivillään.
Tänä vuonna Sytyke-seminaarin aiheena oli avoin tulevaisuus, jonka laivayhtiö oli opasteeseen kirjoittanut  muodossa: ”Sytyke, avoin tilaisuus”.
Vuoden 2011 tietotekniikkavaikuttaja Antti Rainio kertoi Suomen julkisen tiedon avaamisen pitkästä tiestä eri hallituskausilla. Bensonin työryhmä, Poikolan, Kolan ja Hintikan selvitys  sekä Helsingin seudun Forum Virium vaikuttivat julkisen tiedon avaamiseen ja selvittivät, miten julkisen tiedon avaamisessa sovitaan lisenssit ja taataan tiedon saatavuus.
Kiviniemen hallituksen aikana luotiin periaatteet julkisen tiedon avaamiselle tietosuojaa vaarantamatta. Kataisen hallituksen ohjelmassa todettiin selkeästi, että julkisin varoin kerättyjä tietovarantoja avataan kansalaisten käyttöön ja tästä muodostui yksi hallituksen kärkihankkeista. ETLAn tutkimuksen mukaan pien- ja keskisuurten yritysten kasvu on muita nopeampaa maissa, joissa paikkatieto on avoimesti saatavissa.
Valmiiden karttojen avaaminen olisi synnyttänyt epätervettä kilpailua, joten raaka-data avattiin kaikille. Maanmittauslaitoksen maksuasetus piti joka tapauksessa päivittää vuoden 2012 alussa, joten tiedot voitiin samalla kertaa avata. VM vastusti tietojen avaamista, koska valtio oli saanut kohtalaisen suuret tulot karttatiedoista. Some alkoi kuohua ja media heräsi. Kansalaiset voivat vaikuttaa valitsemiinsa poliitikkoihin ja heidän päätöksiinsä antamalla riittävästi tietoa. Joulun alla ehdotuksen mukainen päätös tehtiin. Tästä hatunnosto poliitikoillemme; maailma muuttuu!
Viime marraskuussa ei vielä uskottu, että datan avaaminen onnistuisi, joten tekninen valmistelu jäi vähäiseksi. Myönteisen päätöksen jälkeen projektin ohjausryhmä kokoontui monta kertaa viikossa. Projekti onnistui niin, että järjestelmät eivät kaatuneet, mutta pientä hitautta esiintyi ja dataa avattiin vähitellen.
Nyt odotetaan mielenkiinnolla, mitä avoimesta datasta syntyy. Sitra rummuttaa avointa yhteiskuntaa. Museovirasto avasi dataa kesällä, mutta ei tiedottanut siitä mihinkään. Sää- ja karttatiedot avautuvat seuraavaksi.
Tiedon avaamisessa on kuitenkin rajoja kuten yksityisyyden suoja, yritysten liikesalaisuudet ja uhanalaiset lajit. Maksuperusteita pitäisi viilata: mitä yhteiskunta panostaa ja mitä liike-elämä. Millaisia uhkia piilee tietojen yhdistelyn mahdollisuudessa?
Some-verkostot ja kaupalliset sovellukset tuottavat paljon jatkuvasti muuttuvaa tietoa, jota pitäisi tarjota rajapintapalveluna. Apps4Finland-kilpailussa syntyy sellaisia palveluita, joita kansalaiset odottaisivat julkishallinnolta. Avaamalla dataa julkishallinto saa siis paljon uusia palveluita, joista on hyötyä kansalaisille.
Millaisia liiketoimintamalleja tiedon avaamisen ympärille on syntynyt? Yksi erinomainen esimerkki on Ilkka Pirttimaan kehittämä BlindSquare-mobiilisovellus näkövammaisille.
Avoimuuteen liittyy luottamus. Kuka tiedot omistaa?
Aki Saarinen kertoi Big Datasta pörssissä. Aikoinaan fyysinen elekieli ja huutaminen vaikutti kauppoihin, nyt meklarit näpyttävät tietokoneita. Tietokeskukset (Data Center) sijaitsevat pörssin lähellä, koska Atlannin ylitys muutamassa sekunnissa kestää liian kauan. Yli puolet pörssikaupasta on automatisoitu, dataa vastaanottaa algoritmi eikä ihminen. Tietokoneet ovat ihmistä tehokkaampia ja nopeampia hahmottamaan kokonaisuuksia isoista datamassoista.
Pörssin rakenteellisen markkinadatan lisäksi kaupankäyntiin vaikuttavat ihmisten tuottamat uutisvirrat ja some, joiden data on vähemmän rakenteellista ja sisältää kirjoitusvirheitä. Tällaisen tiedon tulkinnassa voidaan käyttää tiedon louhintaa (Data Mining). Datan määrä kasvaa rajusti, koska automatisointi ruokkii automatisointia.
Yhdysvaltain optiomarkkinoilla pörssikauppoja tehdään 4,5 miljardia vuodessa, joista osa peruuntuu. Niihin liittyviä viestejä syntyy 23 miljardia päivässä.
Data itsessään ei ole arvokasta, mutta siitä etsitään informaatiota, jonka pohjalta voidaan kehittää malli ja lisätä ymmärrystämme siitä, mitä on tapahtunut ja miksi. Mallin avulla voidaan ennustaa hinnanmuutoksen suuntaa ja suuruutta sekä kaupankäynnin volyymia.
Mallien parantamisessa ja ymmärtämisessä auttaa visualisointi, kysymyksenasettelu, modernit ympäristöt, oma työkalupakki ja tiimityöskentely.
Voidaanko kysymykseen löytää vastaus muuten kuin käymällä läpi koko datamassa? Voidaan, jos kysytään parempi kysymys. Kaikki vastaukset ovat tilastollisia, joten osa datasta voidaan jättää käsittelemättä, jotta vastaus saadaan järkevässä ajassa.
Omassa työkalupakissa on hyvin tehtyjä, uudelleenkäytettäviä, yksinkertaisia, yhden asian toteuttavia palasia. Koodin katselmoi joku toinen tiimin jäsen kuin koodin kirjoittaja.
Pasi Mäkinen kysyi, onko avoin data liiketoimintaa vai demokratiaa vai molempia. Pilvi mahdollistaa monia asioita. Kaupungille vuosikustannus on muutamia satoja, mutta jatkojalostamalla tietoa avoimen datan päälle voidaan rakentaa tuhansia sovelluksia.
Datan hyödyntäminen vaatii ohjelmointitaitoja, mutta sen pitäisi olla visualisoitavissa ja julkaistavissa ilman ohjelmointitaitoa. Pilvi on avoin alusta, johon pääsee selainkäyttöliittymällä.
Suomen maa-ala ei tästä kasva, joten paikkatiedon määräkään ei kasva, mutta sen kysyntää on vaikea ennustaa.
Windows Azure sisältää avoimen datarajapinnan, datan lataustyökalut sekä ohjelmallisen rajapinnan kyselyihin.
EU-alueen avoin julkinen data löytyy datapalvelusta. Kanadan yksityisten kiinteistöjen verotiedot ovat avoimesti näkyvissä Medicine Hat -verkkopalvelussa. San Franciscossa voi nähdä alueet, joista on jätetty palvelupyyntö, samoin palvelun tilanteen. Vancouverin talviolympialaisiin kehitettiin sovellus, josta sai tiedot julkisista ja kaupallisista pysäköintipalveluista. Worldwide Telescope, jolla voi katsoa myös maapalloa, visualisoi paikkatietoa.
Juhani Luoma-Kyyny puhalsi ilmat pihalle Big Datasta. Big Datan myötä tietojenkäsittely muuttuu lähes mahdottomaksi, kun kaiken muotoista tietoa syntyy nopeasti paljon.
Big Data synnyttää vallankumouksen samoin kuin kannettava tietokone aikoinaan. Tiedon arvo on olennaista. Meillä on siis hirvittävä määrä arvoa ja työtä. Gartnerin mukaan näin paljon monimutkaista tietoa näin monista eri lähteistä vaatii uudenlaista lähestymistapaa liiketoiminnan tarpeiden tyydyttämiseen. Datan lähteitä ovat sähköpostit, asiakirjat, laskentataulukot, esitysgrafiikka, portaalit, sosiaalinen media ja puhelut.
Mahtisanoja ovat Hadoop ja NoSQL. Hadoop on hajautettua käsittelyä tukeva avoin Java-viitekehys. NoSQL, joka tulee sanoista Not Only SQL, on hajautettua käsittelyä tukeva tietokantajärjestelmä.
Tähystys auttaa ja visualisointi on keskeistä. Hypetys hämärtää kaikkea asiaan liittyvää: kertooko pilvi, että myrsky on tulossa? Teknologiavetoisuus sumentaa, kun liiketoiminnan edustajat tulevat pyytämään pilveä. Vaikuttaa siltä, että IT:ssä keskitytään T:hen eli teknologiaan kun pitäisi keskittyä I:hin eli informaatioon.
Kun keskitytään tiedon määrään, niin onko kaikille selvää, mihin olemme menossa? Miten eettiset kysymykset ja skaalautuvuus ratkaistaan? Totuus riippuu kysyjästä ja vastaajasta. Vanhaa dataa on paljon, kuin konesalin lattialle levinnessä reikäkorttipakassa.
Big Data on ongelma eikä ratkaisu. Kyydistä ei voi jäädä pois, mutta mitä voimme tehdä? Laskutikussa tulos on olemassa jo ennen kuin mitään kysytään.
Bremermannin raja on tietokoneen maksiminopeus tässä maailmankaikkeudessa. Tämän mukaan 300 asiakkaan ja 300 tuotteen kombinaation laskemiseen menee tähtitieteellinen määrä vuosia. Pelkällä tieotekniikalla ei selvitä – eikä ilman sitä.
Nykyinen toimintamalli ei vie eteenpäin eikä hopealuotia ole. Kun fyysikot totesivat, että riittävän iso hiukkaskiihdytin ei mahtuisi mihinkään, he ottivat 40 miljoonasta hiukkasesta talteen vain 100 000 ja jakoivat ne maailman eri tutkimuslaitoksiin. Valtaosa datasta heitettiin siis pois, jotta oli mahdollista saada tuloksia. Pitää suodattaa.
Marcus Aurelius kehotti aikoinaan selvittämään ytimen, mitä oikeasti ollaan tekemässä. Tarvitaan myös viestintää, arkkitehtuuria ja oikeaa osaamista.
Juha Karjalainen kertoi, miten siiloutunut tieto saadaan koko yrityksen käyttöön. Contribyten 20 työntekijällä on yhteensä yli sata vuotta kokemusta. Tuotetietoa on monissa eri järjestelmissä, joihin liittyy oletuksia toimijoista. Tiedon etsimiseen menee kohtuuttomasti aikaa, jos tietoa ei ole saatavilla tai se on vanhentunutta. Tietoa tarvitsevat nekin, jotka eivät käytä masterdataa päivittäin.
Avoin ratkaisu on joustava ja helposti muokattavissa. Kaikki tieto on saatavissa reaaliaikaisesti samasta pisteestä eikä sitä kopioida eri paikkoihin. Ratkaisun alustaksi valittiin Sharepoint, koska se on käytössä kaikilla, joiden kanssa järjestelmää ruvettiin kehittämään.
Järjestelmään saadaan reaaliaikaista dataa mm. Twitteristä, Facebookista, sisäisistä keskusteluista ja säätiedoista.
Petri Kola opasti meitä Open Knowledge Festivaaleille, jotka järjestetään Helsingissä viikolla 38. Festivaaleista on tietoa blogissa ja Facebookissa. Jälkimmäinen on ehkä hengen vastainen, mutta monet julkishallinnon edustajat osallistuvat siellä aktiivisesti. Festivaaleilla keskeistä on verkostoituminen.
Onko kyseessä pikseli-ähky-festivaali, elektronisen ruohonjuurikulttuurin festivaali? Avoin data on määritelmän mukaan sellaista, jonka voi kopioida itselle ja jota voi käyttää kaupallisesti. Tämän voi osoittaa CC-lisenssillä.
CKAN on omalle koneelle asennettava valmisratkaisu avoimen datan julkaisemiseen, mutta siinä esiintyy vielä jonkin verran lastentauteja.
Kokonaisratkaisun tarve on lisääntynyt. Open Spending on avoin maantiekartta maailman menovirroille. Data Journalism Guide Book suosittelee tiedostoihin PDF-muotoa tai Amazonin käyttämää tiedostomuotoa.
Antakaa dataa, niin kaikkea syntyy itsestään!
OK-festivaalissa on 13 träkkiä, jotka liittyvät mm. avoimeen tietoon hallinnossa ja liiketoiminnassa, avoimen tiedon hyödyntämiseen ja avoimeen kansalaisaloitteeseen. Perjantaina on myös avoin sauna, johon vielä voi ilmoittaa yrityksensä saunan.
Ilari Rönnberg IBM:ltä kertoi, miten suljetut datavarannot avataan turvallisesti. Maksuttomuus, jälleenkäytön sallivat ehdot, löydettävyys ja ymmärrettävyys helpottavat tiedon hyödyntämistä.
Suljettu data selittyy historiasta. Arpanetista kehittyi globalisaation aloittanut internet. Datalla haluttiin tienata ja verkkoa alettiin kontrolloida. Työntekijän piti hyväksyttää työnantajallaan, mitä pani verkkoon, ja patentit lisääntyivät.
Nyt vapaudesta on tullut trendi ja Big Data hämmentää. Tiedon määrä ei kasva, mutta tiedon talennusbittien määrä räjähtää. Vaurauteen pitäisi liittyä vastuullisuutta ja nöyryyttä. Liike- ja julkishallinto etsivät uusia liiketoimintamalleja ja imagoa. Lainsäädännön pitäisi edistää innovaatioita. Mistä säästetään, mikä on maksullista?
Tiedon arvo tiedetään usein vasta sitten, kun se on avattu. Tiedon avaamista vastustetaan vetoamalla lainsäädäntöön tai tekniseen vaikeuteen. Mitä vastuuta datan avaaminen tuo? Avaaminen on peruuttamatonta. Kuka maksaa koneresurssit ja yhteydet? Häiriintyvätkö perustoiminnot? Ketä kiinnostaa? Ja ketä kiinnostaa liikaa?
Onko avoin data Suomelle iso liiketoimintamahdollisuus vai hypeä? Missä ovat menestyssovellukset? Mitä yksityisihminen saa irti tilastodatasta?
Mobiililaitteilla käytetään sovelluksia eikä enää vain puhetta. Selaimella ei voi käyttää kaikkia puhelimen ominaisuuksia, joten tarvitaan erillisiä mobiilikäyttöliittymiä.
Lumisena talvena unohdetut autot ovat roska-autojen ja lumiaurojen harmina. Jos avataan tiedot roska-autojen ja lumiaurojen sijainnista, aikatauluista ja reiteistä, voidaan kehittää mobiilisovellus, joka varoittaa auton omistajaa ennen kuin lumiaura tai roska-auto tulee paikalle.
Operatiivinen järjestelmä pitäisi eriyttää puskurilla niin, että taustadata pilvestä ei pyöri koko ajan mukana, koska se tulisi turhan kalliiksi.
Mika Helenius pohti Big Datan liiketoimintamalleja. Valtavat palvelinkeskukset herättävät ympäristökysymyksiä. Halutaanko Suomeen uusia mahdollisuuksia? Ymmärretäänkö, mistä on kysymys? Kaikki tietohan on saatavilla, mutta mistä löytyy strateginen perspektiivi?
Marja-Riitta Vehviläinen TeliaSoneralta pohti yritysarkkitehtuureja digimaailmassa. Missä olemme, minne menemme ja mitä keinoja käytämme? It-, sovellus- ja data-arkkitehtuurissa reaalimaailman toiminnallisuudet kuvataan vain yhdessä paikassa. Systeemien elinkaarisuunnittelussa pohditaan, mitkä osat ovat tärkeitä ja mitkä voitaisiin poistaa. Ympäristöä yksinkertaistetaan, jotta mittareilla voidaa seurata tavoitetta ja kustannuksia eri näkökulmista.
Seminaarin loppupaneelissa, jonka otsikkona oli ”Kuun asennon vaikutus mehiläistarhaukseen”, Tarja Raussi, Petri Kola, Mikko Holmberg ja Tarmo Toikkanen keskustelivat Mitro Kivisen johdolla seminaariesitysten herättämistä ajatuksista. Yleisö osallistui aktiivisesti paneelikeskusteluun.
Onko avoimuus illuusio, jossa lehmänkauppoja tehdään suljetuissa ympäristöissä? Eikö datan avaaminen muuta maailmaa demokraattisemmaksi? Onko meillä aktiivuuskuilu, meritokratia eli osaamiseen ja kyvykkyyteen liittyvä valta, valistunut diktatuuri, propellihattudiktatuuri vai plutokratia eli rahan valta?
Millaisia liiketoimintamalleja avoin data ja avoin lähdekoodi tarjoavat? Lait ovat aina olleet avoimia, mutta juristeilla on kuitenkin isot palkat.
Avoin data on konsultin lähtökohta. Koodi on dokumentti, sehän on se, jota ajetaan. Koodin kommentteja ei ajeta. Käytetäänkö omaa aikaa koodin selvittämiseen vai pyydetäänkö konsultaatiota alkuperäiseltä koodaajalta?
Onko avoin data tai avoin lähdekoodi nörtin päiväuni? Vai painajainen, jos data ei ole luotettavaa?
Keksijät pystyvät hyötymään avoimesta datasta. Perinteisissä liiketoimintaprojekteissa data yleensä tulee liian myöhään. Mullistavaa on se, että nyt data on ensin ja ratkaisun voi tehdä sen päälle.
Data voi vinoutua, jos paikkatieto yhdistyy rikollisuuteen. Oman kotikulman rikoksia ei ehkä enää ilmoitetakaan, etteivät asuntojen arvot laskisi.
Miten hoitajat oikeasti lasketaan: vain hoitajat vai myös hallintohenkilökunta?
Miten mallien vinoutuma vaikuttaa koko yhteiskuntaan, jos jatkojalostetutusta tiedosta puolet on väärin? Pohjautuvatko pörssin nousut ja laskut faktojen sijaan mielikuviin, joita algoritmit yrittävät jäljitellä? Entä jos pyytäjä ja maksaja ovat eri firmojen algoritmeja, ja molemmilla on sama tekijä, joka kenties vetää välistä?
Mitä peliteoria sanoo datan avaamisen riskeistä ja niihin varautumisesta? Mihin yksityisyyden raja asettuu, kun maailma on murroksessa? Siirrymmekö julkiseen big brother -taloon, jossa altistumme identiteettivarkauksille? Värähteleekö varallisuus, kun keksijät ja toimijat ottavat vallan? Hypetämmekö yksityiskohtia ja unohdamme suuret linjat? Tyydymmekö tilaan, jonka monikansallnen, arvaamaton yritys tarjoaa vai tavoittelemmeko avointa tilaa?
Vauhdittaako datan avaaminen pienten ja keskisuurten yritysten innovaatioita? Onko se kielteistä suurille yrityksille? Tieto lisää tietoa ja sitä on kaikilla, mutta syntyykö kasvu tiedon jalostamisesta?
Lopuksi Mitro Kivinen kysyi panelisteilta: Kenelle avoimuudesta on eniten hyötyä ja miten?

  • Arkielämää helpottavia sovelluksia on tullut nopeammin
  • Ihmiset ymmärtävät, että heistä syntyy dataa, joten yhteiskunta kokonaisuudessaan hyötyy.
  • Tilastodatan valossa Suomen luottoluokitus on hyvä ja kansalaisaloitelaki ja osallistava budjetointi lupaavat hyvää.
  • Tulevaisuuden arkeologit ovat tyytyväisiä, kun kaikki data on määrämuotoista.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *