Avoimen datan työkaluja

Tähän ohjeeseen on listattu eri tahojen avoimen datan katalogeja meiltä ja maailmalta sekä kerätty yleisimpiä työkaluja datan jatkojalostukseen ja hyödyntämiseen.

Datakatalogit

Näistä dataportaaleista löydät dataa avoimen datan sovelluksiisi.

Datan siivous ja analysointi

Ennen kuin pääset analysoimaan tai visualisoimaan dataa, kaipaa se usein muokkausta tai siivoamista. Päivämääräformaatit pitää muokata työkaluohjelmiston ymmärtämään muotoon, ja haluat ehkä poistaa itsellesi tarpeettomat kentät datasta. Vaikka pyrimmekin avaamaan laadukasta dataa, voi siinä olla vielä puutteita ja kirjoitusvirheitä. Työkaluja siivoukseen on monia.

  • ExcelGoogle SheetsOpen Office Tuttu taulukkolaskentaohjelma on helpoin työkalu ensimmäisiin avoimen datan projekteihin. Taulukkolaskennalla pääsee pitkälle tietoaineistojen siivoamisessa ja analyyseissä.
  • OpenRefine, entinen Google Refine, on taulukkolaskentaa monipuolisempi ohjelmisto datan siivoukseen. Sillä voi myös yhdistellä eri datalähteitä keskenään.
  • DataWrangler on interaktiivinen verkkotyökalu datan siivoukseen. TrifactaWrangler on ohjelmiston asennettava kaupallinen versio. Sen ilmaisversiolla selviää sotkuisista CSV-, JSON-, teksti- ja Excel-tiedostoista.

Datan visualisointi

Numerodata herää eloon visualisointien avulla. Yksinkertaisimmillaan visualisointi on kaavion tuottamista valitusta tietojoukosta. Tähän riittää tavallinen taulukkolaskentaohjelma. Monimutkaisimmillaan visualisointi on interaktiivinen sovellus, jonka avulla käyttäjä voi tehdä itse juuri häntä kiinnostavia analyyseja.

  • Power BI Microsoftin Power BI -visualisointiohjelmisto jatkaa siitä mihin taulukkolaskennan kyvyt loppuvat. Jos valmiit tuotokset jakaa koko maailmalle, pärjää ohjelman ilmaisversiolla.
  • Tableau 2000-luvun alussa esitelty Tableau rakennettiin alun perin bisnestiedon penkomiseen. Tänään se on maailman johtava visuaalisen analytiikan ohjelmisto, jota monet dataharrastajat käyttävät esimerkiksi interaktiivisten visualisointien tekoon. Ilmaisversio Tableau Public edellyttää datan ja visualisointien jakamista kaikkien käyttöön.

Paikkatieto-ohjelmistot

Paikkatieto-ohjelmat eivät ole enää vain ammattilaisten työkaluja. Avoimen paikkatiedon määrä on lisääntynyt huimasti, ja ilmaisohjelmistoilla omia paikkatietoanalyysejä pääsee tekemään kuka tahansa.

  • ArcGIS on paikkatieto-ohjelmistojen markkinajohtaja. Selaimessa toimivalla online-ilmaisversiolla pääsee pitkälle avoimen paikkatiedon pyörittelyssä.
  • QGIS on monipuolinen paikkatietojen käsittelyyn ja analysointiin soveltuva ohjelmisto. QGIS:siä voi käyttää käyttöjärjestelmästä riippumatta ja se lukee laajasti eri aineistoformaatteja niin kovalevyltä kuin tietokannoistakin.
  • CARTO on näppärä työkalu karttavisualisointien tekoon.

Ohjelmointityökalut

Vaikka valmisohjelmistot ovat entistä helppokäyttöisempiä, helpottavat koodaustaidot monia data-analyysin vaiheita.

  • R-kieli on tilastollinen ohjelmointikieli ja -ympäristö, jonka perustyökalut ovat ilmaisia avoimen lähdekoodin tuotteita. R on saatavilla monelle alustalle, Windowsille, Macille ja Linuxille.
  • Python on monipuolinen, tulkattava ohjelmointikieli. Siihen on saatavissa paljon ulkoisia moduleja ja kirjastoja.

Lähde (tekstiä muokattu): hri.fi