22 huhtikuuta 2020
Organisaatioiden eri toimintojen on tiedettävä, mitä dataa niillä on, missä se sijaitsee, mitä se tarkoittaa, miten sitä tulee käsitellä ja miten tarvittavan datan saa otettua käyttöön. Ilman näitä tietoja – metadataa – datan hyödyntäminen liiketoiminnassa ja sen järjestelmällinen hallinnointi on kallista ja hidasta. Metadatan hallinnan ja datan luetteloinnin tavoitteena on saada nämä arvokkaat tiedot kerättyä ja helposti kaikkien saataville.
Puutteellisen metadatan hallinnan vuoksi hukataan paljon aikaa. Kuvittele meneväsi kirjastoon lainaamaan uusinta romaania, mutta kirjat ovatkin sattumanvaraisessa järjestyksessä ilman tietoja lajityypistä tai kirjoittajista – kirjan löytäminen on vaikeaa tai jopa mahdotonta! Tämä esimerkki puuttuvasta metadatasta pätee myös organisaation tietoihin: ilman metadataa – tietoa tiedosta – on mahdotonta ymmärtää, mitä tietoa organisaatiolla on ja mistä sen löytää. Kun datan määrä ja monimutkaisuus kasvavat eksponentiaalisesti, myös helposti saatavilla olevan metadatan merkitys on entistä tärkeämpää.
Aktiivinen metadatan hallinta lisää organisaatioiden tiedon arvoa. Se vähentää tiedon etsimiseen kuluvaa aikaa, parantaa sen laatua, nopeuttaa kehityshankkeita ja parantaa organisaation eri toimintojen ja tiedonkäyttäjien välistä viestintää ja yhteistyötä – puhumattakaan toiminnan tehostamisesta, kustannustehokkuuden, ketteryyden ja innovointikyvyn parantamisesta sekä uusien mahdollisuuksien tunnistamisesta. Hyvin suunniteltu metadatan hallinta tukee myös lakien ja säädösten mukaista toimintaa, esimerkkinä GDPR-tietosuoja-asetus tai BCBS 239 -standardi pankkitoiminnassa.
Kriittisen tiedon dokumentointi on välttämätöntä – onhan tieto tarkoitettu jaettavaksi ja uudelleenkäytettäväksi. Siksi on tärkeää edistää yhteisiä tapoja ymmärtää, löytää, käyttää ja käsitellä tietoa organisaatiossa datasiilojen luomisen sijaan.
Aluksi on mietittävä, mitä data tarkoittaa liiketoiminnan näkökulmasta. On tärkeää määritellä liiketoiminnan prosesseissa syntyvä ja käytettävä tieto, sekä kerätä määritelmät liiketoimintasanastoon, joka toimii organisaation yhteisenä kielenä. Tärkeimpien alueiden ja käsitteiden priorisointi on elintärkeää, koska jäsentämättömän datan määrä on yleensä niin suuri.
Data governancen eli datan hallintamallin tavoitteena on tiedon tunnistaminen ja strateginen hallinnoiminen, ja sen ytimessä on metadatan hallinta. Kun data governance on kunnossa, metadata, eli yleinen liiketoimintaan liittyvä tieto – määritelmät, luokitukset, säännöt ja roolit – ovat kaikkien saatavilla. Tämä auttaa virtaviivaistamaan dataan liittyviä prosesseja, kuten raportointia, analytiikkaa ja tiedon suojausta.
Liiketoimintasanasto auttaa ymmärtämään datan merkityksen, mutta se yksin ei auta löytämään tarvittavaa dataa. Myös tekniset ja fyysiset yksityiskohdat on tallennettava osana metadataa ja linkitettävä sanastoon, jotta saadaan kuvattua myös käsitteiden eri ilmentymät ja fyysinen sijainti.
Tuhansissa tietokannoissa sijaitsevaa tietoa on mahdoton dokumentoida manuaalisesti, ylläpidosta puhumattakaan. Uuden polven datakatalogityökaluissa on metadatan hallintaa helpottavia toiminnallisuuksia, joiden avulla tietoa skannaamalla on mahdollista tehokkaasti tunnistaa ja kerätä metadataa. Koneoppimisen ja esimerkkidataotosten avulla työkalut voivat oppia ”ymmärtämään” datan sisältöä liiketoiminnan sanastoa vasten ja siten ehdottaa teknisten tietojen kohdistamista siihen.
Kaikkeen koneoppinen ja tekoäly eivät vielä kuitenkaan pysty, vaan lisäksi tarvitaan liiketoimintaa ymmärtävien data governance -roolien panosta. Metadata-dokumentaatioon kuuluu myös se, missä dataa luodaan, mistä sitä tulisi käyttää, miten se liikkuu ja miten sitä matkalla muutetaan. Dokumentoimalla ns. auktorisoidut tietolähteet varmistetaan, että oikeaa dataa käytetään oikeisiin tarkoituksiin.
Näin tietoa myös uudelleenkäytetään yhdestä lähteestä sen sijaan, että luotaisiin monimutkaisia integraatioita ja päällekkäisiä datasiiloja, joissa sama data integroidaan sieltä, mistä se kyseisellä hetkellä sattui olemaan saatavilla. Ei ole tarkoituksenmukaista tallentaa samaa dataa useita kertoja eri paikkoihin eri käyttötarkoituksia varten.
Horisontaalinen data lineage kuvaa datan kulkua ja mitä sille matkalla tapahtuu. Se tukee juurianalyysia, kun on tarve selvittää ja ratkaista tiedon laatuun liittyviä ongelmia, sekä auttaa kohdistamaan regressiotestauksen kehitystyössä niihin kohtiin, joihin muutos vaikuttaa. Vertikaalinen data lineage taas auttaa ymmärtämään, mitä data tarkoittaa erilaisissa teknisissä toteutuksissa yhdistämällä liiketoiminnan sanaston järjestelmäkohtaisiin nimityksiin sekä datan teknisiin ja fyysisiin yksityiskohtiin. Sen avulla ymmärretään datan merkitys sekä siihen liittyvät vaatimukset. Se tukee myös tietoarkkitehtuurin yksinkertaistamista havainnollistamalla tarpeettomat päällekkäisyydet. Vertical data lineage on avain datan ymmärtämiseen, niin ”top down” kuin ”bottom up” -lähestymistavoissa.
Paraskaan datakatalogityökalu ei pysty korvaamaan ihmisiä, mutta sitä voidaan käyttää yhteisenä työtilana kaikille datan parissa työskenteleville, sitä tarvitseville ja siitä kiinnostuneille – käytännössä koko organisaatiolle. Tuomalla eri roolit yhteiseen tilaan ennaltaehkäistään siilojen syntymistä ja niissä työskentelyä, sekä saadaan dokumentoitua kokemusperäistä hiljaista tietoa kaikkien saataville. Hiljainen tieto on kriittisen tärkeää automaattisesti kerätyn metadatan rinnalla. Sen tallentaminen varmistaa, ettei tietoja menetetä ihmisten vaihtuessa.
Yhteisessä ympäristössä työskentely tehostaa tiedon käyttöä ja tarjoten tavan uudelleenkäyttää mm. aiemmin tehtyjä kyselyitä, analyysien tuloksia tai raportteja. Se antaa käyttäjille laajemman näkymän dataan ja tukee datan ymmärtämistä eri näkökulmista.
Meillä Pohjoismaissa metadatan hallinnan maturiteetti on edelleen alhainen. Pankkeja ja muutamia muita poikkeuksia lukuun ottamatta yritykset eivät vielä täysin ymmärrä metadatan hyötyjä toimintojensa kustannustehokkuuden, nopeuden ja ketteryyden kannalta. Samanaikaisesti metadatanhallinta- ja datakatalogityökalut kehittyvät nopeasti, helpottaen ja parantaen työn tuloksia.
Kimmokkeena työn aloittamiseen voi toimia moni asia, esimerkiksi lainsäädännölliset vaatimukset tai data-analytiikkatarpeet, joihin on vaikea vastata ilman kunnollista ymmärrystä datan sisällöstä. Mikä tahansa antaakin ensimmäisen sysäyksen, on siitä hyvä aloittaa matka kohti koko organisaation kattavaa metadatan hallintaa ja datakatalogia, joiden avulla on mahdollista realisoida organisaation tiedon maksimaalinen arvo.
Kiinnostuitko? Verkostoidu kanssani LinkedInissä, niin saat jatkossakin tiedon kiinnostavista data-aiheisista sisällöistä!
Brighter future. Together. – Haemme dataosaajia Cloud, Data & Insight -jengiin!