Andmeid ei ole mõtet lihtsalt kokku kuhjata! Margus Kaur tutvustab, kuidas andmetele targemini läheneda

Margus Kaur.Foto: Microsoft

Pahatihti koguvad ettevõtted analüütilisi andmeid, mille kvaliteeti ja sobivust on keeruline tagada. Microsofti arendusgrupi juht Margus Kaur tutvustab 4. oktoobril Tartus toimuval Digiti konverentsil “tootemõtlemist”, mis pöörab andmete haldamise pea peale. “Täiesti selline tootepõhine mõtlemine – viid vastutuse andmete väärtuslikkuse ja kvaliteedi eest sinna, kus andmed tekivad. Tootemõtlemise aluseks on, et kõigepealt lähed ja räägid potentsiaalsete kasutajatega,” selgitab Kaur. Kes sellest võidavad ja kuidas uut lähenemist ellu viia?

“Riiklike regulatsioonide arv maailmas kasvab pidevalt,” tõdeb Kaur. See on suureks väljakutseks eriti infotehnoloogiaettevõtetele, kus uued tehnoloogiad, nagu tehisintellekt ja küberturvalisus, vajavad üha täpsemat ja rangemat kontrolli. Kuigi regulatsioonid on vajalikud, muutub nende täitmine ettevõtete jaoks järjest keerukamaks ja kulukamaks.

Üks viis, kuidas nõuetele vastamist automatiseerida, on kasutada analüütilisi andmeid. Ettevõtted koguvad oma tegevuse käigus nii või teisiti tohutul hulgal andmeid. Sageli kasutatakse neid eeldades, et andmed on täielikud ja kvaliteetsed – nii aga ei pruugi olla. “Tihtipeale on andmed äritegevuse kõrvaltoode ja keegi otseselt ei hoolitse nende kvaliteedi eest. See tekitab pudelikaela, kus kesksed andmetiimid lihtsalt ei suuda kogu  teavet hallata,” selgitab Kaur.

Klassikaline mudel ongi selline, et tsentraalne tiim (olgu see business intelligence, data intelligence või data and machine learning, nimetusi on erinevaid) kogub erinevatest äridomeenidest andmed kokku, töötleb neid mingil viisil ja annab äridomeenidele edasi kasutamiseks. Häda on selles, et neil ei ole andmetest nii head ülevaadet kui tiimil, kes neid andmeid tegelikult tekitab ja kelle jaoks on see kõrvalsaadus. “Ka arusaam sellest, kust andmed tulid ja mis nendega vahepeal tehtud on, on tihtipeale puudu,” märgib Kaur.

Kõrvalsaadusest saab päriselt toode

Seda seaduspära tahabki Kaur lõhkuda. “Data as a product mõtteviis muudab lähenemist – andmeanalüüsis kasutatavad andmed ei oleks kõrvalsaadus, vaid olekski päriselt toode. Nagu mikroteenuste arhitektuuri puhul – iga andmeallikas, mis on omaette väärtus, oleks iseseisev üksus, mida saab muuta, hallata ja millel on kindlad parameetrid, kus kõik saavad seda kasutada, kes antud andmeallikat vajavad,” selgitab Kaur. Eesmärk on viia mõtlemine hoopis teisele tasemele ja kohta. “Detsentraliseerida! Iga äriüksus haldab oma analüütilisi andmeid ise ja tagab nende kvaliteedi,” võtab Kaur kokku.

Kauri sõnul on data as a product mõtlemine osa suuremast lahendusest, mida nimetatakse data mesh’iks (n-ö andmevõrgustik). Selle juurutamine on pikk ja keeruline tee, mis nõuab muutust mõtteviisis. “Teekond hakkab pihta kultuurimuudatustest – andmetest tuleb mõelda kui väärtuslikust varast. Kui see mõtlemine leiab ettevõttes toetust, siis järgmine samm on otsustada, kust alustada,” sõnab Kaur.

Siis otsustatakse, milliseid andmed teha n-ö andmetooteks ja milliseid mitte – sõltub, millist äriprobleemi minnakse lahendama. “Soovitus on läheneda interaktiivselt – võtta ette üks äriprobleem, mis on erinevate analüütiliste andmeallikate vaatest piisavalt kompleksne; identifitseerida, millised andmetooted selle jaoks vajalikud on; ja siis teha nendest andmetooted,” sõnab Kaur.

Tema sõnul ongi data mesh selline lahendus, mis võimaldab erinevad andmetoodete omanikud ja tarbijad ilma piiranguteta omavahel kokku viia.

Kõigile ei pruugi sobida

Kaur lisab, et data mesh ei ole kiire lahendus, mis sobib igaühele. Väiksemate ettevõtete puhul võibki keskne andmetiim olla kõige mõistlikum variant – mõnikord ajab detsentraliseerimine asja mõttetult keeruliseks ja kulukaks. “Aga kui teatud tingimused on ettevõttel täidetud, siis on see mõistlik ja meie puhul Microsoftis see kindlasti nii on,” kinnitab Kaur. Siiski ollakse Microsoftis veel pika teekonna alguses. “Arendame praegu teatud tööriistu, mis võimaldaks andmetoodete omanikel registreerida ja tekitada uusi andmetooteid,” sõnab Kaur.

Ka Digiti konverentsile minek ja sellest teemast rääkimine on osa teekonnast. “Eesmärk on kultuuri natuke muuta ja otsida neid, kes on sama probleemi ees või võib-olla meist juba kaugemal,” sõnab Kaur. Kuna lähenemine, millest Kaur räägib, on ainult neli-viis aastat vana, on edukaid juurutajaid maailmas veel suhteliselt vähe. “Katsetusi on palju, aga palju on ka möödapanekuid,” möönab Kaur.

Kuidas siis aru saada, kas data mesh on ettevõtte jaoks õige tee?

Kaur toob välja kuus kriteeriumit, mis pole küll kivisse raiutud, aga millele tuleks tähelepanu pöörata.

  • Esmalt peab olema ärivajadus, mis nõuab keerukat andmeanalüütikat.
  • Teiseks tuleks hinnata organisatsiooni keerukust. Kui tegemist on suure ja keeruka ettevõttega, kus on mitu andmeallikat ning erinevate regioonide või ajavööndite vahel on koostöö keeruline, siis data mesh võib pakkuda lahendust.
  • Kolmandaks kriteeriumiks on see, kas andmeid peetakse n-ö asset’iks – strateegiliseks varaks. Kui ettevõtte jaoks on andmed olulised ning neid kasutatakse aktiivselt äri edendamiseks ja otsuste tegemiseks, näiteks vastavusnõuete täitmise või toodete kasutamise analüüsiks, siis data mesh võib aidata andmete paremat juhtimist. Näiteks Microsoftis on andmed oluline osa nende sisemistest programmidest ja tooteanalüüsist.
  • Neljandaks on oluline, et ettevõtte juhtkond toetaks data mesh’i rakendamist ja näeks vajadust muutuse järele. Juhtkond peab mõistma, et data mesh nõuab pikaajalist pühendumist ja kultuurimuutust. Samuti on tähtis, et ettevõtte eri tiimid kasutaksid kaasaegseid inseneeria praktikaid, nagu DevOps, pidev integreerimine ja arendus (CI/CD), ning neil oleks andmeinseneeria teadmised.
  • Data mesh’i juurutamine on lihtsam, kui ettevõte kasutab juba domain-driven disaini (DDD), kus ärivaldkonnad on jaotatud domeenideks. “Põhimõtteliselt tükeldatakse suurem probleem väiksemateks ja väga äridomeeni põhiseks,” selgitab Kaur. “Tegelikult peaks ka andmetooted olema samamoodi DDD põhiselt laiali jagatud – kui otsustad, kes milliseid andmeid omab, on seal täpselt sama lähenemine nagu domeenideks jagamisel.”
  • Viimaks peavad ettevõtted olema piisavalt innovatiivsed ja riskialtid, et katsetada uusi lahendusi, olema valmis pikaajaliseks pühendumiseks ja mõistma, et see ei too kiiret lahendust, vaid on järkjärguline protsess.

Nüüdseks oleme aru saanud, et data mesh pole võluvits ja tihti võib sellega ka puusse panna. Miks siis üldse tasub see teekond ette võtta?

“Peamine väärtus, mis sellest saab – andmekvaliteet saab väga kindla omaniku. See on ka meie peamine motivatsioon,” sõnab Kaur. Eriti tähtis on see valdkondades, kus andmete täpsus ja usaldusväärsus on kriitilise tähtsusega, näiteks compliance’i tagamisel ja riskide hindamisel. “Me ei saa kasutada andmeid, mille kvaliteedis me ei ole veendunud,” selgitab Kaur.

Aktuaalne on see teema ka tehisaru ja masinõppe vaatenurgast. “Analüütiliste andmete roll ettevõtetes kasvab väga tugevalt ka just masinõppe tõttu. Machine learning on tänapäeval peamine analüütiliste andmete kasutaja, ükskõik mis ärivaldkonnast räägime. Analüütilisi andmeid kasutatakse trendide hindamiseks, anomaaliate või võimaluste leidmiseks, äritegevuse laiendamiseks – see kehtib kõigile,” kinnitab Kaur.

Digiti konverentsile Kaur siiski ühtki kontseptsiooni pähe määrima ei lähe, ettekandes räägib ta samamoodi ka alternatiividest.

Ettekannet kuulama soovitab ta tulla kõigil, keda see teema puudutab. “Kes ühel või teisel viisil tunnevad valu, et analüütilised andmed ei ole piisava kvaliteediga. Ühest küljest kindlasti kõik, kes töötavad täna kesksetes andmetiimides; teisalt kõik, kes tarbivad analüütilisi andmeid, mida tuleb üle ettevõtte kokku koguda,” loetleb Kaur, kellele võiks teema korda minna.

Tule Margus Kauri Digitile kuulama! Uuri lisa SIIT.

Mis on DigiPRO ja kes seda teevad? Loe siit

Populaarsed lood mujal Geeniuses

Kolm korda nädalas

Telli DigiPRO uudiskiri

Kolm korda nädalas spetsiaalne DigiPRO liikmetele tehtud uudiskiri, et sa midagi olulist maha ei magaks.