Eesti on Euroopa Liidus suurima andmeturu mahuga riik – hinnatakse, et meie andmeturu maht on 4,5 protsenti SKP-st. “Kui me oskame neid andmeid enda kasuks tööle panna, siis see on lihtsalt imeline,” ütleb Kristel Kriisa, kes juhib Riigi Infosüsteemi Ametis (RIA) masinõppe ja keeletehnoloogia osakonnas kratiprojekte.
Krati nime all tuntakse avalikus sektoris tehisintellekti komponendiga praktilisi lahendusi. Kratid võivad põhineda näiteks keeletehnoloogilistel lahendustel (automaatsed subtiitrid ERR-is, stenogrammid riigikogus ja kohtutes, masintõlge), masinnägemisel või eri prognoosimudelitel, ka tegutsevad kratid robotites, droonides ja mujal. Krattide kasutamise aluseks on andmed – esiteks ei suuda inimene eales nii palju andmeid läbi töötada ja teiseks on Eestis väga palju digitaalsel kujul andmeid, mida tehisintellekti abil enda kasuks tööle panna. Ilmaasjata ei öelda, et andmed on uus nafta.
Riigi eesmärk on panna andmed kodanike jaoks tööle – ühest küljest, et riik ise tuleks õigel hetkel kodaniku juurde, ja teisest, et riigi otsused põhineksid andmetel. RIA ülesanne kratiprojektide juures on koos MKM-iga hoida suurt pilti ja pakkuda avaliku sektori organisatsioonidele tuge planeerimisest rakendamiseni. Aasta lõpuks võiks meil olla riigis 130 erinevat kratiprojekti.
Pikemas intervjuus räägib Kriisa, milliseid AI lahendusi Eestis juba kasutatakse ning millist rolli mängib selle kõige juures RIA.
Miks kasutatakse tehisintellektist rääkimisel just krati metafoori?
Eestlastel on rahvajutud kratist, mille saab igaüks ise ehitada, et see teeks mõttetud ja keerulised tööd inimese eest ära. Samas kui kratil hakkab igav või talle antakse ülesandeid, mis talle hästi ei sobi, hakkab ta tegema rumalusi. Tehisintellekti abil võib samamoodi teha palju tööd ja väga kiiresti. Aga kui ta ei ole hästi tehtud, võib ta korda saata palju kurja.
Teeme ühe asja kohe selgeks, kas tehisintellekt võtab kelleltki töö ära või vastupidi, tekitab juurde?
Ma usun, et tekitab juurde. Kasvõi minu osakonnas on täna inimesed, kelle tööülesanne on olla juturoboti treener. Mõni aasta tagasi oleks mõeldud, et mis töö see selline on. Erinevaid IT-tehnikuid, masinõppe eksperte, andmeteadlasi ja -analüütikuid on vaja järjest rohkem.
Kui hobuste asemel põldudele masinad tulid, kardeti samamoodi, mis sellest välja tuleb ja kas kõik jäävad töötuks. Uute asjade ees tuntakse hirmu ja see on täiesti loogiline. Mõnikord mõeldakse, et tehisintellekt on nii arenenud ja suudab kõike, aga tegelikult ei pruugi ta pildilt aru saada, kumb on muffin ja kumb koer. See on hea näide sellest, kuidas masin ikkagi ei ole päris inimene. Ta ei pruugi inimesele väga lihtsatest asjadest aru saada.
Mis on praegu juba tehisintellektiga lahendatud kratiprojektide raames sellist, millega tavainimene puutub kokku, aga võib-olla ise ei teagi?
Neid on nii palju, et üht ja ainsat on raske välja tuua. Tehisintellekt põhineb andmetel – ilma andmeteta ei saa kratte luua. Eestis oleme selles mõttes eelisseisus, et meil on väga palju andmeid digitaalsel kujul ehk masinloetavad, mille võrra on lihtsam AI-lahendusi luua. Näiteks maksu- ja tolliamet kasutab neid väga edukalt – neil on nii palju andmeid, et inimesed neid läbi töötada ei jõuaks. Tehisintellekt aga suudab andmeid analüüsides leida ebatavalisi mustreid, mis võivad viidata näiteks maksupettusele.
Lisaks kõikvõimalikud keeletehnoloogia lahendused. Näiteks automaatsubtiitrid ERR-is – masin paneb reaalajas kirja, mida teleris räägitakse. See võimaldab inimestel, kes ei kuule, lugeda, mida uudistes räägitakse. Muuseumites kasutatakse palju masinnägemist – masin suudab paberilt teksti tuvastada ja muuta digitaalseks.
Ka tervishoius nähakse väga palju potentsiaali tehisintellektil. Olemasolevate terviseandmete põhjal on võimalik võimalikke terviseprobleeme ennustada ja ennetada. Aga ka näiteks kui lastel on logopeedilisi või psühholoogilisi probleeme, siis mõnikord lapsed leiavad, et robotiga on lihtsam suhelda kui inimesega.
Need on kõigest mõned näited.
Emakeelse info olulisus
Keeletehnoloogia arendamine on olulisel kohal ka eesti keele hoidmisel ja säilitamisel. Kui rääkida ChatGPT-st, oleme Eestis eelisseisus, kuna vaatamata Eesti väiksusele on eestikeelset infot internetis väga palju. Seetõttu on ka ChatGPT eesti keel võrdlemisi hea. Teisest küljest ei saa loorberitele puhkama jääda, vaid tuleb pidevalt edasi töötada, et eestikeelsed tehisintellektil põhinevad lahendused oleksid võimalikult kvaliteetsed. Selleks tuleb jätkata eestikeelsete märgendatud andmestike loomist ja peenhäälestatud mudelite loomist.
Aasta lõpuks peaks riigis olema 130 erinevat kratiprojekti. Kui kaugele me selle eesmärgiga jõudnud oleme? Millist rolli RIA nende projektide juures mängib?
Usun, et 130 kratiprojekti on aasta lõpuks tehtav. Tähtis on aru saada, et tehisintellekti projektidega ei ole nii, et teed korra ära ja siis ongi valmis. Siin on jälle kohane krati metafoor – tema eest tuleb hoolitseda, mudeleid uuendada, teha hooldustööd, turvatestimisi. Seejuures tuleb kindlasti mõelda ka eetikaküsimuste peale.
Meil on olemas kratikava ehk Eesti riiklik tehisintellekti alane tegevuskava. RIA aitab MKM-il seda ellu viia. Selle raames pakume tuge avalikele asutustele – käime rääkimas, mis tehisintellekt on, mis sellega teha annab, anname nõu, kust alustada. Vajadusel kaasame ka erasektori eksperte.
Mis aja peale see 130 on kokku saanud?
Eestis hakkasime selle valdkonnaga aktiivsemalt toimetama 2018. aastal. Tehisintellekti kasutamise peale on tegelikult maailmas juba väga pikalt mõeldud, aga siiani on olnud palju takistusi. Näiteks varem polnud piisavalt andmeid ega ka arvutusvõimsust – ei olnud selliseid arvuteid, mis suudaks analüüsida nii palju infot kui vaja. Praegu paneme Eestis kokku juba kolmandat tehisintellekti strateegiat. Oleme selles valdkonnas maailmas esirinnas ja meiega soovitakse koostööd teha ning meilt õppida.
Millised lahendused võiksid tulevikus lisanduda, millel praegu on näiteks mingi tehnoloogiline piirang ees?
Praegu on ees pigem seadusandlus. Masinate treenimiseks on vaja väga palju andmeid ja tihti tulevad andmekaitselised piirangud ette, näiteks hariduses ja tervishoius. Euroopas alles töötatakse määruse kallal, et tehisintellekti reguleerida.
Andmekaitse tagamiseks on otsitud lahendusi – näiteks andmete anonümiseerija, mis on meil RIA-s ehitatud ja mis võimaldab tekstidest tundlikud andmed välja võtta või need asendada. Masinat ju tegelikult ei huvita, kelle andmete peal ta treenib – vaja on lihtsalt mahtu. Mujal maailmas luuakse ka n-ö sünteetilisi andmeid, et masinaid treenida.
Üldiselt liigutakse igal pool selles suunas, et kui keegi tahab teha olulisi otsuseid, siis võetakse masin appi. Tihti on selliste suurte otsuste tegemisel mängus väga palju tegureid. Tavaliselt tuleb sellistel puhkudel kaasata väga palju inimesi, samas kui tegelikult võiks masin kiiresti analüüsida ja anda sisendi, mille põhjal otsustada. Lõpuks otsustavad ikkagi inimesed. Selliseid kratte, mis inimese eest täielikult otsustavad, meil Eestis ei ole ega tule.
Kuidas teie koostöö avaliku sektori asutustega välja näeb?
Variante on palju – oleneb, mida asutusel parasjagu vaja on. Selleks on meil kratitoe portfell – hulk teenuseid, mida me avaliku sektori asutustele pakume.
Mõnikord on asutusel idee, mida teha võiks, aga pole oskusi või kogemust. Siis aitame idee põhjalikult läbi mõelda ja viime asutuse kokku näiteks erasektori ekspertidega, kes selliste lahendustega tegelevad.
Teisel juhul kuulame ära, millised probleemid asutusel on ning kuhu kõige rohkem aega ja inimressurssi kulub. Siis mõtleme, kuidas saaks lihtsaid ja tüütuid tegevusi automatiseerida – näiteks võtab masin mingi osa tööst üle, et inimestel jääks aega teha rohkem sisulist tööd, millest masina jõud üle ei käi.
Vahel on suhtumine, et tehisintellekt on selline suur ja hirmus must kast – keegi ei tea täpselt, mis seal toimub. Siis on seda hirmu vaja natukene maha võtta ja tuua näiteid edukatest lahendustest, mida on loodud.
Mis on virtuaalne assistent Bürokratt?
Bürokratt on avaliku sektori asutuste veebilehtedel olev juturobot, mis võimaldab inimesel asutustelt vestlusakna kaudu infot saada. Ta aitab lahendada näiteks olukorda, kui inimene ei tea, kelle poole oma murega pöörduda. Näiteks mida teha, kui ID-kaart on aegunud, siis selle asemel, et e-kiri saata või helistada, saab Bürokratile kirjutada ja ta annab õige info. Bürokratt on osa inimkesksest riigist – kui ma tahan kiiresti vastuseid, siis ma kirjutan talle.
Praegu on ta veel treenitud vastama korduma kippuvatele küsimustele, aga tulevikus saab temast juturobotite võrgustik. See tähendab, et kui lähen näiteks PPA kodulehele ja küsin raamatukogu laenutuse pikendamise kohta, siis suudab Bürokratt suhelda Rahvusraamatukogu kodulehel oleva juturobotiga ja probleemi ära lahendada. Ilmselt kasutab aasta lõpuks Bürokratti juba 20 asutust. Töö käib kogu aeg. Tulevikus võiks saada temaga suhelda ka kõneledes ja seda eri keeltes.
Kas samu küsimusi ei võiks küsida lihtsalt ChatGPT-lt? See on juba valmis, pole vaja midagi arendada.
ChatGPT puhul on mure selles, et ta annab infot, mis tundub usutav, aga ei pruugi tegelikult üldse tõene olla, sest see lahendus lihtsalt genereerib statistika põhjal teksti ehk teisisõnu ennustab, milline sõna võiks konteksti põhjal lausesse järgmisena sobida. Lisaks kaasnevad ChatGPT-ga mitmed andmekaitsealased probleemid. Bürokratt on ikkagi riiklik ja treenitud, mis tähendab, et ta vastab ainult siis, kui on kindel, et info on õige. Kui ta ei oska vastata, kutsub ta inimese appi.