Microsofti AI-spetsialist Ando Saabas: paljusid tänaseid töid hakkab tulevikus tegema arvuti oluliselt kiiremini

Ando Saabas.Foto: JP Hion

Kas oled Microsoft Teamsis või Skype’is kõnet tehes täheldanud, et vahel hakkab heli kajama või kolleeg kaob äkki musta auku, kust teda enam üldse kuulda ei ole? Ja kui need mured on seljatatud, alustavad kodukontorist ettekannet pidava kolleegi lahtise akna taga etteastet teetöölised ja peale puuritärina suurt midagi pealtkuulajateni ei jõua. Nendele argistele probleemidele üritab Microsoft lahendusi leida siinsamas Eestis.

Ando Saabas, Microsofti Eesti arenduskeskuse tehisintellektil põhinevaid rakendusi arendava tiimi juht, üritab Teamsi, Skype’i ja teisi Microsofti reaalajameedia teenuseid targemaks muuta. Akadeemia teelt Tallinnas viiakse ellu märgilisi muudatusi, mis jõuavad sadade miljonite inimesteni üle kogu maailma. Tehisintellektid on mõne lühikese aastaga läbi teinud kiire arengu ning Saabas leiab, et tulevikus saab neil olema suur mõju tervele ühiskonnale laiemalt. Kui täna kasutatakse neid muuseas olemasolevate programmide putitamiseks, siis homme võivad AI-d ise programme kirjutama hakata.

Millega Microsofti Eesti arenduskeskuses AI-rakendusi arendav meeskond täna tegeleb?

Tallinnas ehitatakse süvanärvivõrkudel baseeruvaid mudeleid, mis suudavad muuta kehva audio hea kvaliteediga heliks. Hetkel keskendume AI rakendamisele Teamsi ja Skype’i kõnede kvaliteedi parandamiseks.

Näiteks tegeleme halvast internetiühendusest tuleneva kõnede hakkimise probleemiga. Mida teha, et helisse augud sisse ei jääks? Kui kasutad head mudelit, siis see suudab räägitava jutu konteksti põhjal täita augu ära selliselt, et inimene ei märkagi erinevust. Me ei saa mõistagi täita lõputut tühjust, aga kuni 100-millisekundilise augu saab ära siluda küll.

Masinõppe abil saab kõnedest eemaldada ka üleliigse taustamüra. Vahel võib kõneleja olla mürarikkas ruumis või võib tema mikrofon palju sahiseda. Koer võib taustal haukuda või laps teises toas nutma hakata. Sellise taustamüra eemaldamisega ei saa klassikalised algoritmid hakkama, kuid AI-põhised algoritmid saavad. Vahel võib videokõnedes hakata audio kajama, tegeleme ka selle probleemi eemaldamisega.

Mürasummutus, kaja eemaldamine ja kõneaukude täitmine töötavad ja on juba Microsofti teenustesse sisse ehitatud. Tulevikus on oodata personaliseeritud müraeemaldust, mis on hetkel veel prototüübi faasis. See tähendab, et AI õpib ära tundma kasutaja hääle ja suudab kõnest eemaldada kõik muud helid. Kui oled näiteks kohvikus või avatud kontoris, siis seda mudelit kasutades jõuaks vestluskaaslaseni ainult sinu hääl ilma taustahelideta.

Tehisintellektid on teaduse ääremaa, millest veel tohutult palju ei teata. Millised on kõige keerulisemad teemad, millega sa igapäevaselt tööl kokku puutud?

Mõne aasta eest ei olnud süvanärvivõrkude mudelid seda tüüpi helitöötluse jaoks veel väga head ja peamine probleem oli, kuidas üldse luua AI, mis piisavalt hästi kõnede jaoks töötaks. Kui see ära tehti, siis hakati uurima, kuidas saada mudel nii väikeseks ja kiireks, et see hakkas tööle tavakasutaja sülearvutis. Ei piisa sellest, et algoritm jookseb ainult võimsal graafikakaardil, vaid see peab töötama ka lahja protsessoriga tööarvutil. Ja kui see kõik on olemas, siis peab tulemuse viima mitmesaja miljoni arvutini ja tagama, et mudel töötaks kõigi jaoks erinevates keeltes ning kõikvõimalikel seadmekombinatsioonidel. See on väga suur väljakutse.

Meie töö Microsoftis on tavapärasest masinõppeprojektist üsna erinev. Enamasti on aktsepteeritav, kui AI ei tööta alati täiuslikult. Spotify soovitab kasutajatele muusikat, aga vahel paneb mudel mööda, kuid sellest pole suures plaanis midagi hullu ja inimesed ei pruugi seda märgatagi. Või näiteks Bolti äpp, mis ennustab, kui kiiresti auto sinuni jõuab. Vahel pannakse täppi, siis jälle eksitakse, aga midagi kohutavat see kaasa ei too. Kuid audio puhul peab kvaliteedi tase olema väga palju kõrgem. Isegi kui näiteks 1% juhtudel ei tööta mudel õigesti ja kõnest lõigatakse välja iga sajas sõna, siis kõnekvaliteeti silmas pidades on see katastroof. Audio ei tööta ja kõne lihtsalt ei ole. Seetõttu me ei saa endale vigu lubada. Need lähevad väga kalliks maksma.

Selleks, et tagada kõigile normaalne kogemus, peab meie kvaliteedi keskmine näitaja olema muudest teenustest oluliselt kõrgem. Kui inimene kasutab tarkvara individuaalselt, siis tekkiv probleem mõjutab ainult teda. Kuid kui sa pakud kõneteenust, mida kasutab regulaarselt 20 inimest korraga, siis ühe inimese halb kogemus rikub teenuse kvaliteedi ära kõigi kõnes osalejate jaoks. Jah, sellises olukorras saab mõnikord panna inimese mute’ile või ta kõnest eemaldada, aga tarkvarainsenerina sa ei soovi, et selliseid asju juhtuks. Sa tahad, et kõik alati töötaks.

Milliste probleemide lahendamisega te kõige enam tegeletakse? Kas lisaks Microsoft Teamsile töötab Eesti AI-tiim ka Skype’i parendamisega?

Meie tiim töötab reaalajameedia tarkvaraga, mille peal elavad kõik Microsofti tooted, millega saab teha kõnesid. See hõlmab nii Teamsi kui ka Skype’i. Meil on ka firmadele suunatud tooteid, mis lubavad üles ehitada oma Skype’i või oma Teamsi. Nii saab näiteks luua suhtlusäpi pangale, läbi mille on inimestel võimalik suhelda klienditeenindajaga. Kõike seda jooksutab Microsofti reaalajameedia platvorm, mida mina ja meie tiim aitame paremaks teha. 

Peamised kõnekvaliteedi aspektid, mille üle Teamsi ja Skype’i kasutajad kurdavad on müra, kaja ja katkendlik heli. Müra võib tuleneda halvast võrgukvaliteedist, keskkonnast, kus kõne tehakse, või ka lihtsalt kehvakvaliteediga mikrofonist.Meie eesmärk ongi jõuda punkti, kus inimene ei saa aru, et tema vestluspartneril on võib-olla halb mikrofon, kesine veebiühendus või et ta viibib mürarikkas kohas. Kõne peaks olema alati hea kvaliteediga.

Kuidas on Microsoftis suhtumine tehisintellekti aja jooksul muutunud? Millised on tulevikuambitsioonid?

Microsoft on pidevalt olnud tehisintellekti arendamisel maailmas esirinnas. Meie Tallinna tiim kuulub suurde Microsofti harusse nimega Microsoft Research, mis üritab leida teaduse tippsaavutustele praktilisi rakendusi reaalses elus. Ka Satya Nadella sõnavõttudest peegeldub, et uut tehnoloogiate toetamine on Microsofti jaoks üks suuremaid prioriteete.

Just Teamsi puhul näeme, et viimase paari aasta jooksul on areng audio ja video valdkonnas olnud hästi kiire ning see jätkub ka tulevikus. Hakkame keskenduma sellele, kuidas pakkida audiot ja videot nii, et see võtaks näiteks kümme korda vähem ressursse. See tähendab, et sama ressursikuluga saaks edastada kümme korda kvaliteetsemat videot. Või võimaldaks see vähendada kümnekordselt võrgukasutust, et edastada praegusega võrdväärse kvaliteediga videopilti.

Mis saab sinu arvates olema järgmine suur läbimurre tehisintellektide maailmas?

Üks suur tulevikutrend on keelemudelid, mille treenimisel on kasutatud tohutuid tekstikogusid internetist. Sellised mudelid suudavad ise kirjutada näiteks artikleid või programme. Anna mudelile ette jupp Shakespeare’i ja tehisintellekt teab, kuidas lugu jätkata. Ta suudab sisuliselt Shakespeare’i genereerida. Sama kehtib ka programmide kohta: kui näitad mudelile programmijuppi, siis ta oskab selle ise lõpuni kirjutada ja üldiselt päris korrektselt. See tehnoloogia eksisteerib sisuliselt juba praegu.

Paljusid töid, mida täna teeb inimene, hakkab tulevikus tegema arvuti oluliselt kiiremini. Koos heade ja halbade tagajärgedega. Võime arvata, mida tähendab ajakirjanikele või illustraatoritele see, kui AI-le saab ette anda üherealise käsu ja tulemus on millisekundiga valmis. Sama kehtib ka programmeerimise kohta. See kindlasti ei tähenda, et viie aasta pärast ei ole enam vaja programmeerijaid või ajakirjanikke, kuid nende töö iseloom võib väga palju muutuda. Lihtsamate asjade tegemiseks ei ole võib-olla enam varsti inimest vaja.

Milliste omaduste ja oskustega inimesi AI-rakendusi arendavasse tiimi oodatakse? On see töö eelkõige neile, kellel oli matemaatika koolis 5+, või on ka humanitaaridel lootust tehisintellekte luua?

Põhiline on programmeerimisoskus. See on universaalne nõue kõigile, kes tahavad Microsoftis arendustööd teha. Kindlasti on vaja ka üleüldist probleemide lahendamise oskust, head aursaama masinõppest ja süvanärvivõrkudest. Peaks mõistma, mida need tähendavad matemaatilises mõttes ja kuidas neid treenitakse.

Ma olen oma karjääri jooksul näinud läbi löömas väga erinevate taustadega inimesi. Ei saa öelda, et humanitaartaustaga inimesed ei suudaks AI-tiimis hakkama saada. Edukus sõltub eelkõige inimesest. See tee on siiski palju lihtsam neile, kes on ülikoolis õppinud masinõpet, läbinud vastavaid kursusi ja projekte ning kellel on selles valdkonnas varasem tööalane kogemus. Kuid on ka inimesi, kes on väga kiired õppijad ja suudavad uusi teemasid käigu pealt hoomata. Kindlaid piire tõmmata ei saa.

Mis on DigiPRO ja kes seda teevad? Loe siit

Populaarsed lood mujal Geeniuses

Kolm korda nädalas

Telli DigiPRO uudiskiri

Kolm korda nädalas spetsiaalne DigiPRO liikmetele tehtud uudiskiri, et sa midagi olulist maha ei magaks.