Millistel ettevõtetel on täna enim võita suurandmetest?
Enim on suurandmetest võita kahtlemata ettevõtetel, kelle käsutuses on suured andmehulgad. Väiksel juuksurisalongil on suurandmete kasutamine kahtlemata raskendatud, kuna paarikümne kliendi juuksemood vajalikku sisendit analüüsiks ei paku. Teisalt tuleb aga tunnistada, et ega ettevõtted isegi tihti ei adu, millised andmed ja kui palju nende valduses on. Sageli on andmed laiali mitmetes andmebaasides, asukohtades või arvutites ning hea ülevaade kõikidest olemasolevatest andmetest puudub. Seega esimese sammuna tuleks esmalt läbi viia andmete inventuur, et nende seisust ülevaade saada. Ning seejärel saab hakata mõtlema andmete kasutamise peale.
Kompetentsi osas on lood Eestis võrdlemisi keerulised, kuna häid inimesi leidub turul vähe. Inimeste vähesuse võib paljuski kirjutada selle arvele, et suurandmete analüüs on võrdlemisi uus tööstusharu ning seega pole koolidel olnud piisavalt aega veel häid spetsialiste koolitada. Samuti on põhjuseks suurandmete analüüsi interdistsiplinaarsus - ei piisa vaid statistika või IT alastest oskustest, vaid tarvis on inimesi kes on ühtviisi head nii statistikas, matemaatikas, programmeerimises kui ka kliendispetsiifilises ärivaldkonnas endas (st väga raske on leida universaalset suurandmete analüütikut, vaid seal omakorda on vajalik spetsialiseerumine turunduse, maksevõime hindamise ja muude valdkondade lõikes). Ei piisa vaid tehnilistest oskustest, vaid tarvis on aru saada ka rakendusvalkonna loogikast ja seda ümbritsevast ärist.
Mis on tüüpilised vead, mida ettevõtted teevad suurandmetega töötamise osas?
Esimesed vead saavad reeglina alguse andmete salvestamisest - andmed on laiali erinevates andmebaasides, neil puuduvad ajamärked, andmeid kirjutatakse teadmatusest üle, andmeridu on keeruline kokku viia jne. Järgmiseks sammuks on andmete töötlemine, kus peamiseks veaks on selle faasi alahindamine. Vaadates, kuidas me ehitame maksevõime hindamise mudeleid, siis tihti kulub justnimelt andmete eeltöötlemisele suurim aeg kogu analüüsist.
Paraku näeme aga paljude ettevõtete juures, et selle faasi raames tahetakse kurve sirgeks sõita. Ja viimaseks, andmete analüüsimisest rääkides, tulen tagasi varem mainitud punkti juurde, et analüüs nõuab ärivaldkonna-spetsiifilist teadmisi. Lihtsustatult võib öelda, et sisuliselt iga matemaatika või statistika lõpetanud tudeng oskab tehniliselt ehitada statistilisi mudeleid, kuid selliseid mudeleid, mis ka reaalses elus töötavad, oskavad ehitada väga vähesed. Peamine erinevus töötava ja mittetöötava mudeli vahel tulebki valdkonnaspetsiifiliste teadmiste nappusest.
Kuidas mõjutab suurandmete kogumist ja töötlemist GDPR?
Me vaatame GDPRi jõustumist üldiselt positiivsetes toonides ning on hea, et andmetöötluse valdkond saab konkreetsemad raamid. Kõige olulisemaks vast kogu GDPRi juures on inimeste informeerimine andmete kogumisest ja kasutamisest. Teisisõnu on isikuandmete kogumiseks töötlemiseks pea alati vajalik inimese varasem nõusolek. Andmete turvalisuse tagamine saab GDPRi raames samuti tähelepanu, kuid ma loodaks et ettevõtted võtsid seda valdkonda ka varem piisavalt tõsiselt, nii et uue regulatsiooni raames siin suuri muudatusi tarvis pole teha.