Duomenų analitiko darbas dažniausiai yra duomenų valymas

Turbūt didžiausias skirtumas tarp mokykloje ar universitete darytų duomenų analizių ir realaus pasaulio yra turimų duomenų kokybė. Rašėm savaitgaliais magistrinius darbus, pasižiūrėdami į kursiokų failus darėm „statistikos laboratorinius“, sprendėm uždavinius bei iš vadovėlio atkartojom nelabai suprantamas ekonometrinius modelius – ir  beveik visada duomenys buvo duotybė. Ar tai būtų BVP augimo eilutė iš Statistikos departamento, ar Olimpiadų medalių suvestinė: beveik visada duomenys buvo švarūs, tvarkingi, be klaidų, be neužpildytų eilučių, be praleistų kablelių, romėniškų skaitmenų, sunkiai įskaitomo buhalterės Janinos rašto ir pasimetusių sąskaitų-faktūrų. Tereikėdavo tuos duomenis paimti, sudėti į modelį, sukalbėti kelis užkeikimus ir gaudavai vienintelę teisingą p reikšmę ir iš to sekančią išvadą. Didesnis nedarbas yra mažesnė infliacija. Narystė Europos Sąjungoje didina akcijų kainas. Marytė suvalgo daugiau obuolių nei Jonukas.

Skirtingai nei universitete, realybėje duomenys beveik niekada nebūna aiškūs ir tvarkingi. Dažniausiai tau reikiamų duomenų tiesiog nėra (ar daug kas kaupia duomenis apie kiekvienos fizinės parduotuvės kasvalandinį lankytojų srautą?). Jeigu jų galima rasti – jie nepatikimi, nes iki galo nežinai, ar kiekviena apskaitininkė visose Baltijos šalyse prieš penkerius metus vienodai koduodavo gautas sąskaitas. Jeigu jais galima pasitikėti, jie tikriausiai būna nepilni – vienur trūksta detalumo, kitur kažkas nusimušę, trečioje vietoje duomenys nepasiekiami, nes jie nesuskaitmenizuoti. Jau nekalbu apie tai, kad visur yra ir žmogiškas faktorius: kažkur vardas įvestas į pavardės grafą, kažkas sumas vietoje eurų įrašė litais. Kuo daugiau duomenų (ir ypač jei kalbam apie didelius duomenis be struktūros) tuo didesnė duomenų analitiko darbo laiko dalis yra ne sudėtingas duomenų modeliavimas ar rezultatų interpretavimas, o duomenų tvarkymas bei paruošimas analizei. Sakoma, kad šiam kruopščiam ir nuobodokam darbui analitikai sugaišta nuo 50 iki 80 procentų savo darbo laiko.

Gerai sutvarkyti duomenys yra aukso vertės. Tai tokie duomenys, kuriuose nebėra erdvės interpretacijoms, kuriuose nelikę klaidų ir kuriais tvirtai galima remtis darant verslo sprendimus. Tik juos išvalius galima kurti sudėtingus modelius bei algoritmus, o iki tol reikia praleisti ne vieną valandą rymant prie duomenų kokybės. Toks analitiko darbas.

Kada duomenys gali padėti priimti sprendimus?

Prieš pusantrų metų mano rašytas dienoraščio įrašas apie duomenų kultūrą organizacijose pastarosiomis savaitėmis vėl iš naujo užkabino skaitytojus: šia tema parašė „Verslo žinios“ ir apie tai nemažai buvo kalbama Login koridoriuose. Matyt, kompanijose duomenų atsiranda vis daugiau, tik dar nelabai aišku, kaip iš jų išpešti naudos.

Kad ir kaip skambėtų neįprastai, manau, jog duomenų analizėje sudėtingiausia yra ne algoritmai ir ne duomenų infrastruktūra. Svarbiausia ne kur stovi jūsų serveriai, kokia kalba parašytos jūsų duomenų apdorojimo programos ar kuris kietas matematikas darys statistinę jūsų klientų analizę. Svarbiausia, ar jūsų kompanijos kultūra leis jums priimti verslo sprendimus remiantis šaltais ir objektyviais duomenimis, nekreipiant dėmesio į vidinį politikavimą ir norą prieš vadovą pasirodyti geresniu nei esi. Iš duomenų analizės jokios naudos (o netgi sakyčiau dar blogiau – ji žalinga!), jeigu ji naudojama tik savo išankstinei nuomonei apginti bei parodyti, kad jūsų padalinys dirba puikiai. Analitikai turėtų būti skatinami ieškoti kontraargumentų vyraujančiai nuomonei, nes duomenys tam ir yra, kad sprendimai būtų priimami ne vien tik pagal vadovo šeštąjį jausmą. Tai nelengva, jei vadovas galvoja, jog jis geriausiai viską išmano, o jam dirba tik jo valią vykdantys pavaldiniai.

Būti atviram pačiam sau nelengva bet kuriam vadovui. Kartais, žvelgiant į duomenis, reikia giliai įkvėpti ir pripažinti klydus: gal visgi už krentančius pardavimus yra kalti ne konkurentai ar oro temperatūra, o ne itin tobulas pačios kompanijos darbas. Gal nepataikyta su rinkodara, gal buvo problema su sandėliu, gal pritrūko vadybininkų, gal buvo broko ar kokių kitų nesklandumų. Duomenų analizės nauda prasideda nuo atvirumo sau, nuo nuoširdaus noro išsiaiškinti, kur yra problemos šaknys ir noro ją išspręsti. O tai neįmanoma, jeigu kompanijoje vyrauja kaltų paieškos kultūra: natūralu, kad visi stengsis duomenis pagražinti ir parodyti save kuo geresnėje šviesoje.

Tad kai šiomis dienomis kas nors manęs paklausia, ko reikia imtis pirmiausia, kad duomenys padėtų priimti verslo sprendimus, atsakau, jog tai vadovų tikėjimas duomenų kultūra ir realus noras prisikasti iki tiesos. Net geriausi algoritmai jūsų verslui nepadės, jei sprendimai ir toliau bus priimami vien tik remiantis nenuginčijama aukščiausio vadovo nuomone arba jei save pagiriant analizės bus naudojamos tik gražesniam paveikslui valdybai pateikti. Pradėti reikia nuo kompanijos kultūros.