Duomenų analitiko darbas dažniausiai yra duomenų valymas

Turbūt didžiausias skirtumas tarp mokykloje ar universitete darytų duomenų analizių ir realaus pasaulio yra turimų duomenų kokybė. Rašėm savaitgaliais magistrinius darbus, pasižiūrėdami į kursiokų failus darėm „statistikos laboratorinius“, sprendėm uždavinius bei iš vadovėlio atkartojom nelabai suprantamas ekonometrinius modelius – ir  beveik visada duomenys buvo duotybė. Ar tai būtų BVP augimo eilutė iš Statistikos departamento, ar Olimpiadų medalių suvestinė: beveik visada duomenys buvo švarūs, tvarkingi, be klaidų, be neužpildytų eilučių, be praleistų kablelių, romėniškų skaitmenų, sunkiai įskaitomo buhalterės Janinos rašto ir pasimetusių sąskaitų-faktūrų. Tereikėdavo tuos duomenis paimti, sudėti į modelį, sukalbėti kelis užkeikimus ir gaudavai vienintelę teisingą p reikšmę ir iš to sekančią išvadą. Didesnis nedarbas yra mažesnė infliacija. Narystė Europos Sąjungoje didina akcijų kainas. Marytė suvalgo daugiau obuolių nei Jonukas.

Skirtingai nei universitete, realybėje duomenys beveik niekada nebūna aiškūs ir tvarkingi. Dažniausiai tau reikiamų duomenų tiesiog nėra (ar daug kas kaupia duomenis apie kiekvienos fizinės parduotuvės kasvalandinį lankytojų srautą?). Jeigu jų galima rasti – jie nepatikimi, nes iki galo nežinai, ar kiekviena apskaitininkė visose Baltijos šalyse prieš penkerius metus vienodai koduodavo gautas sąskaitas. Jeigu jais galima pasitikėti, jie tikriausiai būna nepilni – vienur trūksta detalumo, kitur kažkas nusimušę, trečioje vietoje duomenys nepasiekiami, nes jie nesuskaitmenizuoti. Jau nekalbu apie tai, kad visur yra ir žmogiškas faktorius: kažkur vardas įvestas į pavardės grafą, kažkas sumas vietoje eurų įrašė litais. Kuo daugiau duomenų (ir ypač jei kalbam apie didelius duomenis be struktūros) tuo didesnė duomenų analitiko darbo laiko dalis yra ne sudėtingas duomenų modeliavimas ar rezultatų interpretavimas, o duomenų tvarkymas bei paruošimas analizei. Sakoma, kad šiam kruopščiam ir nuobodokam darbui analitikai sugaišta nuo 50 iki 80 procentų savo darbo laiko.

Gerai sutvarkyti duomenys yra aukso vertės. Tai tokie duomenys, kuriuose nebėra erdvės interpretacijoms, kuriuose nelikę klaidų ir kuriais tvirtai galima remtis darant verslo sprendimus. Tik juos išvalius galima kurti sudėtingus modelius bei algoritmus, o iki tol reikia praleisti ne vieną valandą rymant prie duomenų kokybės. Toks analitiko darbas.

3 Comments

  1. Pridėsiu dar ir atvejį iš savo gyvenimo.
    Perkeli duomenis iš vienos programos į kitą ir po to ilgai ieškai, kodėl sumos, vidurkiai ar dar kas nors nesutampa.

  2. Šventa tiesa.
    Duomenų kokybė yra būtina ieškant teisingų sprendimų. Pradėdamas naują projektą, kur duomenų ypatybės nežinomos, duomenų surinkimui ir paruošimui planuoju mažiausiai 60-70% projekto laiko. Ir tai net ne su “big data”.

  3. Tikra tiesa. Imant netgi finansinius duomenis, kurie lyg ir turėtų būti tvarkingi. Tačiau prisiveisia sąskaitų keitimai su sistemos keitimais ar su naujos veiklos atsiradimu tas pačias sąskaitas pradeda naudoti naujiems reikalams, keičiasi grupavimai, apjungimai. O jei dar reikalų turi su įmonių grupe, kurios buvo įsigytos – tuomet išvis pasidaro toks zoologijos sodas, kad pirmas klausimas pasidaro ne “duomenų sutvarkymas”, o “ko mes iš tų duomenų norim”. Nes pilnas sutvarkymas neretai yra tiek imlus darbui (ne tik analitiko, bet ir buhalterijos), kad geriau yra esamą “garažą” tvarkyti atskirais priėjimais – palaipsniui pildant naujo “tvarkingo garažo” turinį seno “garažo” duomenimis

Comments are closed.