Duomenų kultūra organizacijoje

Rašydamas apie tai, ką išmokau dirbdamas duomenų analitiku nepaminėjau vieno labai svarbaus dalyko, be kurio bet kokia duomenų analizė yra visiškai bevertė (dar blogiau – ji gali būti kenksminga): tam, kad iš duomenų būtų galima išpešti naudos, organizacijoje turi būti teisinga duomenų kultūra. Tai anaiptol nereiškia, jog kompanijos administratorė tvarkingai kaupia sutartis gražiuose aplankuose, jas skenuoja ir sudeda į archyvą, prie kurio tik ji pati ir gali prieiti; tai reiškia, jog duomenys kompanijoje vaidina labai svarbų vaidmenį, jie prieinami visiems ir stengiamasi be jų nedaryti jokių sprendimų.

Gal ir gali atrodyti keistoka rašyti apie tai, jog duomenų analizė nesuteiks įmonei vertės, jeigu ji nebus naudojama priimant sprendimus, bet tai ne toks jau retas atvejis didelėse sustabarėjusiose organizacijose. Teisingi, nepagražinti skaičiai ne visiems yra malonūs, o būti iki galo atviram prieš save sunku kiekvienam vadovui. Neretai analitikai dirba darbą, stengdamiesi krentančių metrikų raudonyje ir nenumaldomai blogėjančioje situacijoje rasti bent kokį šviesulėlį teigiamoms naujienoms, kurias išdidžiai bus galima pristatyti valdyboje (bet jūs tik pažiūrėkite kaip stipriai išaugo mūsų trilitrinių bidonų pardavimai Kavarsko turguje trečiadienio popietėmis*!), ar bent jau paaiškinti, kodėl už prastus rezultatus kaltas kažkas kitas – nukritusios naftos kainos, supuolę ypač šalti penktadienio vakarai ar nesąžiningai sėkmingai dirbantys konkurentai. Deja, toks savęs apgaudinėjimas anaiptol nėra retas: esu jį matęs ne kartą ir, prisipažinsiu, tikėtina, jog ir pats tuo esu (per)sirgęs. Tokiai kultūrai pasikeisti nelengva: reikia perlipti per save, greitai sugebėti pripažinti klaidas ir dar kartą įgyti papildomą kilogramą kuklumo. Tai įmanoma tik tuomet, kai organizacijoje pirmiausia ieškoma būdų kaip efektyviausiai spręsti problemas, o ne užsiimama kaltininkų paieška – tik jausdamiesi saugūs veikti, darbuotojai dirba vienam tikslui ir neužsiima politikavimu bei vienas kito dangstymu.

Turinčiose gerą duomenų kultūrą organizacijose būna mažai paslapčių: duomenys privalo būti prieinami visiems. Jeigu kaskart prireikus kokios nors informacijos reikia kreiptis į atskirą skyrių, kuris sudėliojęs prioritetus per kelias savaites įsipareigoja pateikti terminus per kurios bus padaryta reikiama eksportuojamų Tanzanijon džiovintų karvių uodegų pardavimo ataskaita (jei tik tokią duomenų prieigą patvirtins trys tiesioginiai jūsų vadovai), tokie duomenys, net jei jie renkami, yra beverčiai. Duomenys turi būti patikimi, švieži ir greitai pasiekiami visiems, kam tai įdomu. Aišku, geriausia, kad tam būtų patogūs įrankiai, bet nustebtumėte kaip iš tiesų nesunku gerai motyvuotam ir iniciatyviam niekada neprogramavusiam darbuotojui išmokti SQL pagrindus ar trauktis duomenis per Excelio pivotą. Tik nereikia tam trukdyti.

Aišku, tikėtina, jog tokia duomenų demokratija prives prie to, kad organizacijoje sprendimų priėmimas bus nulemtas nebe begemotų (HiPPO – Highest Paid Person’s Opinion), o šaltų ir autoritetų nepaisančių duomenų. Bet dažniausiai ilguoju laikotarpiu tai labiau apsimoka nei užsimerkti prieš realybę.

* Perkaičiavus pagal rublio kursą

Ką išmokau, būdamas duomenų analitiku

Praėję metai buvo įdomūs tuo, kad beveik visus juos praleidau dirbdamas kiek kitokį, nei man įprastą darbą – ne knaisiojausi po finansinius įmonių modelius, bandydamas suprasti, kas galėtų būti geros bendrovės investicijoms, o analizavau nemažus duomenų kiekius daugiausiai investicijų pritraukusiame lietuviškame startuolyje (ar tai iš vis yra teisingas žodis?) Vinted. Patirtis buvo labai įdomi, juolab, kad visada norėjau padirbėti ne vien su finansiniais modeliais, bet ir pamatyti kaip viskas atrodo iš realaus verslo pusės. O ir duomenų kiekiai Vinted įspūdingi: analizuoti keleto milijonų vartojojų duomenis labai įdomu. Ypač dar ir dėl to, jog Vinted kultūra yra labai stipriai paremta duomenų analize: verslo sprendimams duomenys yra pats svarbiausiais argumentas.

Analizuojant duomenis geriausiai išmokau dvi pamokas: 1) duomenys dažniausiai yra netobuli ir 2) duomenys nebūtinai reiškia tai, ką tu galvoji, kad jie reiškia. Tikriausiai dažnai dirbantys su duomenimis atlaidžiai palinguos galvą ir palaikys mane nepatyrusiu naivuoliu, bet iki realaus darbo su duomenimis niekada nebuvau pagalvojęs, jog didžioji duomenų analitiko darbo dalis yra duomenų paruošimas. Dažniausiai jie būna ne tokiame formate, kaip tau jų reikia, dalies duomenų trūksta, dalį duomenų reikia išsitraukti iš kitų duomenų bazių, dalį duomenų reikia atmesti dėl nepatikimumo, dalis duomenų būna svarais vietoje eurų, o dalis romėniškais skaitmenimis arabiška abėcėle. Tam, kad duomenis būtų galima sušerti kokiams nors modeliui arba patogiai jais naudotis, paskiriama iki 90 (taip, devyniasdešimt!) procentų duomenų analitiko darbo laiko. O aš iki tol galvojau, jog sunkiausia dalis – sugalvoti kaip ką su kuo kaip palyginti ar modeliuoti.

Antra pamoka: duomenys dažnai reiškia visai ne tai, ką tu galvoji, kad jie reiškia. Kažkurią savaitę krito vartotojų aktyvumas? Gal kaltos moksleivių atostogos, gal itin geras oras, o gal Vokietijoje prastėja ekonominė situacija. Gali būti, jog kažkas pakito svetainėje ir žmonės nebenori taip dažnai joje lankytis. Prielaidų gali būti labai įvairių, ir vien žiūrėdamas į plikus duomenis ne visada ką nors protingo išpeši. Visai gali būti, jog tiesiog tą savaitę buvo įvelta kokia nors klaida programiniame kode ir dalis duomenų buvo tiesiog prarasta – o to negalėtum atspėti, jeigu nepasiklaustum draugiškų programuotojų. Trumpai tariant: vien duomenų analizė kartais irgi būna bejėgė, reikia labai gerai žinoti visą kontekstą, kad galėtum suprasti, ką tie duomenys tau gali papasakoti.

Kita vertus, jeigu analitikai įdeda daug kruopštaus darbo į duomenų valymą, jų rinkimą ir gali būti tikri jų patikimumu, jeigu tikrai gerai išmano, ką tie duomenys gali reikšti, analizė gali papasakoti daug labai įdomių dalykų: nuo to, kuo skiriasi skirtingų vartotojų segmentų elgsena iki to, kaip vartotojus veikia vienas ar kitas tavo produkto pakeitimas. Kas smagiausia, jog turint daug vartotojų, visa tai galima stebėti ir daryti išvadas kone realiu laiku, o tai reiškia, jog galima operatyviai reaguoti ir daryti savo produkto korekcijas. Lyginant su ketvirtinėmis finansinėmis ataskaitomybėmis ar mėnesinėmis/savaitinėmis pardavimų ataskaitomis tai kosminis šviesos greitis. Tik visgi galioja tie esminiai „jeigu“: be kruopštaus darbo ir gero suvokimo pliki dideli duomenys savaime stogą nunešančių įžvalgų neatneš. Big data is hard, ok?.