Apie (perdėtą) metrikų svarbą

Vienas svarbiausių dalykų šiuolaikinėje vadyboje – metrikų (KPIs, key performance indicators, pagrindinių veiklo rodiklių) sekimas. Juk jei kažko nematuoji, tai ir negali pagerinti. Iš tiesų, poreikis reguliariai matuoti savo progresą organizacijas priverčia rimčiau pažiūrėti į savo duomenų ūkį, mat iki tol duomenų surenkama mažai ir ne daug kam rūpi jų kokybė. Ir tik turint pakankamai duomenų palaipsniui galima prieiti prie „data-driven“ kultūros: visus svarbesnius sprendimus priimti vadovaujantis nebe nuojauta, o paanalizavus objektyvius skaičius.

Tačiau čia, kaip ir visur, galima persūdyti. Nereikia pamiršti, jog visas metrikas galima apgauti: vien jau rodiklio pasirinkimas gali lemti keistus organizacijos kultūros pokyčius. Ekonomisto Goodhart’o dėsnis teigia, jog metrikos nustoja būti efektyvios vos tik jos tampa tikslu, kurį reikia pasiekti. Kai tik kažkas siekdamas suvaldyti bankų riziką apriboja kapitalo pakankamumo rodiklį, randama būdų paskolas paversti obligacijomis (o šios kapitalo pakankamumo formulėje traktuojamos atlaidžiau). Kai interneto rinkodaros efektyvumą matuoji reklamų paspaudimais, atsiranda automatinių botų, kurie nuolat spaudalioja ant banerių. Kai prieš reklamdavius reikia girtis atverstų puslapių skaičiumi, portalų antraštės optimizuojamos taip, kad skaitytoją užkabintų, bet neperteiktų straipsnio minties: veiksmo daug, o portalo vartotojai turiniu nusivilia. Jei tik pradedi rimtai optimizuoti kokią nors metriką, net nepastebi, kaip jau toli nuvažiavai į lankas.

Žmogaus elgsenos beveik neįmanoma tobulai išmatuoti – belieka rinktis kažkokius skaičius, kurie gal būt arčiausiai galėtų atspindėti esamą situaciją. Taip „atverstų puslapių skaičius“ apytiksliai matuoja „kiek žmonių perskaitė šį straipsnį?“, o „paspaudimais ant reklamos“ galima išmatuoti vartotojų norą įsigyti reklamuojamą produktą. Kapitalo pakankamumas tampa apytiksliu banko rizikos matu, NPS tyrimas maždaug parodo ar vartotojams patinka jūsų kompanija, studentų egzamino balai maždaug parodo, ar jie išmoko paskaitų medžiagą. Turint prieš akis (kad ir netikslų) skaičių, jį galima stebėti, galvoti, kaip jį pagerinti ir sekti savo progresą. Tai ypač patinka inžinieriams ir matematiškai galvojantiems žmonėms: žymiai lengviau galvoti kaip „X procentų pagerinti egzaminų rezultatus“, nes tai skamba daug tiksliau ir apibrėžčiau nei „geriau mokyti studentus“.

Problema atsiranda tada, kai pamirštama, jog metrika tėra apytikslis pasaulio atspindys. Dar blogiau, kai pagrindiniu tikslu tampa tik metrikos pagerinimas – visada išlenda netikėti antriniai šių metrikų efektai. Norint padidinti straipsnių kokybę pradedama matuoti kiek jų perskaitoma, tada kyla noras optimizuoti paspaudimus ant straipsnių antraščių, o tai galų gale sumažina straipsnių kokybę. Norint, kad kuo daugiau vartotojų naudotųsi tavo programėle, pradedamas sekti vartotojų grįžtamumo dažnumas (retention and churn), o vėliau tai išsiverčia į besaikį elektroninio pašto brukalų ar notificationų naudojimą. Norint, kad studentai geriau išmoktų dėstomą medžiagą, pradedama siekti jų egzaminų rezultatų pagerinimo, ir galų gale profesoriai pradeda mokyti savo dėstomo dalyko egzamino išlaikymo triukų, o ne patį savo dėstomą dalyką.

O kartais reikia optimizuoti visai priešingą metriką nei atrodytų iš pirmo žvilgsnio. Nors standartiškai galvojant norisi siekti, kad vartotojai kuo daugiau laiko praleistų svetainėje, Google stengėsi šią metriką optimizuoti į priešingą pusę: kuo greičiau vartotojai randa ko reikia, tuo jie greičiau dings iš tavo paieškos svetainės ir bus laimingesni. Pasiteisino.

Besaikis skaičių fetišas irgi kenksmingas. Verta į verslą kartais pažvelgti ir ne vien per metrikas.

Robotas irgi žmogus

Iš pažiūros duomenų analizė yra labai nešališkas ir objektyvus reikalas: paimi krūvą duomenų, perleidi per sudėtingą statistinių algoritmų mėsmalę ir gauni kažkokias įžvalgas. Mūsų produktą labiau mėgsta Marijampolėje, brangesnius produktus moterys perka savaitgaliais, socialiniuose tinkluose sekantys veikėją X skaito portalą Y, bent tris kartus gavę labai didelę mėnesinę sąskaitą yra linkę perbėgti pas konkurentus. Su regresijomis (ar sudėtingesnėmis analizėmis) ginčytis sunku, nes duomenys lyg ir kalba už save. Nebereikia spėlioti ir remtis dažnai mus pavedančia intuicija. Bet algoritmai nėra jau tokie neutralūs: jie klysta visai kaip žmonės, nes jie mokosi iš tų pačių žmonių jiems pateiktų duomenų. Tad aklai pasitikėti algoritmų sprendimais nereikėtų.

Vienas to pavyzdys yra JAV naudojamas algoritmas, sprendžiantis apie nuteisto nusikaltėlio polinkį dar kartą nusikalsti. Neseniai buvo pastebėta, jog šis algoritmas turėjo rasistinių polinkių: jeigu esi juodaodis, jo nuomone, tavo recidyvizmo tikimybė didesnė. Kadangi tokiais algoritmais naudojamasi sprendžiant, kokio dydžio bausmę skirti, juodaodžiai už tokius pat pažeidimus automatiškai baudžiami stipriau nei visiškai toks pats baltasis kaimynas, kuris gyvena beveik identiškomis socialinėmis sąlygomis. Su panašiomis diskriminacinėmis problemomis susiduria ir moterys: algoritmai mano, kad jos turi žymiai mažesnę tikimybę uždirbti aukštesnę algą, todėl net joms net nerodo gerų darbo pasiūlymų. Jei tik keliolika procentų vadovų yra moterys, tai net neverta švaistyti lėšų joms rodant vadovų darbo skelbimus.

Tokią algoritmo klaidą ištaisyti nėra taip paprasta, kaip gali pasirodyti. Net jei įstatymais uždrausi kuriant algoritmą atsižvelgti į žmogaus lytį ar odos spalvą, yra daug kitų su šiais dalykais koreliuojančių faktorių. Jei 82% namų ūkių su nepilnamečiais ir tik vienu suaugusiuoju sudaro vieniša mama su vaikais, tai iš šeimos sudėties nesunku atspėti suaugusiojo lytį. Juodaodžius galima atskirti pagal vardus, o Lietuvos atveju, tautybę tikriausiai nesunku suprasti pagal pavardę. Žmogaus gyvenamosios vietos pašto indeksas irgi labai daug ką pasako.

Dirbtinio intelekto algoritmai yra kaip vaikai, kurie mokydamiesi iš aplinkos pradeda suvokti ryšius tarp kintamųjų. Lygiai taip, kaip svarbu, jog vaikas bendrautų su tinkamais žmonėmis ir augtų ne asocialioje aplinkoje, taip ir algoritmo negalima lengvabūdiškai tiesiog paleisti mokytis į platųjį pasaulį. Tai pernai suprato Microsoft, paleidusi savaime besimokantį Twitterio botą Tay, kuris per kelias valandas iš interneto vartotojų išmoko daug rasistinių frazių ir tapo piktu keikūnu. Net ir akylai prižiūrint dirbtinio intelekto mokymosi procesą, mokymosi pavyzdžių imtis turi gerai atitikti realaus pasaulio proporcijas (o tai nevisada lengva pasiekti). 2015-aisiais Google išleistas atpažįstantis objektus nuotraukose algoritmas sukėlė skandalą, mat juodaodžių nuotraukas klaidingai klasifikuodavo kaip beždžiones: jis mokėsi daugiausiai iš baltųjų nuotraukų. Panašiai, kaip Delfi žino apie automobilius tik tiek, kad jie dažnai patenka į avarijas.

Galų gale net jei ir labai atsargiai suformuosi duomenų imtį algoritmo mokymuisi ir atidžiai prižiūrėsi visą procesą, mūsų visuomenėje yra tam tikrų stereotipų ar šališkumų, kurie atsispindės duomenyse. Jei dirbtinio intelekto algoritmą mokysi naudodamasis 1870-ųjų studentų duomenų baze, tikėtina, jog jis į magistro programą siūlys priimti beveik vien tik vyrus. Jeigu algoritmas išmoksta tavo keistumus ir atsižvelgdamas į tavo iškreiptą pasaulio vaizdą tau siūlo skaityti tik straipsnius apie konspiracijos teorijas, tai tik padidina tavo tikėjimą jomis – algoritmai ne tik kad nepadeda objektyviau suvokti pasaulį, bet vis labiau jį iškreipia. Klaidingi įsitikinimai sustiprinami ir daromos vis didesnės klaidos.

Ar yra išeitis iš šios spiralės? Vargu, ar visiškai įmanoma sukurti idealius algoritmus, nes jie tėra mūsų visuomenės atspindys. Kritinis mąstymas ir skeptiškumas tampa labai svarbiais įrankiais atskiriant tiesą nuo melagingų naujienų, tik šiais hiperaktyviais laikais, kai dėmesį gali sukaupti tik kelioms sekundėms, tai tampa brangu ir nemadinga.

Ką turi mokėti analitikas

Neseniai iš skaitytojo gavau klausimą: ką turi mokėti analitikas? Klausimas ne toks jau paprastas, nes neužtenka išvardinti kelias programavimo kalbas ar paminėti kelias technologijas: negali būti jokio baigtinio sąrašo prie kurio sudėliojus varneles galėtum sakyti, kad, va, šitas analitikas tikrai yra geras. Juk tai tėra tik įrankiai.

Nors daugelis analitiko negali įsivaizduoti be matematikos ar statistikos žinių, manau, kad pati svarbiausia sritis, kurią turi išmanyti analitikas yra verslas, kuriame jis dirba. Juk jokios naudos iš to, kad gali sudaryti labai protingą statistinį modelį, jeigu verslas iš to negali padaryti jokių protingų įžvalgų. Sugebėti užduoti teisingus klausimus ir į juos atsakyti gal ir ne šimto procentų užtikrintumu, bet greitai ir efektyviai versle yra labai svarbu. Ir labai dažnai būna, jog teisingai ir laiku užduotas klausimas („o mes toje šalyje sudarėme galimybes atsiskaityti debetinėmis kortelėmis?“) atneša žymiai daugiau naudos nei sudėtingi modeliai, beribės procesoriaus galios bei aukštosios matematikos diplomai. Gal būt dėl to ne visada akademinėje srityje daug pasiekusiems žmonėms sekasi dirbti analitikais: tam reikia kiek kitokios patirties, greito mąstymo ir susitaikymo su tuo, kad nemažai sprendimų gali būti ir klaidingi.

Verslo poreikių supratimas sudėtingas ir tuo, kad nelabai aišku, iš kur to mokytis – tai įgyjama per patirtį. Kai jau matai nebe pirmą ekonomikos nuosmukį, gali numatyti, kas bus su apyvartinėmis lėšomis, kai siuvi nebe pirmas kelnes, žinai, kad šitos medžiagos tiekėjas kartais vėluoja, kai klientų kreditingumą analizuoji nebe pirmus metus, supranti, kad verta atsižvelgti ir į kliento amžių ar šeimyninę padėtį. Bet tokios informacijos neperskaitysi kokioje nors vienoje knygoje: reikės ilgai ir aktyviai tuo domėtis. Todėl labai svarbu, kad analitikas būtų žingeidus, domėtųsi savo analizuojama sritimi bei mokėtų uždavinėti teisingus klausimus. Atsakymai ateis su patirtimi.

Aišku, techninės žinios analitikui irgi reikalingos: juk reikia mokėti iš duomenų atrasti dėsningumus. Kadangi nemaža analitiko darbo dalis yra duomenų traukimas ir valymas, analitikui praverstų mokėti elgtis su duomenų bazėmis (dažniausiai tai reiškia, jog vertėtų neblogai žinoti SQL kalbą). Duomenis transformuojant reiktų mokėti kokią nors programavimo kalbą: R, Python, Ruby ar dar ką nors ne itin sudėtingo. Tai labai pagreitina duomenų analizės darbus, jau nekalbant apie tai, kad šių programavimo kalbų reikės norint daryti sudėtingesnes duomenų analizes – Excelis yra lyg vaikiškas kastuvėlis, lyginant su kitais įrankiais, kuriais reikia mokėti norint kapstytis didelių duomenų sankaupose.

Beje, matematikos žinių analitikui ilgai gali neprireikti – jeigu nedaromi sudėtinti dirbtinio intelekto modeliai, visiškai galima apsieiti ir be jos. Matricų algebra tampa naudinga tik labai pažengusiems. Bet be statistikos žinių toli nenueisi: reikia žinoti, kas yra statistinis reikšmingumas tam, kad šią savaitę dviem procentais nukritus pardavimams nepultum į paniką – gal būt tai tik pokytis normalių svyravimų ribose. Neprošal žinoti ir kaip analizuoti laiko eilutes – trendų ir sezoniškumo analizė gali duoti puikių įžvalgų.

Dar viena dažnai pražiūrima analitiko savybė: mokėjimas komunikuoti. Kad ir kokias protingas įžvalgas iš duomenų padarytum, jas reikės papasakoti kitiems kolegoms, ir dažniausiai p-reikšmės, autokoreliacija ir Chi kvadratas jiems absoliučiai nieko nesakys. Geras analitikas moka duomenis prašnekinti: rasti įžvalgas, jas suprantamai pavaizduoti grafikuose ir įtikinamai aprašyti žodžiais (ir nebijoti prieš auditoriją papasakoti jas gyvai). Puikus to pavyzdys yra Gitanas Nausėda – mokėjimas komunikuoti neretai yra svarbiau nei pačios sudėtingiausios akademinės analizės superkompiuteriais. Man pačiam to vertėtų pasimokyti.

Duomenų analitiko darbas dažniausiai yra duomenų valymas

Turbūt didžiausias skirtumas tarp mokykloje ar universitete darytų duomenų analizių ir realaus pasaulio yra turimų duomenų kokybė. Rašėm savaitgaliais magistrinius darbus, pasižiūrėdami į kursiokų failus darėm „statistikos laboratorinius“, sprendėm uždavinius bei iš vadovėlio atkartojom nelabai suprantamas ekonometrinius modelius – ir  beveik visada duomenys buvo duotybė. Ar tai būtų BVP augimo eilutė iš Statistikos departamento, ar Olimpiadų medalių suvestinė: beveik visada duomenys buvo švarūs, tvarkingi, be klaidų, be neužpildytų eilučių, be praleistų kablelių, romėniškų skaitmenų, sunkiai įskaitomo buhalterės Janinos rašto ir pasimetusių sąskaitų-faktūrų. Tereikėdavo tuos duomenis paimti, sudėti į modelį, sukalbėti kelis užkeikimus ir gaudavai vienintelę teisingą p reikšmę ir iš to sekančią išvadą. Didesnis nedarbas yra mažesnė infliacija. Narystė Europos Sąjungoje didina akcijų kainas. Marytė suvalgo daugiau obuolių nei Jonukas.

Skirtingai nei universitete, realybėje duomenys beveik niekada nebūna aiškūs ir tvarkingi. Dažniausiai tau reikiamų duomenų tiesiog nėra (ar daug kas kaupia duomenis apie kiekvienos fizinės parduotuvės kasvalandinį lankytojų srautą?). Jeigu jų galima rasti – jie nepatikimi, nes iki galo nežinai, ar kiekviena apskaitininkė visose Baltijos šalyse prieš penkerius metus vienodai koduodavo gautas sąskaitas. Jeigu jais galima pasitikėti, jie tikriausiai būna nepilni – vienur trūksta detalumo, kitur kažkas nusimušę, trečioje vietoje duomenys nepasiekiami, nes jie nesuskaitmenizuoti. Jau nekalbu apie tai, kad visur yra ir žmogiškas faktorius: kažkur vardas įvestas į pavardės grafą, kažkas sumas vietoje eurų įrašė litais. Kuo daugiau duomenų (ir ypač jei kalbam apie didelius duomenis be struktūros) tuo didesnė duomenų analitiko darbo laiko dalis yra ne sudėtingas duomenų modeliavimas ar rezultatų interpretavimas, o duomenų tvarkymas bei paruošimas analizei. Sakoma, kad šiam kruopščiam ir nuobodokam darbui analitikai sugaišta nuo 50 iki 80 procentų savo darbo laiko.

Gerai sutvarkyti duomenys yra aukso vertės. Tai tokie duomenys, kuriuose nebėra erdvės interpretacijoms, kuriuose nelikę klaidų ir kuriais tvirtai galima remtis darant verslo sprendimus. Tik juos išvalius galima kurti sudėtingus modelius bei algoritmus, o iki tol reikia praleisti ne vieną valandą rymant prie duomenų kokybės. Toks analitiko darbas.

Kada duomenys gali padėti priimti sprendimus?

Prieš pusantrų metų mano rašytas dienoraščio įrašas apie duomenų kultūrą organizacijose pastarosiomis savaitėmis vėl iš naujo užkabino skaitytojus: šia tema parašė „Verslo žinios“ ir apie tai nemažai buvo kalbama Login koridoriuose. Matyt, kompanijose duomenų atsiranda vis daugiau, tik dar nelabai aišku, kaip iš jų išpešti naudos.

Kad ir kaip skambėtų neįprastai, manau, jog duomenų analizėje sudėtingiausia yra ne algoritmai ir ne duomenų infrastruktūra. Svarbiausia ne kur stovi jūsų serveriai, kokia kalba parašytos jūsų duomenų apdorojimo programos ar kuris kietas matematikas darys statistinę jūsų klientų analizę. Svarbiausia, ar jūsų kompanijos kultūra leis jums priimti verslo sprendimus remiantis šaltais ir objektyviais duomenimis, nekreipiant dėmesio į vidinį politikavimą ir norą prieš vadovą pasirodyti geresniu nei esi. Iš duomenų analizės jokios naudos (o netgi sakyčiau dar blogiau – ji žalinga!), jeigu ji naudojama tik savo išankstinei nuomonei apginti bei parodyti, kad jūsų padalinys dirba puikiai. Analitikai turėtų būti skatinami ieškoti kontraargumentų vyraujančiai nuomonei, nes duomenys tam ir yra, kad sprendimai būtų priimami ne vien tik pagal vadovo šeštąjį jausmą. Tai nelengva, jei vadovas galvoja, jog jis geriausiai viską išmano, o jam dirba tik jo valią vykdantys pavaldiniai.

Būti atviram pačiam sau nelengva bet kuriam vadovui. Kartais, žvelgiant į duomenis, reikia giliai įkvėpti ir pripažinti klydus: gal visgi už krentančius pardavimus yra kalti ne konkurentai ar oro temperatūra, o ne itin tobulas pačios kompanijos darbas. Gal nepataikyta su rinkodara, gal buvo problema su sandėliu, gal pritrūko vadybininkų, gal buvo broko ar kokių kitų nesklandumų. Duomenų analizės nauda prasideda nuo atvirumo sau, nuo nuoširdaus noro išsiaiškinti, kur yra problemos šaknys ir noro ją išspręsti. O tai neįmanoma, jeigu kompanijoje vyrauja kaltų paieškos kultūra: natūralu, kad visi stengsis duomenis pagražinti ir parodyti save kuo geresnėje šviesoje.

Tad kai šiomis dienomis kas nors manęs paklausia, ko reikia imtis pirmiausia, kad duomenys padėtų priimti verslo sprendimus, atsakau, jog tai vadovų tikėjimas duomenų kultūra ir realus noras prisikasti iki tiesos. Net geriausi algoritmai jūsų verslui nepadės, jei sprendimai ir toliau bus priimami vien tik remiantis nenuginčijama aukščiausio vadovo nuomone arba jei save pagiriant analizės bus naudojamos tik gražesniam paveikslui valdybai pateikti. Pradėti reikia nuo kompanijos kultūros.

Duomenų kultūra organizacijoje

Rašydamas apie tai, ką išmokau dirbdamas duomenų analitiku nepaminėjau vieno labai svarbaus dalyko, be kurio bet kokia duomenų analizė yra visiškai bevertė (dar blogiau – ji gali būti kenksminga): tam, kad iš duomenų būtų galima išpešti naudos, organizacijoje turi būti teisinga duomenų kultūra. Tai anaiptol nereiškia, jog kompanijos administratorė tvarkingai kaupia sutartis gražiuose aplankuose, jas skenuoja ir sudeda į archyvą, prie kurio tik ji pati ir gali prieiti; tai reiškia, jog duomenys kompanijoje vaidina labai svarbų vaidmenį, jie prieinami visiems ir stengiamasi be jų nedaryti jokių sprendimų.

Gal ir gali atrodyti keistoka rašyti apie tai, jog duomenų analizė nesuteiks įmonei vertės, jeigu ji nebus naudojama priimant sprendimus, bet tai ne toks jau retas atvejis didelėse sustabarėjusiose organizacijose. Teisingi, nepagražinti skaičiai ne visiems yra malonūs, o būti iki galo atviram prieš save sunku kiekvienam vadovui. Neretai analitikai dirba darbą, stengdamiesi krentančių metrikų raudonyje ir nenumaldomai blogėjančioje situacijoje rasti bent kokį šviesulėlį teigiamoms naujienoms, kurias išdidžiai bus galima pristatyti valdyboje (bet jūs tik pažiūrėkite kaip stipriai išaugo mūsų trilitrinių bidonų pardavimai Kavarsko turguje trečiadienio popietėmis*!), ar bent jau paaiškinti, kodėl už prastus rezultatus kaltas kažkas kitas – nukritusios naftos kainos, supuolę ypač šalti penktadienio vakarai ar nesąžiningai sėkmingai dirbantys konkurentai. Deja, toks savęs apgaudinėjimas anaiptol nėra retas: esu jį matęs ne kartą ir, prisipažinsiu, tikėtina, jog ir pats tuo esu (per)sirgęs. Tokiai kultūrai pasikeisti nelengva: reikia perlipti per save, greitai sugebėti pripažinti klaidas ir dar kartą įgyti papildomą kilogramą kuklumo. Tai įmanoma tik tuomet, kai organizacijoje pirmiausia ieškoma būdų kaip efektyviausiai spręsti problemas, o ne užsiimama kaltininkų paieška – tik jausdamiesi saugūs veikti, darbuotojai dirba vienam tikslui ir neužsiima politikavimu bei vienas kito dangstymu.

Turinčiose gerą duomenų kultūrą organizacijose būna mažai paslapčių: duomenys privalo būti prieinami visiems. Jeigu kaskart prireikus kokios nors informacijos reikia kreiptis į atskirą skyrių, kuris sudėliojęs prioritetus per kelias savaites įsipareigoja pateikti terminus per kurios bus padaryta reikiama eksportuojamų Tanzanijon džiovintų karvių uodegų pardavimo ataskaita (jei tik tokią duomenų prieigą patvirtins trys tiesioginiai jūsų vadovai), tokie duomenys, net jei jie renkami, yra beverčiai. Duomenys turi būti patikimi, švieži ir greitai pasiekiami visiems, kam tai įdomu. Aišku, geriausia, kad tam būtų patogūs įrankiai, bet nustebtumėte kaip iš tiesų nesunku gerai motyvuotam ir iniciatyviam niekada neprogramavusiam darbuotojui išmokti SQL pagrindus ar trauktis duomenis per Excelio pivotą. Tik nereikia tam trukdyti.

Aišku, tikėtina, jog tokia duomenų demokratija prives prie to, kad organizacijoje sprendimų priėmimas bus nulemtas nebe begemotų (HiPPO – Highest Paid Person’s Opinion), o šaltų ir autoritetų nepaisančių duomenų. Bet dažniausiai ilguoju laikotarpiu tai labiau apsimoka nei užsimerkti prieš realybę.

* Perkaičiavus pagal rublio kursą

Ką išmokau, būdamas duomenų analitiku

Praėję metai buvo įdomūs tuo, kad beveik visus juos praleidau dirbdamas kiek kitokį, nei man įprastą darbą – ne knaisiojausi po finansinius įmonių modelius, bandydamas suprasti, kas galėtų būti geros bendrovės investicijoms, o analizavau nemažus duomenų kiekius daugiausiai investicijų pritraukusiame lietuviškame startuolyje (ar tai iš vis yra teisingas žodis?) Vinted. Patirtis buvo labai įdomi, juolab, kad visada norėjau padirbėti ne vien su finansiniais modeliais, bet ir pamatyti kaip viskas atrodo iš realaus verslo pusės. O ir duomenų kiekiai Vinted įspūdingi: analizuoti keleto milijonų vartojojų duomenis labai įdomu. Ypač dar ir dėl to, jog Vinted kultūra yra labai stipriai paremta duomenų analize: verslo sprendimams duomenys yra pats svarbiausiais argumentas.

Analizuojant duomenis geriausiai išmokau dvi pamokas: 1) duomenys dažniausiai yra netobuli ir 2) duomenys nebūtinai reiškia tai, ką tu galvoji, kad jie reiškia. Tikriausiai dažnai dirbantys su duomenimis atlaidžiai palinguos galvą ir palaikys mane nepatyrusiu naivuoliu, bet iki realaus darbo su duomenimis niekada nebuvau pagalvojęs, jog didžioji duomenų analitiko darbo dalis yra duomenų paruošimas. Dažniausiai jie būna ne tokiame formate, kaip tau jų reikia, dalies duomenų trūksta, dalį duomenų reikia išsitraukti iš kitų duomenų bazių, dalį duomenų reikia atmesti dėl nepatikimumo, dalis duomenų būna svarais vietoje eurų, o dalis romėniškais skaitmenimis arabiška abėcėle. Tam, kad duomenis būtų galima sušerti kokiams nors modeliui arba patogiai jais naudotis, paskiriama iki 90 (taip, devyniasdešimt!) procentų duomenų analitiko darbo laiko. O aš iki tol galvojau, jog sunkiausia dalis – sugalvoti kaip ką su kuo kaip palyginti ar modeliuoti.

Antra pamoka: duomenys dažnai reiškia visai ne tai, ką tu galvoji, kad jie reiškia. Kažkurią savaitę krito vartotojų aktyvumas? Gal kaltos moksleivių atostogos, gal itin geras oras, o gal Vokietijoje prastėja ekonominė situacija. Gali būti, jog kažkas pakito svetainėje ir žmonės nebenori taip dažnai joje lankytis. Prielaidų gali būti labai įvairių, ir vien žiūrėdamas į plikus duomenis ne visada ką nors protingo išpeši. Visai gali būti, jog tiesiog tą savaitę buvo įvelta kokia nors klaida programiniame kode ir dalis duomenų buvo tiesiog prarasta – o to negalėtum atspėti, jeigu nepasiklaustum draugiškų programuotojų. Trumpai tariant: vien duomenų analizė kartais irgi būna bejėgė, reikia labai gerai žinoti visą kontekstą, kad galėtum suprasti, ką tie duomenys tau gali papasakoti.

Kita vertus, jeigu analitikai įdeda daug kruopštaus darbo į duomenų valymą, jų rinkimą ir gali būti tikri jų patikimumu, jeigu tikrai gerai išmano, ką tie duomenys gali reikšti, analizė gali papasakoti daug labai įdomių dalykų: nuo to, kuo skiriasi skirtingų vartotojų segmentų elgsena iki to, kaip vartotojus veikia vienas ar kitas tavo produkto pakeitimas. Kas smagiausia, jog turint daug vartotojų, visa tai galima stebėti ir daryti išvadas kone realiu laiku, o tai reiškia, jog galima operatyviai reaguoti ir daryti savo produkto korekcijas. Lyginant su ketvirtinėmis finansinėmis ataskaitomybėmis ar mėnesinėmis/savaitinėmis pardavimų ataskaitomis tai kosminis šviesos greitis. Tik visgi galioja tie esminiai „jeigu“: be kruopštaus darbo ir gero suvokimo pliki dideli duomenys savaime stogą nunešančių įžvalgų neatneš. Big data is hard, ok?.

Ar koreliuoja vyno skonis ir kaina?

Iš manęs vyno specialistas toks menkas, kad tikriausiai akluose testuose nesunkiai supainiočiau „Anykščių vyno“ serbentinį su prabangoku portugališku portu. Vyno aromatai, skoniai, poskoniai, vynuogės, taninai, spalvos ir branda man tokios pat tolimos sąvokos kaip nėrimo vąšeliu subtilybės ar keturtakčio variklio su turbina kompresija. Kitaip sakant, tikriausiai esu idealus vynų bandymų triušis.

Kolega Vaidas sugalvojo įdomų eksperimentą: surinkti (nevisai) atsitiktinę bendradarbių imtį ir jiems pasiūlyti paragauti keturių skirtingų vynų, kurių kainos skirtųsi nuo ~15 Lt iki ~100 Lt už butelį. Ragauti nežinant, kuris vynas yra kuris, ir po to išranguoti vynus pagal jų spėjamą kainą bei geriausią skonį. Pigiausias vynas nuo brangiausio skyrėsi net šešetą kartų, bet ar tikrai tarp jų yra šešių kartų kokybės skirtumas?

Geriame @ Vinted
Geriame @ Vinted

Vynai iš tiesų labai skyrėsi, kas man, nepatyrusiam somelje, buvo kiek netikėta – maniau, jog bus sunku susidaryti apie vyną nuomonę, nes jie bus daug maž identiški. Jie visi iš skirtingų regionų ir skirtingų vynuogių: tikriausiai jei būtume ragavę tuos pačius Pinot Noir iš ten pat kur jie ir auga (ar jau minėjau, kad apie vynus ne ką nutuokiu?) tai apsispręsti būtų buvę žymiai sunkiau.

Kad būtų viskas aiškiau tiems, kas vyną geria ne pirmą kartą, tai pateikiu vynų sąrašą su šiokiais tokiais ragavimo užrašais:

  • Podere Sapaio Volpolo Bolgheri DOC 2011 (98 Lt). Skani ir gera taurė, tokia, su kuria rinkčiausi praleisti gyvenimą. Išprususi, bet ne akademinė intelektualė – be visa ko moka ir save prisižiūrėti ir skoningai pasipuošti. Skaniai kvepia, su ja linksma. Šauni, bet neperžengianti ribų, išlaikyta.
  • Puglia Rosso (~15 Lt). Studentiška mergina miestietė, jau kiek pramokusi, galbūt nebe pirmo kurso. Mačiusi gyvenime daugiau nei ta nekalta mergelė iš kaimo, gana lengva ir miela, bet svarbu neužmegzti labai rimto pokalbio. Vienam vakarui puikiai tinka.
  • Domaine Bernard Baudry Les Granges Chinon AOP 2011 (52 Lt). Stipraus kvapo, bet tikrai ne kvepalų. Labai sofistikuota meniška siela, poetė ar tapytoja. Su ja galima turėti gilius (kartais tik pseudo-)intelektualius pokalbius, jeigu jos žavesio neužgoš neskustos pažastys. Mėgautis reikia atsakingai, piktnaudžiavimas tokiais dalykais prie gero nepriveda.
  • De Martino Legado Reserva Carmenere 2011 (44 Lt). Geras gėlių kvapas, bet tikrai ne prabangus. Paprasta kaip nekalta kaimo mergaitė, nesugadinta pasaulio ydų. Patikima. Bet pigoka. Naivi. Tokia, kurią pasiimtum į kaimo šokius.

Reitingavimo išvados visgi buvo džiuginančios: brangiausią ir pigiausią vyną vidutiniškai atspėjome puikiai (nors antra ir trečia vieta apsikeitė). Beje, visi daug maž vienodai priėjome nuomonės, jog brangiausiai vertiname vynus, kurie mums patiems labiausiai patinka, tad kainos spėjimą lėmė grynai skonio savybės. Nemanau, kad tarp vynų iš tiesų buvo 6 kartų kokybės skirtumas, bet šitą tikriausiai teks palikti išsiaiškinti kitiems eksperimentams. Pateikiu ir vertinimo rezultatus (vienetas reiškia „geriausias“, ketvertas – „prasčiausias“).

Vynų desgustavimo rezultatai
Vynų degustavimo rezultatai

Vinted ieško analitikų

Trumpai ir iš kart prie reikalo: ieškom protingų analitikų. Ieškom tokių žmonių, kuriems vien paminėjus žodį „duomenys“ akyse pradėtų žėrėti entuziazmas, kurie kasdien svajoja iš didelių duomenų chaoso užčiuopti prasmę, kurie nebijo pasiraitoti rankovių ir leistis į giliausius duomenų bazių užkaborius, nes ten gali slypėti ypač vertingos įžvalgos. Ieškom tų, kurių negąsdina SQL ir tų, kurie nebijo išmokti ką nors naujo. Tų, kuriems kasdien kyla įdomių klausimų, ir tų, kurie juos sugeba ne vien iškelti, bet ir išspręsti. Galų gale tų, kurie viskuo domisi ir kurie moka į pasaulį pažvelgti per skaičius ir statistiką.

Vinted („Mano drabužiai“) kompanijoje labai stipri duomenų kultūra: stengiamės, kad nei vienas reikšmingas sprendimas nebūtų priimtas nepagrindus jo duomenimis. Duomenų prirenkame nemažai, bet norim jų turėti dar daugiau: dešimtys terabaitų duomenų mums ne riba. Turint stiprią duomenų kultūrą, analitikai yra labai svarbūs visai kompanijai, nes tik jie gali iš gausos duomenų pateikti gilias įžvalgas ir taip padėti nuspręsti, kaip kompanija turi vystytis ateityje. O dirbti su sparčiai augančiu pasaulinio lygio produktu ir spręsti problemas, kurių dar niekas nėra sprendęs visada yra labai smagu.

Tad jeigu tai jus (ar jūsų pažįstamus) domintų, pasikalbam! Mano el. paštas petras AT vinted.com

Du dalykai, kurių mane išmokė nelistinguojamų investicijų valdymas

Su listinguojamais vertybiniais popieriais retai susiduriu jau gerus pusantrų metų, nuo tada, kai pradėjau dirbti „Invaldoje“. Iki tol visa mano karjera sukosi apie likvidžius (ar nelabai) vertybinius popierius, kuriais buvo prekiaujama biržose: nemažai laiko praleidau investuodamas į įvairaus plauko akcijas, dar metus-kitus mano duona buvo obligacijos. Nors iš pirmo žvilgsnio atrodytų, jog pirkti akcijas biržoje ir už biržos ribų neturėtų būti labai skirtinga, privataus kapitalo fondo ir investicinio fondo, perkančio likvidžias investicijas, valdymas labai skiriasi. Įgijus šiek tiek privataus kapitalo valdymo patirties, pasikeitė ir mano investavimo įpročiai.

Pirmiausia, nustojau skaityti „Bloomberg“ bei kitokias finansines naujienas. Dažniausiai jos yra visiškai nesvarbios, nors tą akimirką gal būt jos ir sukelia reikšmingus rinkos judėjimus. Anksčiau religingai sekdavau visus Federalinio Rezervų Banko pranešimus, perskaitydavau begales makroekonomikos apžvalgų, domėdavausi ketvirtiniais įmonių rezultatais ir karštligiškai stebėdavau brokerių pranešimus. Taip, investiciniai fondai turi žymiai trumpesnį investavimo horizontą (kad ir kas būtų parašyta jo prospekte) – kai fondo grynoji aktyvų vertė yra perskaičiuojama kas dieną, negali sau leisti prabangos atsilikti nuo indekso ar konkurentų, tad esi priverstas domėtis ne tuo, kas nulems tavo investicijos sėkmę ilguoju laikotarpiu, o trumpalaikiais veiksniais. Privataus kapitalo investicijos iš tiesų ilgalaikės, todėl maniakiškas kasdienis naujienų stebėjimas neprideda jokios vertės – didžiąja dalimi tai tik baltas triukšmas, kuriam skiriamas per didelis dėmesys. Visiškai nuo naujienų srauto, aišku, atsiriboti nereikia, bet tam, kad suvokti, kur eina ekonomika, pakanka tik retsykiais tuo pasidomėti: gal ir tiksliai negalėsi mintinai pasakyti, koks dabar nedarbo lygis JAV, ar kiek pelno paskutinį ketvirtį uždirbo „Goldman Sachs“, bet tikrai žinosi, ar esame recesijoje ar pakilime. O darant ilgalaikes investicijas to gal visai pakanka.

Kitas ryškus skirtumas, valdant privataus kapitalo investicijas – analizės gylis. Investiciniame fonde diversifikacijos reikalavimai verčia portfelyje turėti bent 20 kompanijų, o ir tos dažnai keičiamos, kai viena pabrangsta ar kita atpinga. Pridėjus tai, jog daug laiko sugaištama naujienų sekimui, labai giliai analizei laiko nelabai lieka. Privataus kapitalo fondai per metus padaro gal tik keletą investicijų ir tikrai žino, jog su jomis teks gyventi ne vienerius metus, todėl ir dėmesys fundamentaliajai analizei yra visiškai kito lygio: modeliai neapsiriboja brokerių atliktu srautų vertinimu bei paskaičiuotais santykiniais rodikliais, bet apima ir detalią konkurentų, rinkos, produktų, vadovų ir kitokią analizę. Jei valdydamas investicinius fondus maniau, jog tikrai giliai pažinojau kai kurias kompanijas, dabar to tikrai nesakyčiau. Ne, netgi valandos susitikimas su kompanijų vadovais konferencijose nieko nereiškia: dabar suprantu, kokie naivūs ir paprasti būdavo mano užduodami klausimai, nes tikrai nebuvau padaręs gilios analizės namų darbų.

Tad jei kada teks vėl valdyti investicinius fondus, pažadu sau mažiau domėtis vienadienėmis naujienomis, o tą laiką skirti gilesnei kompanijų analizei. Bent jau šiuo metu manau, kad tai teisingas kelias.