Wexler, Shaffer, Cotgreave: The Big Book of Dashboards

Dirbant su duomenimis ir neturint didelės menininko gyslelės man kartais trūksta teorinių žinių apie grafikų dizaino teoriją, spalvas bei bendrą „user experience“. Kai greitai sumetinėji grafikus Excelyje, tai gal tai ne taip stipriai jaučiasi, bet kai reikia sukurti kažką sudėtingesnio, reikia ieškoti pagalbos knygose. „The Big Book of Dashboards“ pradžiai tam visai tinka.

Knygos stipriausia dalis yra tie keli skyriai apie pagrindus: kodėl niekada nereiktų naudoti skritulinių diagramų, kodėl reikia žūt būt vengti šviesoforo spalvų (daltonikai jų neskiria), kodėl reikia vengti per didelio informacijos kiekio vienoje vietoje ir panašiai. Kuriant įvairiausias ataskaitas visada pirmiausia reikia išsiaiškinti klientų klausimus, kuriuos turėtų atsakyti duomenys ir ataskaitų struktūrą taikyti prie jų. Žinau, skamba lyg akivaizdžių ir paprastų tiesų kartojimas, bet realybėje tai ne taip lengvai pasiekiama. Negana to, ataskaitos turėtų numatyti ir tolimesnius klausimus, kurie gali kilti klientams: jeigu ataskaitos grafikas rodo, kad pardavimai Latvijoje mažesni nei užsibrėžtas tikslas, tikriausiai vartotojui kils klausimas kodėl? – Tikriausiai reikia ir būdo, kaip probleminį regioną išskaidyti pagal vadybininką arba prekių grupę, o išskaidžius „tooltipe“ (koks to teisingas lietuviškas pavadinimas? Etiketė?) pateikti ir išsamias detales: kiek ko kada parduota.

Daugiau nei pusė knygos yra įvairių ataskaitų pavyzdžiai, ir, nors jos tikrai įdomios, bet greitai pradeda kartotis, juolab, kad visas jas kūrė tie patys knygos autoriai. Po keletos ataskaitų jau mintinai žinai, kuriuos grafinius elementus ir dizaino sprendimus jie mėgsta. Būtų žymiai geriau, jei knygoje būtų daugiau tvirtos teorijos. Bet bendrai tariant, knyga verta dėmesio, ypač jei tai pirmoji šia tema skaitoma knyga.

Duomenų analitiko darbas dažniausiai yra duomenų valymas

Turbūt didžiausias skirtumas tarp mokykloje ar universitete darytų duomenų analizių ir realaus pasaulio yra turimų duomenų kokybė. Rašėm savaitgaliais magistrinius darbus, pasižiūrėdami į kursiokų failus darėm „statistikos laboratorinius“, sprendėm uždavinius bei iš vadovėlio atkartojom nelabai suprantamas ekonometrinius modelius – ir  beveik visada duomenys buvo duotybė. Ar tai būtų BVP augimo eilutė iš Statistikos departamento, ar Olimpiadų medalių suvestinė: beveik visada duomenys buvo švarūs, tvarkingi, be klaidų, be neužpildytų eilučių, be praleistų kablelių, romėniškų skaitmenų, sunkiai įskaitomo buhalterės Janinos rašto ir pasimetusių sąskaitų-faktūrų. Tereikėdavo tuos duomenis paimti, sudėti į modelį, sukalbėti kelis užkeikimus ir gaudavai vienintelę teisingą p reikšmę ir iš to sekančią išvadą. Didesnis nedarbas yra mažesnė infliacija. Narystė Europos Sąjungoje didina akcijų kainas. Marytė suvalgo daugiau obuolių nei Jonukas.

Skirtingai nei universitete, realybėje duomenys beveik niekada nebūna aiškūs ir tvarkingi. Dažniausiai tau reikiamų duomenų tiesiog nėra (ar daug kas kaupia duomenis apie kiekvienos fizinės parduotuvės kasvalandinį lankytojų srautą?). Jeigu jų galima rasti – jie nepatikimi, nes iki galo nežinai, ar kiekviena apskaitininkė visose Baltijos šalyse prieš penkerius metus vienodai koduodavo gautas sąskaitas. Jeigu jais galima pasitikėti, jie tikriausiai būna nepilni – vienur trūksta detalumo, kitur kažkas nusimušę, trečioje vietoje duomenys nepasiekiami, nes jie nesuskaitmenizuoti. Jau nekalbu apie tai, kad visur yra ir žmogiškas faktorius: kažkur vardas įvestas į pavardės grafą, kažkas sumas vietoje eurų įrašė litais. Kuo daugiau duomenų (ir ypač jei kalbam apie didelius duomenis be struktūros) tuo didesnė duomenų analitiko darbo laiko dalis yra ne sudėtingas duomenų modeliavimas ar rezultatų interpretavimas, o duomenų tvarkymas bei paruošimas analizei. Sakoma, kad šiam kruopščiam ir nuobodokam darbui analitikai sugaišta nuo 50 iki 80 procentų savo darbo laiko.

Gerai sutvarkyti duomenys yra aukso vertės. Tai tokie duomenys, kuriuose nebėra erdvės interpretacijoms, kuriuose nelikę klaidų ir kuriais tvirtai galima remtis darant verslo sprendimus. Tik juos išvalius galima kurti sudėtingus modelius bei algoritmus, o iki tol reikia praleisti ne vieną valandą rymant prie duomenų kokybės. Toks analitiko darbas.

Negalima pasitikėti tuo, ką skaitai apie maisto naudą ar žalą

„Įrodyti“, kad vienas ar kitas maisto produktas yra labai sveikas ar didina grėsmę ligoms yra labai labai LABAI sunku. Todėl ir tiek konfliktuojančių teorijų bei madingų dietų. O gal tiesiog geriausia nekreipti į nieką dėmesio ir valgyti tai, kas patinka.

Šaltinis: You Can’t Trust What You Read About Nutrition | FiveThirtyEight

Kelionės trukmės žemėlapis Vilniuje

Vakar sėdėdamas kasdieniame Vilniaus kamštyje ir prisiminęs ryte skaitytą straipsnį apie paskutines vizualizacijos madas sugalvojau pabraižyti kelionės trukmių žemėlapį: gal čia tik man taip prastokai sekasi, kad tenka keliauti iš Lazdynų į Žirmūnų pabaigą. Per Google Maps API programiniu būdu gana nesunkiai galima išsitraukti planuojamą kelionės trukmę tarp kelių taškų (juos galima nurodyti ir geografinėmis koordinatėmis), tada duomenis sudėti į duomenų bazę ir su Tableau įvairiomis spalvomis perkelti ant žemėlapio. Žemėlapyje vaizduojama kelionės trukmė nuo Jonažolių gatvės Lazdynuose – pasirinkau savo namų atskaitos tašką: kuo žaliau, tuo kelionės trukmė trumpesnė, o kuo raudoniau, tuo keliauti teks ilgiau. Duomenys rinkti antradienio 10.00-10.30 valandą, tad kamščiai jau turėjo būti išsisklaidę.

Kelionės trukmė nuo Jonažolių gatvės
Kelionės trukmė nuo Jonažolių gatvės

Rezultatai gana gražūs ir labai aiškiai parodantys aplinkelių naudą: iš Lazdynų į Pilaitę, Pašilaičius ar Justiniškes patekti nesunku, lygiai taip kaip ir iki oro uosto. Užtat Žirmūnai, Antakalnis ir viskas į rytus nuo šiaurinės Geležinio Vilko gatvės dalies yra lyg kitas miestas: ten dominuoja geltona ir raudonos spalvos. Nors, ne piko metu skųstis nereiktų, mat vis tiek didžiausia prognozuojama kelionės trukmė automobiliu yra maždaug pusvalandis. Tiesa, piko metu vaizdas tikriausiai daug blogesnis: neretai pačiam tenka kamštyje prasėdėti virš valandos.