Machine learning’o projektuose sunkiausia ne techninė dalis

Buvęs LinkedIn duomenų analitikas Peter Skomoroch konferencijoje Strata skaitė neblogą pranešimą apie tai, kas sunkiausia įgyvendinant machine learning ar dirbtinio intelekto projektus. Ne, ne techninės kliūtys. Sunkiausia tai, kad labai sunku tokius projektus tiksliai suplanuoti ir subiudžetuoti – o ir jų nauda dažnai sunkiai įvelkama į skaičius (kvantifikuojama). Didelei korporacijai, kurioje visi įpratę IT projektus vykdyti griežtai subiudžetuotais projektais (nesvarbu, kad dauguma jų tuos biudžetus vis tiek ryškiai perlipa), sunku suprasti, jog beveik neįmanoma suprognozuoti, ar veiks algoritmas ar ne, bei kiek laiko užtruks jį ištreniruoti. Niekas negali pasakyti, kada jau bus galima į gyvenimą paleisti save vairuojančias mašinas: visos prognozės buvo labai netikslios (berods Uber kažkada seniai sakė, jog 2020-aisiais jie vairuotojų nebeturės ir važinėsime autonominėmis mašinomis. Vis dar mane namo veža žmonių valdomi Toyota Prius).

The transition to machine learning will be about 100x harder than the transition to mobile.
Some of the biggest challenges are organizational, not technical.
Machine Learning shifts engineering from a deterministic process to a probabilistic one.

Peter Skomoroch

Labai svarbu, kad machine learning projektams vadovautų žmonės, kurie gerai supranta kompanijos duomenis, o ne vien yra matematikos profesoriai. Geras projektų vadovas supranta, kas machine learning‘e yra lengva, o kas sunku, ir, net jei tai ne itin sudėtinga problema techniniu požiūriu, supranta ar ji turi verslo vertę. Gal būt visai neverta šiai problemai skirti dėmesio? Taip pat svarbu suprasti turimų duomenų niuansus ir kokybę – dažnai teoretiniai matematikai tai pražiūri, nes matematiniuose modeliuose visi duomenys vienodai geri ir kokybiški. Realybėje – ne itin.

Neapdorotų duomenų nebūna

Yra toks gana gajus mitas, kad turint „žalius“ neapdorotus duomenis, galima nesunkiai padaryti objektyvias išvadas – juk neapdoroti duomenys turėtų kalbėti už save, jie neturėtų būti „sutepti“ šališkos žmogiškos nuomonės bei išankstinių nusistatymų. Kuo daugiau neapdorotų duomenų, tuo objektyvesnės išvados. Deja, visiškai neapdorotų duomenų nebūna. Jau pats faktas, kad kažkas juos rinko, reiškia, kad kažkas padarė sprendimą jais domėtis: o kodėl rinko būtent taip, o ne kitaip? Kodėl rinko tokius, o ne anokius? Kodėl skaičiavo žmones, o ne mašinas; kodėl išmetė iš skaičiavimų vaikus ar žmones vežimėliuose, kodėl nusprendė, jog tamsoje duomenys nepatikimi? Net jei duomenis renka automatiniai prietaisai (tarkim, kas kažkiek laiko skaičiuojama temperatūra), duomenys fiksuojami su aiškia paklaida, kuri nustatyta matavimo įrenginio specifikacijoje – pats įrenginys kažkiek matavimą apvalina, kažkiek veikia nepatikimai už tam tikrų temperatūros rėžių. Jei nežinosi šio konteksto, gali padaryti išvadą, kad temperatūra būna stabili (tiesiog nematai temperatūros pokyčių, mažesnių nei vienas laipsnis) ar ji niekada nenukrenta žemiau -20˚C.

Ypač sunku teisingai interpretuoti skaičius, kurie susiję su žmogumi. Nusikaltimų skaičius gali augti jau vien dėl to, kad pasikeitė suvokimas, kas yra nusikaltimas (tarkim, anksčiau gal buvo visuomenėje priimta, kad vaikus mušti ir tai nebuvo laikoma nusikaltimu). BVP ar infliacijos skaičiai gali kisti dėl metodologinių paklaidų. Pajamų duomenys, surinkti apklausos būdu, smarkiai skirsis nuo duomenų, gautų iš mokesčių inspekcijos.

Simply put, the context of data — why it was collected, how it was collected, and how it was transformed — is always relevant. There is, then, no such thing as context-free data, and thus data cannot manifest the kind of perfect objectivity that is sometimes imagined.

https://www.thenewatlantis.com/publications/why-data-is-never-raw

Šiuolaikinė „didelių duomenų“ mada bando įteigti, jog žali duomenys yra patys objektyviausi, nes jie neužteršti išankstinėmis nuostatomis. Kuo daugiau tokių duomenų, kuriuos galima sušerti taipogi labai objektyviam algoritmui, tuo teisingesnės išvados – ir tam net nereikia jokių ekspertų, mat jie tik įneš savo (nebūtinai teisingą) išankstinę nuomonę. Žmonėmis negalima pasitikėti dėl jų subjektyvumo: nuo to gali išgelbėti tik daugybė duomenų. Bet toks pasaulio vaizdas visgi yra utopinis: jei atvirai nedeklaruoji savo prielaidų, nereiškia, jog jų nedarai. Nematomos subjektyvios prielaidos duomenyse atsiranda jau jų rinkimo procese, ir to niekaip neišvengsi. Ką matuoji, tą ir optimizuosi. Duomenys už save nekalba, jie atkartoja duomenų rinkėjų nuomones.

Katherine Ormerod: „Why Social Media is Ruining Your Life“

Su šia knyga kiek apsigavau: per kažkurį podcastą kažką nugirdęs apie populiarią knygą apie blogą socialinių tinklų įtaką iki galo neįsidėmėjau nei pavadinimo, nei autorės. Tad knygyne pamatęs kažką panašaus, griebiau nuo lentynos ir per daug nesigilinęs, nusipirkau. Gavau ne visai tai, ko tikėjausi, bet visgi buvo verta. Tiesa, gal daugiau dėl keliamų klausimų bei problemų, nei dėl siūlomų sprendimų, kurie pasirodė ganėtinai naivoki ir per daug paviršutiniški.

Nors tikėjausi knygos apie nuomonių radikalizaciją, trolinimą, fake news bei buką turinį, gavau knygą apie tas man ganėtinai menkai pažįstamas problemas, kurias socialiniai tinklai kelia moterims ir merginoms: ir tai buvo tikrai nemenkas išėjimas už mano burbulo ribų. Kalbama apie patyčias, depresiją, savivertės sumažėjimą, apie aplinkos spaudimą, norą visiems patikti (ir nusivylimą nesulaukus pakankamos reakcijos).

Ne dažnas supranta, kad Instagram, Facebook ir kiti socialiniai tinklai neatspindi realybės: juose galima rasti tik gražias, filtruotas nuotraukas iš atostogų, vakarėlių ir kitų gražaus gyvenimo akimirkų. Ten nerasi ašarų, nerasi niūrios kasdienybės, visi stengiasi pateikti tik linksmąją savo pusę. O kai kasdien peržiūri keliasdešimties savo pafotošopintų draugių atostogų nuotraukas, gali pasirodyti, jog visas pasaulis yra linksmas, lieknas, tobulas – visas, išskyrus tave. Nes tu sėdi tamsoje vieniša, užsiknisusi buityje, galbūt su klykiančiu vaiku, su taure vyno rankoje ir skrolini. Visi laimingi, visi tolubi, išskyrus tave. Tu – vienintelė lūzerė. Bandant gyventi instagraminį gyvenimą pradedi būti nepatenkintas savo kūnu, savo gyvenimo būdu, savo daiktais, savo padėtimi. Ypač jei seki influencerius, kuriems, atrodo, prabangūs viešbučiai, jachtos ir automobiliai yra kasdienybė. Tada imi ir metams pasiimi vartojamą paskolą, tam kad galėtum susikurti savo svajonių atostogas ir bent jau vieną kartą savo draugams galėtum pateikti tobulų palmių nuotraukų. Šekit! Kaip jūsų pirmadienis ofise?

Panašiai yra ir su internetine motinyste: forumuose gal ir sulauksi pagalbos, bet juos ir labai stiprus spaudimas būti tobulai mamai. Nebeužtenka, kad tavo vaikas pavalgęs ir aprengtas, jis turėtų valgyti tik labai sveiką maistą, būtinai turi būti gimęs natūraliu būdu ir be epidūro, nuo trečio mėnesio lankyti japonų kalbos pamokas ir programuoti jei ne asembleriu, tai bent jau Exceliu. Forumuose visos tokios tobulos ir pasišventę, jog atrodo joms nėra sunkių dienų (tai aišku, kad vaiką reikia nešioti ant rankų jeigu jis to nori iki pat 8-ojo gimtadienio ir jam niekada nesakyti „ne“!) Būnant tokiame burbule labai greitai save galima nuteisti kaip nepakankamai gerą mamą. O juk viskas gerai, nereikia taip visko sureikšminti.

Knyga galėjo būti žymiai stipresnė, jeig visgi būtų užduotas klausimas, kodėl mums iš viso reikia tokios stiprios validacijos iš beveik nepažįstamų žmonių? Kodėl mes nebegalime būti savimi ir dalintis su draugais ne itin tobulomis nuotraukomis, nebijodami būti užbadyti pirštais? Visi socialiniai tinklai tapo „asmeninio prekinio ženklo“ kūrimo įrankiais, bet kodėl mums iš viso reikia būti tais asmeniniais prekiniais ženklais? Ką mes bandome parduoti?

Aš pats Facebook’e nebeplatinu šio dienoraščio įrašų: turint platoką auditoriją (turėjau kelis tūkstančius sekėjų) rašyti tapo sunku, nes jauti kažkokį įsipareigojimą. Žymiai ramiau, kai gali rašyti (beveik) tik sau.

Nauji dalykai, kuriais džiaugiesi tapus tėčiu

Pirmas garsus vaiko klyksmas tik atėjus į pasaulį, nes žinai, kad nuo šiol viskas bus kitaip;

Pirma tylos minutė po kelių valandų klyksmo vaikui pagaliau užmigus, nes gal galėsi gauti akimirką atokvėpio;

Pirma plati vaiko šypsena vos ryte tave pamačius, nes ji nubraukia visą susikaupusį nuovargį ir bemiegę naktį;

Laisvas pusvalandis, kai vaikas dieną miega, nes galima vėl veikti tai, kas prieš buvimą tėčiu buvo visiškai įprasta;

Laisva minutė su žmona, kai vaikas miega ramiai ir nebesiveja buitis, nes galima tiesiog pabūti kartu nieko neveikiant;

Kartais pasitaikančios stebuklingos naktys, kai neprabudęs gali išsimiegoti bent šešias valandas;

Pilnos vaiko sauskelnės ir garsus oro gadinimas, nes tai didina šių stebuklingų naktų tikimybę;

Švelnus pavargusios dukros prisiglaudimas tau prie krūtinės paėmus ją ant rankų;

Aplinkinių dėmesys, kai išdidžiai su dukra rankose žygiuoji per Gedimino prospektą;

Tave vis sekantis dukros žvilgsnis, kai tik įeini į kambarį, lyg tu būtum pats įdomiausias dalykas visatoje;

Kiekviena nauja diena, kuri atneša kažką naujo.