Machine learning’o projektuose sunkiausia ne techninė dalis

Buvęs LinkedIn duomenų analitikas Peter Skomoroch konferencijoje Strata skaitė neblogą pranešimą apie tai, kas sunkiausia įgyvendinant machine learning ar dirbtinio intelekto projektus. Ne, ne techninės kliūtys. Sunkiausia tai, kad labai sunku tokius projektus tiksliai suplanuoti ir subiudžetuoti – o ir jų nauda dažnai sunkiai įvelkama į skaičius (kvantifikuojama). Didelei korporacijai, kurioje visi įpratę IT projektus vykdyti griežtai subiudžetuotais projektais (nesvarbu, kad dauguma jų tuos biudžetus vis tiek ryškiai perlipa), sunku suprasti, jog beveik neįmanoma suprognozuoti, ar veiks algoritmas ar ne, bei kiek laiko užtruks jį ištreniruoti. Niekas negali pasakyti, kada jau bus galima į gyvenimą paleisti save vairuojančias mašinas: visos prognozės buvo labai netikslios (berods Uber kažkada seniai sakė, jog 2020-aisiais jie vairuotojų nebeturės ir važinėsime autonominėmis mašinomis. Vis dar mane namo veža žmonių valdomi Toyota Prius).

The transition to machine learning will be about 100x harder than the transition to mobile.
Some of the biggest challenges are organizational, not technical.
Machine Learning shifts engineering from a deterministic process to a probabilistic one.

Peter Skomoroch

Labai svarbu, kad machine learning projektams vadovautų žmonės, kurie gerai supranta kompanijos duomenis, o ne vien yra matematikos profesoriai. Geras projektų vadovas supranta, kas machine learning‘e yra lengva, o kas sunku, ir, net jei tai ne itin sudėtinga problema techniniu požiūriu, supranta ar ji turi verslo vertę. Gal būt visai neverta šiai problemai skirti dėmesio? Taip pat svarbu suprasti turimų duomenų niuansus ir kokybę – dažnai teoretiniai matematikai tai pražiūri, nes matematiniuose modeliuose visi duomenys vienodai geri ir kokybiški. Realybėje – ne itin.

Duomenys nebūtinai sukuria daug verslo vertės

Šiandien užtikau gerą straipsnį apie tokį požiūrį, su kuriuo, deja, gana dažnai susiduriu kompanijose: reikia surinkti kuo daugiau duomenų, viską bet kaip sudėti į duomenų bazę ir iš to vis tiek gausis kas nors gero. Na, žinai, gi ten machine learning, dirbtinis intelektas, visa kita gi šiais laikais. Svarbu duomenų būtų.

Didesnėse kompanijose tai dažnai galima suprasti: pinigų projektams kaip ir yra, norisi užsidėti varnelę, kad „kažką darai su dirbtiniu intelektu“, net jei ir nieko nesigaus, tai bent jau bandysi. Nesvarbu, kad nelabai aišku, kokia reali to nauda verslui, ir kas bandoma pasiekti. Bet tai, pasirodo, dažnai pasitaiko ir tarp startuolių: vietoje to, kad pastangas skirti klientų paieškai ar geresniems procesams, per daug koncentruojamasi į duomenis, lyg jie būtų ta magiška burtų lazdelė, kuri visus staiga padarys milijonieriais.

Straipsnyje galima rasti gerų patarimų ir įžvalgų, kurių niekada reiktų nepamiršti, dirbant su duomenų projektais:

  • Kokie yra duomenų gavimo kaštai? Būtina bent jau apytiksliai paskaičiuoti, kiek kainuoja visi duomenų inžinieriai, visi vadovai, kuriems reikia ataskaitų ir planų, visi serveriai, infrastruktūra, visų vadovų laikas, kurį jie praleidžia kasdieną stebėdami analitines ataskaitas vietoje to, kad galbūt galvotų, kaip užkariauti naujas rinkas ir geriau padėti klientams.
  • Kokią naudą mes gauname iš duomenų? Kas atsitiktų, jei vienos ar kitos ataskaitos ar algoritmo nebūtų? Kiek verslo vertės susideda iš to, kad turime tikslesnę informaciją ir ją galime greičiau pasiekti? Taip neretai galima suprasti, kad visgi lengviau paskambinti klientui ir jo paklausti, kas jį mūsų svetainėje trikdo nei valandų valandas praleisti Google Analytics bandant išskaityti gudrias įžvalgas.
  • Per kiek duomenys pasensta? Dažnai net nepastebima, kad kelių metų duomenys jau niekam neįdomūs ir netgi nelabai naudingi: klientų poreikiai pasikeitė, elgsena kitokia, žiūrėk jau ir Facebook ne toks visiems įdomus, aplinka nujudėjo visai kitur. Kai supranti, kad tavo duomenys labai greitai sensta ir vien jų kiekis nesukuria tvaraus konkurencinio pranašumo (nes bet kas, investavęs metus ar kitus darbo gali irgi įgyti ne ką mažiau panašių duomenų), jų nuolatinis atnaujinimas ir kiekybės siekimas vien dėl kiekybės nušvinta kitomis spalvomis. Gal verčiau mažiau duomenų, bet labai gerai atrinktų? Ir gal užtenka logistinės regresijos ir visai nereikia neuroninio tinklo su dešimt tūkstančių faktorių?

Goldman Sachs pardavimų principai

Neseniai perskaitytoje Goldman Sachs istorijoje man užkliuvo vieno iš jų vadovų suformuluotos taisyklės pardavėjams. Jomis Goldman Sachs bankas vadovavosi tuo metu, kai stengėsi įeiti į Europos rinką: aštuoniasdešimtaisiais jie Europoje tebuvo mažai kam žinoma amerikiečių kompanija, visiškai be klientų ir be jokios įvykdytų sandorių istorijos.

Taisyklės šios:

  1. Negaišk laiko stengdamasis atvesti klientą, kurio šiaip jau ir nelabai nori turėti.
  2. Dažniausiai sprendžia vadovas, o ne vidurinės grandies vadybininkas. Ar pažįsti tą vadovą?
  3. Gauti gerą klientą užtrunka beveik tiek pat laiko, kiek ir prastą.
  4. Kol kalbi, nieko naujo neišmoksti.
  5. Kliento tikslai yra žymiai svarbesni nei tavo paties.
  6. Vieno žmogaus pagarba yra žymiai vertingesnė nei paviršutinė pažintis su šimtu.
  7. Jei tik matosi galimybė gauti klientą – griebk jį!
  8. Svarbūs žmonės mėgsta bendrauti su svarbiais žmonėmis. Ar pats esi svarbus?
  9. Nieko nėra blogiau kaip nepatenkintas klientas.
  10. Jei atvedi klientą, tai iki pat galo turi rūpintis, kad jis viskuo liks patenkintas.

Charles D. Ellis: „The Partnership“

Skaičiau šią knygą keturis mėnesius. Nors ne. Pradėjau ją skaityti dar prieš dešimtmetį, vos tik jai išėjus. Tuomet jos nepabaigiau – buvo krizė, buvo kitų reikalų, o šis storas veikalas reikalavo daug dedikacijos: šiemet teko pradėti jį iš naujo. Po dešimtmečio įspūdžiai apie Goldman Sachs ir pačią finansų industriją kiek pasikeitę, nors knyga vis tiek patiko.

The Partnership yra knyga apie vieno (pačio) garsiausio investicinio banko Goldman Sachs istoriją. Joje išsamiai rašoma apie taip, kaip buvo kuriamos vienos ar kitos verslo linijos, kokiais principais buvo vadovaujamasi, kaip jiems pavyko įeiti į vieną ar kitą rinką ir panašiai. Daug spalvingų istorijų, daug pasakojimų, daug idealizmo – rašant knygą su autoriumi bendradarbiavo daug banko partnerių, tad tikriausiai nenuostabu, jog knyga gavosi labai teigiama, su sąlyginai mažai kritikos ir objektyvumo. Net ten, kur bankas padarė klaidų, pozityviai rašoma labiau apie tai, kas buvo išmokta, nei kritikuojamos klaidų priežastys. No regrets. Todėl skaitant The Partnership turi suprasti, kad istorijos, išdėstytos jos puslapiuose yra labiau apie tą idealųjį Goldman Sachs, tokį, kokį pats bankas norėtų save matyti, o ne tą realųjį Goldman Sachs, kaip jį mato kiti rinkos dalyviai. Bet, aišku, žinoti savo idealus irgi naudinga.

Senosios Goldman Sachs principai skamba neblogai, ir jais norėtųsi pačiam vadovautis savo versluose:

  1. Klientų interesai yra pats svarbiausias dalykas mūsų versle (galima tikrai daug ginčytis apie tai, jog šis banko principas buvo visiškai pamirštas pastaraisiais keliais dešimtmečiais, kai buvo intensyviai prekiaujama sava sąskaita prieš klientų interesus)
  2. Mūsų turtas yra žmonės, kapitalas ir reputacija. Jei bent vieną prarastume, sunkiausia atstatyti reputaciją.
  3. Profesionalumas viskame, ką darome: geriau būti mažu geriausiu nei vidutiniu didžiausiu.
  4. Naujų sprendimų ieškojimas: neapsiriboti tik tuo, ką darome įprastai, ieškoti naujų kelių.
  5. Kadangi esame paslaugų versle, samdome tik geriausius žmones. (iš tiesų, rašoma, jog neretai reikėdavo praeiti keliasdešimt interviu, kol būdavai priimamas į darbą)
  6. Darbuotojų meritokratija: jei sugebi, karjerai (ir pinigams) lubų nėra.
  7. Komandinis darbas: nėra vietos individualizmui. (Rašoma, kad bet kuriam darbuotojui, kuris pradėdavo manyti, jog jis vienas ką nors pasiekė, greitai būdavo parodomos durys. Viduje nebuvo priimtina sakyti „aš padariau tą ir tą“, būtinai reikėjo „mes padarėme tą ir tą“).
  8. Tikimasi, kad darbuotojai dirbs žymiai daugiau nei kitose kompanijose. Tinginiams ne vieta.
  9. Pelnas užtikrina veiklos tęstinumą. Verslas turi būti pelningas. Pelnu nesunku dalintis su tais, kurie prisidėjo prie jo padarymo. Jei verslas nepelningas, tai tokio verslo nereikia (kontrastas su startuoliais nemenkas!)
  10. Reikiamas komandos ir turto dydis: reikia būti pakankamai dideliu, kad galėtum paimti didelius ir pelningus projektus, bet pakankamai mažu, kad nesustabarėtum.
  11. Kadangi finansų sektorius nestovi vietoje, visada turime galvoti apie naujus klientų poreikius ir patiems neužsisėdėti ties senomis idėjomis.
  12. Savo versle gauname daug konfidencialios informacijos: jokiu būdu negalime ja pasinaudoti savo ar kitų klientų reikmėms. Pasitikėjimas yra svarbiausia vertybė ir jei jį prarasime, viską prarasime.
  13. Nors mūsų versle daug konkurencijos ir mes agresyviai norime plėsti klientų ratą, su konkurentais turime elgtis teisingai ir jų nežeminti.
  14. Tikimės, kad darbuotojai elgsis sąžiningai tiek darbe, tiek asmeniniame gyvenime.

Vienas iš įdomiausių kertinių veiklos principų pradžioje buvo visiškas vidinio politikavimo netoleravimas: jei kas pradeda politikuoti, iš karto atsisveikina su darbu. Tiesa, bankui augant, tokių principų nebebuvo galima išlaikyti. Kas tinka mažai kompanijai, nebūtinai realu didesnei.

Ar jums tikrai reikia besimokančių (machine learning) sistemų?

Žiūrėk, turim duomenų, gal galėtumėt ką nors padaryt su machine learning ar dirbtiniu intelektu? Juk čia gi dabar ateitis“ – labai dažnas šiuolaikinis prašymas iš potencialių klientų. Neretai pasirodo, kad realių problemų sprendimui nereikia nei gudrių algoritmų, nei dirbtinio intelekto: didžioji vertė iš duomenų išspaudžiama žymiai paprastesnėmis priemonėmis, vien tik sutvarkius duomenis ar pasinaudojant senais gerais statistikos įrankiais. Kita vertus, logistinės regresijos terminai panašiai kaip ir bet kokios diskusijos apie neuroninius tinklus: nei apie vienus, nei apie kitus nedaug kas girdėjęs.

Problema tame, kad dirbtinis intelektas ir besimokančios sistemos yra dažnai minimos tokiose stebuklinguose kontekstuose, kad paprastas žmogus vargu ar gali suprasti, kad, nepaisant visų pastarųjų metų pasiekimų, jos nėra visagalės. Taip, jos gali atpažinti objektus paveiksliukuose, taip, jog pusėtinai gali išversti vienos kalbą į kitą, taip, jog gali kūrybiškai imituoti meno kūrinius. Ne, besimokančios sistemos dar negreit sukurs naują Nobelio literatūros kūrinį, ne, jos nesugalvos jums naujos verslo strategijos, ne, jūsų atsitiktinė duomenų sankaupa netaps aukso grynuoliu, nešančiu jums milijonus vien todėl, kad nutarėte investuoti į dirbtinį intelektą.

Vienas geriausių kriterijų, kuris labai greitai atmeta visas dirbtiniam intelektui kol kas neįkandamas idėjas yra užduoti sau klausimą, ar su norima spręsti užduotimi susidorotų paprastas žmogus. Jei žmogus duomenyse gali atrasti paaiškinamus sąryšius bei dėsnius, tai yra šansų, kad tai galės atlikti ir dirbtinis intelektas, nors to garantuoti negalima. Jei žiūri į klientų duomenis, ir pradedi suprasti dėsningumus, tuos dėsningumus galbūt atras ir besimokančios sistemos. O jei duomenys nieko nesako net protingiausiam žmogui, tikėtina, jog nieko protingiau nesugalvos ir dirbtinės sistemos.

Panašios nuomonės yra ir šio dienoraščio autorius. Jis gal dar griežtesnis: jei įmanoma duomenis perkratyti statistinės analizės pagalba ir jų ryšius aprašyti matematinėmis formulėmis, dirbtiniam intelektui – ne vieta. Nors suprantu, jog riba tarp sudėtingos statistikos ir besimokančių sistemų kartais nebe tokia ir aiški.

Kad ir kaip ten bebūtų, duomenys atneša daugiausiai verslo vertės, kai yra labai aiškiai suprantama, ką su jais norima padaryti ir kai yra užduodami teisingi verslo klausimai. Vien perleidus atsitiktinių duomenų rinkinį per dirbtinio intelekto algoritmus, verslo įžvalgų grynuolio nerasi. Garbage in, garbage out.

Neapdorotų duomenų nebūna

Yra toks gana gajus mitas, kad turint „žalius“ neapdorotus duomenis, galima nesunkiai padaryti objektyvias išvadas – juk neapdoroti duomenys turėtų kalbėti už save, jie neturėtų būti „sutepti“ šališkos žmogiškos nuomonės bei išankstinių nusistatymų. Kuo daugiau neapdorotų duomenų, tuo objektyvesnės išvados. Deja, visiškai neapdorotų duomenų nebūna. Jau pats faktas, kad kažkas juos rinko, reiškia, kad kažkas padarė sprendimą jais domėtis: o kodėl rinko būtent taip, o ne kitaip? Kodėl rinko tokius, o ne anokius? Kodėl skaičiavo žmones, o ne mašinas; kodėl išmetė iš skaičiavimų vaikus ar žmones vežimėliuose, kodėl nusprendė, jog tamsoje duomenys nepatikimi? Net jei duomenis renka automatiniai prietaisai (tarkim, kas kažkiek laiko skaičiuojama temperatūra), duomenys fiksuojami su aiškia paklaida, kuri nustatyta matavimo įrenginio specifikacijoje – pats įrenginys kažkiek matavimą apvalina, kažkiek veikia nepatikimai už tam tikrų temperatūros rėžių. Jei nežinosi šio konteksto, gali padaryti išvadą, kad temperatūra būna stabili (tiesiog nematai temperatūros pokyčių, mažesnių nei vienas laipsnis) ar ji niekada nenukrenta žemiau -20˚C.

Ypač sunku teisingai interpretuoti skaičius, kurie susiję su žmogumi. Nusikaltimų skaičius gali augti jau vien dėl to, kad pasikeitė suvokimas, kas yra nusikaltimas (tarkim, anksčiau gal buvo visuomenėje priimta, kad vaikus mušti ir tai nebuvo laikoma nusikaltimu). BVP ar infliacijos skaičiai gali kisti dėl metodologinių paklaidų. Pajamų duomenys, surinkti apklausos būdu, smarkiai skirsis nuo duomenų, gautų iš mokesčių inspekcijos.

Simply put, the context of data — why it was collected, how it was collected, and how it was transformed — is always relevant. There is, then, no such thing as context-free data, and thus data cannot manifest the kind of perfect objectivity that is sometimes imagined.

https://www.thenewatlantis.com/publications/why-data-is-never-raw

Šiuolaikinė „didelių duomenų“ mada bando įteigti, jog žali duomenys yra patys objektyviausi, nes jie neužteršti išankstinėmis nuostatomis. Kuo daugiau tokių duomenų, kuriuos galima sušerti taipogi labai objektyviam algoritmui, tuo teisingesnės išvados – ir tam net nereikia jokių ekspertų, mat jie tik įneš savo (nebūtinai teisingą) išankstinę nuomonę. Žmonėmis negalima pasitikėti dėl jų subjektyvumo: nuo to gali išgelbėti tik daugybė duomenų. Bet toks pasaulio vaizdas visgi yra utopinis: jei atvirai nedeklaruoji savo prielaidų, nereiškia, jog jų nedarai. Nematomos subjektyvios prielaidos duomenyse atsiranda jau jų rinkimo procese, ir to niekaip neišvengsi. Ką matuoji, tą ir optimizuosi. Duomenys už save nekalba, jie atkartoja duomenų rinkėjų nuomones.

Pietauji be telefono – vaikai valgo nemokamai

Fatherly rašo:

Parents who give up their phones during dinner will be rewarded with free meals for their kids at one U.K.-based restaurant chain. For the first week of December, Frankie & Benny’s is running its “no-phone zone” campaign in an attempt to improve family interactions at the dinner table.

Fatherly.com

Lankantis restorane, tėvai galės palikti telefonus specialiose dėžutėse; po apsilankymo telefonai bus grąžinti, o vaikų suvalgyti patiekalai bus neįtraukti į sąskaitą. Idėja tikrai nebloga – dažnai nelengva atsiplėšti nuo ekrano, o juk laikas su šeima yra labai svarbus.

Tiesa, tikriausiai tokios iniciatyvos nebūtų gimę, jeigu Didžiosios Britanijos ekonomika išgyventų puikius laikus: restoranų verslui šiuo metu ypač nelengva. Mažėjant vartojimui, ne pirmo būtinumo prekių pardavimai kenčia labiausiai. Tokia akcija realiai yra kainos nuolaida klientų grupei su vaikais – o su gera marketingo idėja ji gali puikiai pasiteisinti.

O namie irgi norėtųsi turėti taisyklę, jog prie stalo telefonų nebūna. Tik tai ne visada lengva įgyvendinti.

Geriausias konkurencinis pranašumas skaičiais neišmatuojamas

Keletas gerų minčių iš David Perell Twitterio apie marketingą ir verslo metrikas:

The invention of the spreadsheet transformed marketing and corporate decision making. We’re over-reliant on numbers and metrics. We assume that only what we can measure is real and everything that is real can be measured. One writer calls this the Arithmocracy: a powerful left-brained administrative caste which attaches importance only to things which can be expressed in numerical terms or on a chart.

[…] “Not everything that counts can be counted and not everything that can be counted counts.

David Perell, https://twitter.com/david_perell/status/1056966027752431618

Pasaulyje, kuriame visi kreipia dėmesį tik į duomenis ir skaičius, geriausia konkurencinio pranašumo ieškoti būtent ten, kur jis neišmatuojamas. Ir nors duoną uždirbu žiūrėdamas į skaičius, su verslo metrikomis irgi galima persūdyti.

Tamara Shopsin: „Stupid Arbitrary Goal“

Pasirodo, Niujorke yra žymus kišenės dydžio restoranas Shopsin’s, kuris gyvuoja jau ne vieną dešimtmetį. Deja, jo įkūrėjas šiais metais mirė, o ši jo dukters knyga yra istorijų ir prisiminimų rinkinys apie jį patį ir jo žymųjį restoraną.

O restoranas žymus visai ne tuo, kad ten dirba aukščiausio lygio virėjai ar baltomis pirštinėmis vilkintys padavėjai – priešingai, jame visada galėjai rasti išsidrėbusį rajono keistuolį, būti apšauktas, kad nežinai ko nori ir „išbanintas“ dėl to, kad kur nors parašei šio restorano apžvalgą (net ir labai teigiamą!). Šiam restorano savininkui klientų ir taip pakako, jis turėjo kiek kitokį požiūrį į pinigus ir gyvenimo filosofiją. Net kai vienu metu buvo proga už vienodą kainą nusipirkti dvejas patalpas toje pačioje gatvėje – vienas didesnio ploto ir su nauja įranga, o kitas mažesnes ir su nudėvėtomis lentynomis, Shopsin nusipirko mažesnes. Nes jos per kelis šimtus metrų arčiau namų.

Visa ši knyga yra puikių Niujorko gyvenimo anekdotų rinkinys, kurio tiesiog negali padėti į šalį. Prarijau per kelis labai malonius lengvo skaitymo vakarus.

Phil Knight: Shoe Dog

Turbūt nėra žmogaus, kuris nebūtų girdėjęs apie kompaniją Nike: tai vienas stipriausių prekinių ženklų. Jos įkūrėjo Phil Knight memuarai labai asmeniški bei nuoširdūs: čia daugiau asmeninių išgyvenimų nei verslo gudrybių ar strategijos. Gal dėl to ši knyga ir yra tokia patraukli: žmogus, sukūręs tokią žymią kompaniją, apie savo nueitą kelią pasakoja jautriai, paprastai ir žmogiškai. Buvo ir klaidų, nemažai suklupimų, paklydimų, kartais ir pykčio, išdavysčių, per mažai dėmesio aplinkiniams žmonėms, mažai laiko šeimai, mažai laiko sau.

Didelės kompanijos sėkmė neateina per vieną dieną, neateina ji ir per dešimtmetį. Net ir tokia sėkminga kompanija kaip Nike visada vaikščiojo ant peilio ašmenų ir tik atsitiktinumo dėka jai vis pavykdavo išlaviruoti. Suvaldžius vieną krizę, kaip mat iškyla kita: jei jau išsprendei kontrakto problemas su tiekėju, tai tave atsisako aptarnauti bankas, jei užglaistei nesklandumus su banku, tave muitinei paskundžia konkurentai, jei per teismus įrodei, kad muitinė neteisi, tave palieka tavo svarbiausias darbuotojas. Visoms toms problemoms spręsti reikia neregėto atkaklumo, stiprių nervų, kartais tiesiog įžūlios drąsos ir nemažai atsitiktinės sėkmės.

Įdomi buvo ir Phil Knight verslo patirtis su Japonijos partneriais. Darant verslą su kitos kultūros žmonėmis gali nutikti daug visokių netikėtumų, tad tam reikia būti pasiruošus.