Machine learning’o projektuose sunkiausia ne techninė dalis

Buvęs LinkedIn duomenų analitikas Peter Skomoroch konferencijoje Strata skaitė neblogą pranešimą apie tai, kas sunkiausia įgyvendinant machine learning ar dirbtinio intelekto projektus. Ne, ne techninės kliūtys. Sunkiausia tai, kad labai sunku tokius projektus tiksliai suplanuoti ir subiudžetuoti – o ir jų nauda dažnai sunkiai įvelkama į skaičius (kvantifikuojama). Didelei korporacijai, kurioje visi įpratę IT projektus vykdyti griežtai subiudžetuotais projektais (nesvarbu, kad dauguma jų tuos biudžetus vis tiek ryškiai perlipa), sunku suprasti, jog beveik neįmanoma suprognozuoti, ar veiks algoritmas ar ne, bei kiek laiko užtruks jį ištreniruoti. Niekas negali pasakyti, kada jau bus galima į gyvenimą paleisti save vairuojančias mašinas: visos prognozės buvo labai netikslios (berods Uber kažkada seniai sakė, jog 2020-aisiais jie vairuotojų nebeturės ir važinėsime autonominėmis mašinomis. Vis dar mane namo veža žmonių valdomi Toyota Prius).

The transition to machine learning will be about 100x harder than the transition to mobile.
Some of the biggest challenges are organizational, not technical.
Machine Learning shifts engineering from a deterministic process to a probabilistic one.

Peter Skomoroch

Labai svarbu, kad machine learning projektams vadovautų žmonės, kurie gerai supranta kompanijos duomenis, o ne vien yra matematikos profesoriai. Geras projektų vadovas supranta, kas machine learning‘e yra lengva, o kas sunku, ir, net jei tai ne itin sudėtinga problema techniniu požiūriu, supranta ar ji turi verslo vertę. Gal būt visai neverta šiai problemai skirti dėmesio? Taip pat svarbu suprasti turimų duomenų niuansus ir kokybę – dažnai teoretiniai matematikai tai pražiūri, nes matematiniuose modeliuose visi duomenys vienodai geri ir kokybiški. Realybėje – ne itin.

Duomenys nebūtinai sukuria daug verslo vertės

Šiandien užtikau gerą straipsnį apie tokį požiūrį, su kuriuo, deja, gana dažnai susiduriu kompanijose: reikia surinkti kuo daugiau duomenų, viską bet kaip sudėti į duomenų bazę ir iš to vis tiek gausis kas nors gero. Na, žinai, gi ten machine learning, dirbtinis intelektas, visa kita gi šiais laikais. Svarbu duomenų būtų.

Didesnėse kompanijose tai dažnai galima suprasti: pinigų projektams kaip ir yra, norisi užsidėti varnelę, kad „kažką darai su dirbtiniu intelektu“, net jei ir nieko nesigaus, tai bent jau bandysi. Nesvarbu, kad nelabai aišku, kokia reali to nauda verslui, ir kas bandoma pasiekti. Bet tai, pasirodo, dažnai pasitaiko ir tarp startuolių: vietoje to, kad pastangas skirti klientų paieškai ar geresniems procesams, per daug koncentruojamasi į duomenis, lyg jie būtų ta magiška burtų lazdelė, kuri visus staiga padarys milijonieriais.

Straipsnyje galima rasti gerų patarimų ir įžvalgų, kurių niekada reiktų nepamiršti, dirbant su duomenų projektais:

  • Kokie yra duomenų gavimo kaštai? Būtina bent jau apytiksliai paskaičiuoti, kiek kainuoja visi duomenų inžinieriai, visi vadovai, kuriems reikia ataskaitų ir planų, visi serveriai, infrastruktūra, visų vadovų laikas, kurį jie praleidžia kasdieną stebėdami analitines ataskaitas vietoje to, kad galbūt galvotų, kaip užkariauti naujas rinkas ir geriau padėti klientams.
  • Kokią naudą mes gauname iš duomenų? Kas atsitiktų, jei vienos ar kitos ataskaitos ar algoritmo nebūtų? Kiek verslo vertės susideda iš to, kad turime tikslesnę informaciją ir ją galime greičiau pasiekti? Taip neretai galima suprasti, kad visgi lengviau paskambinti klientui ir jo paklausti, kas jį mūsų svetainėje trikdo nei valandų valandas praleisti Google Analytics bandant išskaityti gudrias įžvalgas.
  • Per kiek duomenys pasensta? Dažnai net nepastebima, kad kelių metų duomenys jau niekam neįdomūs ir netgi nelabai naudingi: klientų poreikiai pasikeitė, elgsena kitokia, žiūrėk jau ir Facebook ne toks visiems įdomus, aplinka nujudėjo visai kitur. Kai supranti, kad tavo duomenys labai greitai sensta ir vien jų kiekis nesukuria tvaraus konkurencinio pranašumo (nes bet kas, investavęs metus ar kitus darbo gali irgi įgyti ne ką mažiau panašių duomenų), jų nuolatinis atnaujinimas ir kiekybės siekimas vien dėl kiekybės nušvinta kitomis spalvomis. Gal verčiau mažiau duomenų, bet labai gerai atrinktų? Ir gal užtenka logistinės regresijos ir visai nereikia neuroninio tinklo su dešimt tūkstančių faktorių?

Kaip galvoja prancūzai

Galvojau, kad ši knyga bus lengvesnė, nes tikėjausi kažko panašaus į Kate Fox knygą „Watching the English“. Sudhir HaareesinghHow the French Think: An Affectionate Portrait of an Intellectual People“ pasirodo gana sunkiai kramtomas tomas apie prancūzų filosofinę mintį bei jų mąstymo šablonus.

Prasibrovus pro gana sudėtingą, kone akademinę kalbą, įdomių įžvalgų knygoje tikrai galima rasti. Prancūzai piešiami kaip gilūs intelektualai, bet kartu ir kontrastingai priešinami su anglo-saksiškaja minties mokykla: britai ar amerikonai žymiai praktiškesni, jiems labiau svarbios ne patrauklios filosofinės utopinės konstrukcijos, o tai, kas veikia realybėje. Britai, prancūzų akimis, yra per daug pragmatiški, per daug užsiėmę pinigų darymu, kai patys prancūzai save laiko protingesniais, gebančiais galvoti apie tokiu dalykus, kaip tautų draugystė, brolybė, pinigus laiko vulgariais, ir geriau imasi revoliucijos siekiant įgyvendinti utopiją nei nuosekliai dirba link savo tikslų.

Vienas įdomiausių skyrių yra paskutinis, kuriame rašoma apie dabartinę prancūzų filosofinės minties situaciją. Jei dar ano amžiaus viduryje prancūzai buvo visiem įdomūs (daug kas skaitė Camus, Baudrillardą ir pan.), tai paskutinius kelis dešimtmečius jokių ryškių asmenybių prancūzų rašytojų bei filosofų tarpe nebeliko. Taip, knygos vis dar rašomos, leidžiamos prancūzų kalba, bet jos retai pasiekia bestselerių sąrašus už Prancūzijos ribų, jos lieka lokalios. Panašiai ir su prancūzišku mokslu: jei prieš šimtmetį ar kiek seniau prancūzai garsėjo savo mokslininkais (Pasteras, Kiuri, etc), tai dabar net Prancūzijos universitetai vargiai gali konkuruoti su kitų Europos šalių mokslo įstaigomis. Ir kas gali paminėti kokį labai sėkmingą pastarųjų metų prancūzų išradimą? Nebelabai kas.

Visas šis nuosmukis Prancūzijoje kelia tam tikrą tautos depresiją. Jeigu prieš šimtmetį ar kelis prancūzai buvo pati stipriausia intelektuali jėga pasaulyje, formavusi tautų vertybes (tereikia prisiminti, kokia svarbi pasaulio minties raidai buvo Prancūzijos revoliucija), tai dabar jie jaučiasi likę niekam neįdomiame užribyje. Dar prieš šimtą metų carinėje Rusijoje aukštuomenėje buvo gero tono ir išsilavinimo ženklas šnekėti prancūziškai, o dabar tai visiškai pakeitė anglų kalba. Kultūriškai prancūzai pralaimėjo, ir, deja, kol kas nelabai turi ką pasiūlyti naujo.

Goldman Sachs pardavimų principai

Neseniai perskaitytoje Goldman Sachs istorijoje man užkliuvo vieno iš jų vadovų suformuluotos taisyklės pardavėjams. Jomis Goldman Sachs bankas vadovavosi tuo metu, kai stengėsi įeiti į Europos rinką: aštuoniasdešimtaisiais jie Europoje tebuvo mažai kam žinoma amerikiečių kompanija, visiškai be klientų ir be jokios įvykdytų sandorių istorijos.

Taisyklės šios:

  1. Negaišk laiko stengdamasis atvesti klientą, kurio šiaip jau ir nelabai nori turėti.
  2. Dažniausiai sprendžia vadovas, o ne vidurinės grandies vadybininkas. Ar pažįsti tą vadovą?
  3. Gauti gerą klientą užtrunka beveik tiek pat laiko, kiek ir prastą.
  4. Kol kalbi, nieko naujo neišmoksti.
  5. Kliento tikslai yra žymiai svarbesni nei tavo paties.
  6. Vieno žmogaus pagarba yra žymiai vertingesnė nei paviršutinė pažintis su šimtu.
  7. Jei tik matosi galimybė gauti klientą – griebk jį!
  8. Svarbūs žmonės mėgsta bendrauti su svarbiais žmonėmis. Ar pats esi svarbus?
  9. Nieko nėra blogiau kaip nepatenkintas klientas.
  10. Jei atvedi klientą, tai iki pat galo turi rūpintis, kad jis viskuo liks patenkintas.