Keletas patarimų apklausų sudarytojams

Artėjant tam pavasario metui, kai į elektroninį paštą bei Facebook’o srautą pradeda plaukti studentų prašymai užpildyti nuobodžias ir skausmingai ilgas bakalaurinių ar magistrinių darbų anketas, užtikau labai neprastą „Partially Derivativepodcast‘o seriją apie tai, kaip teisingai tas apklausas sudarinėti. Kadangi patarimai buvo vertingi ir man pačiam, dalinuosi trumpa jų santrauka:

  • Prieš sudarant apklausos anketą reikia gerai pagalvoti, kokius duomenis nori surinkti ir kaip tuos duomenis analizuosi. Visai ne pro šalį būtų iš anksto susidaryti sąrašą grafikų, kuriuos norėsi nupiešti ir nuspręsti, kokias regresijas skaičiuosi. Anketa žymiai sutrumpės, kai tikrai žinosi kokių tiksliai duomenų reikia, o ir klausimai bus žymiai tikslesni: gal iš tiesų reikia sužinoti, kaip klientai vertina restorano maisto kokybę, o ne tai, ar jiems tiesiog patiko jame apsilankyti. Kuo trumpesnė anketa – tuo geriau. Niekas nenori švaistyti laiko pusvalandį pildydamas anketą apie restoraną.
  • Tiksliai apibrėžk savo tiriamųjų populiaciją, nes nuo to priklausys ir tavo klausimai. Jei darai apklausą apie Pokemonus, tikriausiai gali naudoti ir ne tokią formalią kalbą, nes tavo respondentai bus jauni, bet jei klausinėji apie pensijų fondus, tai ir klausimai turėtų būti labiau solidūs.
  • Klausimai turi būti trumpi ir aiškūs. Juos respondentai turi suprasti be jokių papildomų paaiškinimų.
  • Klausimai turi būti objektyvūs. Neklausk „Ar tau labai patiko mūsų restorane?“ (Bet juk tai savaime suprantama, ar ne?)
  • Kad ir kokį užduosi klausimą visada gausi kažkokį atsakymą, bet ar pats klausimas buvo teisingai suformuluotas ir teisingai suprastas?
  • Geriausia prieš paleidžiant apklausą ją patestuoti su keliais žmonėmis. Reiktų jų paklausti, kaip jie suprato klausimus, ar jiems nekilo neaiškumų. Kiek užtruko laiko užpildyti anketą? Jei testuojama internete, galima pažiūrėti ties kuriuo klausimu žmonės daugiausiai užtrunka laiko – gal jis per sudėtingas ar tiesiog sunku apsispręsti?
  • Apklausa turėtų būtų kuo trumpesnė, bet jei apklausinėji žmones asmeniškai gyvame susitikime, ji gali trukti ir pusvalandį ar valandą. Apklausiant telefonu respondentai ima dairytis į laikrodį po 10-15 minučių, o internete jie dažniausiai pasiruošę paskirti tik keletą minučių. Tiesa, jei apklausos klausimai yra labai įdomūs, jos trukmė gali būti ir ilgesnė, bet geriausia galvoti, kad tavo apklausa nėra labai įdomi.
  • Reikėtų vengti atvirų klausimų, nes juos sunku analizuoti. Analizuojant juos kažkaip reikės sudėlioti į kategorijas, o tai nėra lengva automatizuoti.
  • Internete reikėtų vengti didelių klausimų blokų, kur prašoma nuo 1 iki 10 sužymėti savo vertinimus daugeliu kriterijų (pvz „Nuo 1 iki 10 įvertinkite: grožį, spalvą, kvapą, vaizdą, pojūtį, šaltį, etc“). Dažniausiai tokie klausimų blokai netelpa mobilaus telefono ekrane ir juos labai sunku teisingai sužymėti, ypač jei reikia slinkti ekraną.
  • Respondentai dažnai yra tinginiai ir linkę pasirinkti lengviausią variantą. Jei reikia rinktis iš kelių kategorijų („obuolys“, „kriaušė“ ar „bulvė“), jie dažnai pasirinks pirmą, todėl kartais vertakiekvienam respondentui atsakymus pateikti atsitiktine tvarka.
  • Jeigu vertinimo skalė susideda iš nelyginio skaičiaus kategorijų („įvertinkite nuo vieno iki penkių“), tingus respondentas žymiai lengviau pasirinks neutralią vidurinę reikšmę. Jei būtinai norima, kad respondentas pagalvotų geriau ir išreikštų savo (kad ir silpną) preferenciją, reikia prašyti rinktis iš lyginio skaičiaus kategorijų („nuo vieno iki keturių“ arba „nuo vieno iki dešimt“). Tiesa, skalė nuo vieno iki dešimt dažnai yra per smulki: lengviau apsispręsti, kai galima rinktis iš 4-5-6 kategorijų.
  • Ar leisti rinktis kategoriją „kita“ paliekant vietos įrašyti savo variantą? Dažniausiai taip, bet reikia palikti vietos tik vienam ar dviem žodžiams, kad nebūtų daug vietos plėstis (kiek vietos paliksi, tiek kas nors ir prirašys, o po to tai sukels problemų duomenis analizuojant ir kategorizuojant). Apklausos testavimo metu reikia stebėti, ar daug kas renkasi variantą “kita” ir pagal tai pakoreguoti atsakymų variantus. Galutinėje apklausoje reiktų tikėtis, kad šio varianto pasirinkimas nedominuos.
  • Analizuojant apklausos duomenis reikia atkreipti dėmesį į atsakymų pasiskirstymą. Jei visi repondentų atsakymai yra beveik vienodi, iš apklausos gausi nedaug informacijos. Jei visi tavo restoraną vertina penkiomis žvaigždutėmis, tikriausiai ne visai teisingai formuluoji klausimą.
  • Apklausos pradžioje nedėk demografinių klausimų (amžius, lytis, pajamos ir t.t.), nes respondentui tai nuobodu. Paklausk ką nors intriguojančio, kad respondentas susidomėtų ir norėtų iki galo užpildyti visą anketą. Žmonės nuo pat pirmųjų klausimų savo anketinių duomenų pildyti nenori – jie vis dar sprendžia ar verta paskirti savo penkias ar dešimt gyvenimo minučių tavo apklausai.

Ką perskaičiau sausį

  • Alan Lightman – Einšteino Sapnai. Trumpi „kas būtų jeigu būtų“ apmąstymai apie laiką: o ką jei laikas sustotų? O ką, jei viskas vis kartotųsi? Kas būtų, jei visi žinotume, kad šiandien yra paskutinė diena? Knygos idėja tikrai nebloga, gal tik kiek įkyrėjo nuobodokas pasakojimo stilius. Na, o kadangi šią knygą skaičiau tuoj po trumpų Borges’o šedevrų, atrodė, jog geros idėjos išpildymui kokybės trūko. 3/5.

  • Cal Newport – Deep Work. Patikusi knyga, verčianti pagalvoti apie tai, kokiame išsiblaškymo pasaulyje mes gyvename: be koncentracijos ir atsiribojimo nuo visokių trukdžių beveik neįmanoma sukurti ką nors giliai prasmingo. Perskaičius šią knygą nusprendžiau, jog stengsiuosi nebesilankyti naujienų portaluose ir labiau atsidėsiu knygų skaitymui nei laisvą akimirką naršysiu telefone. Nepasakyčiau, kad pilnai pasisekė, nors tikrai jaučiu, kad tokių daug naudos nenešančių įpročių sumažėjo bent per pusę. Kartais vien užtenka automatiškai griebiant telefoną paklausti savęs, ar tikrai man to reikia: kada paskutinį kartą laukiant restorane maisto buvote vieni su savimi, o ne su telefonu? O pasirodo tokio nuobodulio akimirką ateina daug įvairių gerų minčių. 5/5.

  • Charles Mann – 1493: Uncovering the New World Columbus Created. Jei iki šios knygos galvojau, jog Amerikos atradimas radikaliai pakeitė tik indėnų gyvenimus, tai po šios knygos šią nuomonę teko radikaliai pakeisti. Taip, daug indėnų išmirė nuo europiečių atvežtų ligų, taip, jų imperijos greitai žlugo nuo konkistadorų įsiveržimo. Bet, pasirodo, pasikeitė ir visas kitas pasaulis: atsirado daug naujų maisto rūšių (bulvė, kukurūzai ir pan.), kurios leido žymiai padidinti Europos bei Kinijos populiaciją, Kinijoje tapo priklausoma nuo ispanų Peru kasamo sidabro ir prekybos su europiečiais, juodaodžiai vergai milijonais buv pradėti vežti į naująsias kolonijas. Nebuvau žinojęs, jog didžiojoje naujojo pasaulio dalyje po europiečių pasirodymo pasklido maliarija ir kad per pirmus metus nuo atvykimo mirdavo kone 80 procentų kolonistų. Puiki knyga, mėgstantiems istoriją. 5/5.

  • Susan Sontag – On Photography. Kartais ne itin lengvai įkandamų straipsnių rinkinys apie fotografiją, apie tai, kuo ši medija skiriasi nuo kitų, apie fotografijos istoriją, apie fotografų idėjų kaitą. Labai praplėtė akiratį, juolab kad skaičiau ją vis stabteldamas internete paieškoti straipsniuose minimų fotografų darbų: nesu daug matęs klasikinęs fotografijos darbų, tad buvo labai įdomu juos atrasti. Kartu ši knyga galima sakyti pakeitė mano požiūrį į fotografiją: nebūtinai gera nuotrauka yra graži, nebūtinai ji gerai techniškai atlikta, nebūtinai ji vaizduojanti realybę, nebūtinai ji objektyvi. Keistas dalykas, bet einant laikui bet kokias fotografija įgauna vertę: net visiškai buitinė nuotrauka, daryta prieš 50 metų dabar tampa labai įdomi, o vaikystės laikų polaroidai – itin jaukūs. Žodžiu, puiki knyga, plečianti horizontus. 5/5.

  • Gini Dietrich – Spin Sucks. Knyga apie viešuosius ryšius, nors tikriausiai svarbiausią jos žinutę galima sutalpinti į vieną patarimą: stenkis nemeluoti ir neapsimesti kuo nesi (kadangi knygą skaičiau tuo metu kai Gretos Kildišienės ir Karbauskio skandalas buvo pasiekęs viršūnę, kontekstas šiam patarimui buvo kaip niekad geras). Bet, nepaisant to, knyga visgi pasirodė skystoka – tai dažnoka autorių, kurie yra blogeriai, problema. 3/5.

  • Fiodoras Dostojevskis – Broliai Karamazovai. Klasikinis fundamentalus kūrinys, kurio lietuviškas leidimas užima 1.3 tūkstančio puslapių. Kadangi rusų klasikų veikalų beveik nesu skaitęs, tai buvo labai įdomu bent kiek užpildyti šią savo išsilavinimo spragą. Puslapiai neprailgo, temų knygoje daug, o žmonių problemos ir jausmai nė kiek nepasenę: tik jų nesudėsi į kelių sakinių weblogo įrašą, nes apie kiekvieną veikėją galima diskutuoti valandomis. 4/5.

  • Cathy O’Neill – Weapons of Math Destruction. Svarbi knyga analitikams apie tai, kad algoritmai dažnai turi labai daug šalutinių poveikių, apie kuriuos ne visada pagavojama. Knygoje pateikiami pavyzdžiai kalba už save: jei gyveni neturtingųjų rajone, gali būti, jog niekada negausi paskolos, nes tikėtina, jog tavo kaimynai jau yra prasiskolinę: algoritmai gali manyti, jog tavo pašto indeksas yra labai stipri indikacija ir apie tavo nenorą sąžiningai grąžinti paskolą. Tokia diskriminacija yra ne tokia jau reta ir jos labai sunku išvengti: net jei įstatymais uždrausi naudotis pašto indeksu nustatant žmogaus kredito reitingą, atsiras kitų keistų koreliacijų, kurios vienus nepelnytai nuskriaus, o kitiems palengvins gyvenimą. Dažnai algoritmai būna tokie sudėtingi, kad niekas iki galo dorai nesupranta, kaip jie veikia (panašiai buvo ir būsto paskolų krizės metu), o tai ypač svarbu, nes algoritmai kuo toliau, tuo labiau lemia daug sprendimų. Labai svarbi knyga tiems, kas domisi duomenų analize. 5/5.

  • Italo Calvino – If on a Winter’s Day a Traveler. Labai neįprasta knyga, kuri iš tiesų yra dešimt įvairių knygų pradžių persipynusių su mintimis, kas yra rašytojas, kas yra skaitytojas, koks jų santykis, ir kokia yra knygų reikšmė. Pačioje pradžioje skaičiau su dideliu entuziazmu, kas keletą puslapių gėrėdamasis visais netikėtais vingiais, bet po to kažkaip gana greitai ta mišrainė pabodo. 3/5.

Lietuvos miestų gatvės

Miestų žemėlapiai mane traukia kaip blizgučiai šarkas: nuo pat mažų dienų mėgau ištisas valandas juos tyrinėti vedžiodamas pirštais autobusų maršrutus, šnabždėdamas sau gatvių pavadinimus ir įsivaizduodamas miesto gyvenimą pagrindinėse sankryžose. Tad Rūtai užrodžius naują Pitono modulį OSMnx, kuris leidžia iš openstreetmaps duomenų nupiešti labai estetišką Allan Jacob knygos „Great Streets“ stiliaus žemėlapį negalėjau susilaikyti jo neišbandęs. To rezultatas: visų Lietuvos miestų centrinės kvadratinės mylios žemėlapiai.

Tokiuose žemėlapiuose dažniausiai į akį krenta kvartalų simetrija ir tvarka, o Lietuvoje to beveik neįmanoma rasti. Lietuvoje nedaug miestų, kuriame stipriai būtų padirbėjusi miesto planuotojo liniuotė: neskaitant įvairausių sodų ir garažų bendrijų itin tvarkingą smulkų gatvių tinklelį galima rasti Klaipėdos senamiestyje, ir tik Palanga, Šalčininkai ar Tauragė išlaiko daugiau mažiau kvadratinių kvartalų tinklą. Stebėtis nereikėtų: miesteliai kūrėsi gana seniai ir ne tuščiose vietose, dar prieš bandant natūralų procesą suvaldyti miesto architektams.

Tauragė išplanavimu panaši į Amerikos miestus

Itin įdomus naujai projektuotų miestų gatvių tinklas: Elektrėnai atrodo lyg įsprausti į vienos gatvės žiedą. Tokį patį dirbtinio suspaudimo įspūdį daro ir Ventos žemėlapis – vienoje kelio pusėje senoji individualių namų Venta, o kitoje – daugiaaukščių rajonas.

Senoji Venta vienoje kelio pusėje labai skiriasi nuo naujosios Ventos kitoje

Vienas svarbiausių faktorių, nulemiančių gatvių tinklą yra vandens telkiniai ir upės: jos skiria miesto dalis, arba atvirkščiai – įspraudžia į rėmus (pvz. Trakai). Nors kartais tokią funkciją atlieka geležinkelis – Varėna lyg nurėžta bėgių linijos.

Įsprausti tarp ežerų Trakai

Visgi man gražiausias Lietuvos miestų gatvių tinklas yra Zarasuose. Reikės kada apsilankyti.

Zarasų gatvių planas

Čia yra dar bent šimtas kitų žemėlapių. Tereikia pasirinkti miestą.


Pagalbos! Kaip pasirinkti kam padėti?

Ar kada esate rimtai galvoję, kam paskirtumėte lėšas, jei labdaros tikslais turėtumėte išleisti kažkokią sumą eurų? Nors kiekvienais metais kam nors vis skiriu savo 2 procentus pajamų mokesčio, dažniausiai mano sprendimas būna gana paprastas: remiu tuos, kuriuos remiu iš įpratimo, arba tuos, kuriuos pažįstu – bent jau iš jų tikiuosi, jog lėšos nebus tiesiog „įsisavintos“. Šiemet norėtųsi kiek labiau apgalvoto sprendimo – net jei per metus labdarai skiri ir menkas sumas, verta susimąstyti apie jų atnešamą naudą.

Vienas žymiausių investuotojų Warren’as Buffett’as turi man patinkantį principą: į labdarai išleistus pinigus reikia žiūrėti kaip į investicijas – jie turi duoti kuo daugiau naudos. Juk tuos pačius šimtą eurų galima išleisti begale būdų: liejant paminklines lentas ar gelbstint gyvybes Afrikoje, tiesiog išdalinant vargšams gatvėje ar dirbant link to, kad jie galėtų patys save išsimaitinti. Nuo pačio aukotojo priklauso, kokių tikslų jis nori pasiekti, bet jeigu jau turi tikslą išgelbėti kuo daugiau pamestų gyvūnų gyvybių, verta pagalvoti, kaip tai padaryti efektyviausiai. Dėl šios priežasties labai svarbūs labdaros fondo efektyvumo rodikliai – kiek iš paaukotų lėšų galų gale pasiekia galutinius naudos gavėjus, o kiek jų išleidžiama administravimui ir reklamai apie gerus darbus. Efektyviai organizuoti fondo veiklą, kaip ir sukurti gerai veikiančią pelningą kompaniją nėra labai paprasta, todėl pats investuotojas pasitiki tais, kuriems jau tai pavyko: jis savo lėšas yra paskyręs Bill’o Gates’o labdaros fondui.

Bet pagrindinis klausimas išlieka: pasaulyje yra daug neišspręstų problemų, tad kurią iš jų turėtų padėti spręsti paaukotos lėšos? Kaip pamatuoti naudą visuomenei: ar sumažintos kančios kiekiu, ar pagerinta gyvenimo kokybe, ar praturtinta siela? Ar didesnę naudą neša vaikui nupirkta knyga ir uždegtas noras siekti mokslo ar iš bedugnės ištrauktas alkoholikas ir jam sugrąžinta gyvenimo viltis? Atsakymų tam neturiu, nors linkstu manyti, jog norėtųsi prisidėti prie problemų sprendimo iš esmės: duoti ne žuvį, o meškerę, investuoti į tai, kad bėdon patekęs tvirtai atsistotų ant kojų ir vėliau jau galėtų padėti kitiems.

Todėl prašau pagalbos: ieškau efektyviai pasaulį gerinančių idėjų, kurioms gal trūksta ne tiek jau daug pinigų. Kokiems tikslams jūs aukojate savo lėšas? Gal tai mane užves ant kelio mano paieškose, o gal bus naudinga ir kitiems, kuriems kyla panašios mintys apie aukojimą.

Jorge Luis Borges – „Smėlio knyga“

Pažvelgus į savo perskaitytų knygų sąrašą ir suskaičiavus pastaraisiais metais skaitytas grožinės literatūros knygas vargiai priskaičiuočiau iki dviženklio skaičiaus: gal tik kas dešimtą galima būtų priskirti šiai kategorijai. Keletą metų prioritetą teikiau negrožinėms knygoms apie ekonomiką, skaičius ir istoriją, apie sąsajas, ryšius ir priežastis, apie tai, kaip pasaulis veikia ir kaip yra sudėliotas, nuvertindamas ištisus išminties klodus, sudėtus į grožinius kūrinius. Šiemet bus kitaip: labai džiaugiuosi, jog keletas draugų įtraukė mane į knygų skaitymo klubą, kuriame kas mėnesį perskaitome po ne pačią lengviausią grožinę knygą. Prasiplečia ne vien skaitomų knygų ratas, priversdamas perskaityti tai, ko anksčiau negalėjai savęs prisiversti pabaigti (dabar jau džiaugiuosi, jog visgi pavyko perskaityti bent vieną Salman Rushdie kūrinį), bet ir pats skaitymas įgauna naują kokybę, žinant, kad susitikus reikės papasakoti knygos paliktą įspūdį – tai leidžia ją geriau išgyventi ir pajausti. O ypač smagu tai, kad kiekvienam perskaičiusiam tą pačią knygą užkliūna skirtingi dalykai, ir tai dar labiau praturtina knygos skaitymo patirtį.

Taip atsitiko ir su Jorge Luis Borges‘u: jei ne šis knygų klubas, tikriausiai nebūčiau jo paėmęs į rankas, o štai dabar manau atradęs kone naują mėgstamiausią rašytoją. Borges‘o kūryba – trumpi, kelių puslapių apsakymai, gilumu nenusileidžiantys storiems romanams. Pats rašytojas yra teigęs, jog nemėgsta ilgų knygų: kam rašyti šimtus puslapių ir keliuose tomuose vyniotį kokią mintį, jei galima apsimesti, jog ta knyga jau parašyta ir įsivaizduoti, kad rašai jos recenziją. Borges’as yra didis žodžio meistras: atrodo, jog glaustuose apsakymuose nėra jokių nereikalingų žodžių, tekstas vos keliais sakiniais sukelia nuotaiką ir gilų įspūdį. Ne viską iš karto lengvai galima perkąsti, ir, anot paties Borges’o, ne visur metaforose reikia ieškoti gilios prasmės, kartais reikia tiesiog mėgautis tekstu. Ir taip būna: skaitai, skaitai, apysaka darosi vis keistesnė, galvoje pradeda kirbėti mintis, kad ji keistoka ir nelabai žinai ką ja norėta pasakyti ir staiga paskutinėje pastraipoje – BAM! Oho! Matai kaip!

Tos Borges‘o apysakos – kaip saldainiai, kurių iš karto nevalia suvalgyti per daug, jais reikia mėgautis po truputį. Po vienos imi galvoti apie begalybę ir ką gali jausti nemirtingasis, po antros medituoji tavo riboto laiko suteikiamą prasmę, po trečios svarstai apie gana absurdiškai atrodantį žmogaus tikėjimą savo galia pilnai suvokti pasaulį, po ketvirtos stebiesi aklos aistros trumparegiškumu. Vis nauja apysaka, vis nauja gili tema apmąstymui. Vis naujas priminimas, kad mes klaidžiojame it labirinte, naiviai, bet tvirtai įsitikinę, kad iki galo pilnai suprantame chaosą ir beprasmybę. Labai patiko, skaityčiau dar kartą.

Robotas irgi žmogus

Iš pažiūros duomenų analizė yra labai nešališkas ir objektyvus reikalas: paimi krūvą duomenų, perleidi per sudėtingą statistinių algoritmų mėsmalę ir gauni kažkokias įžvalgas. Mūsų produktą labiau mėgsta Marijampolėje, brangesnius produktus moterys perka savaitgaliais, socialiniuose tinkluose sekantys veikėją X skaito portalą Y, bent tris kartus gavę labai didelę mėnesinę sąskaitą yra linkę perbėgti pas konkurentus. Su regresijomis (ar sudėtingesnėmis analizėmis) ginčytis sunku, nes duomenys lyg ir kalba už save. Nebereikia spėlioti ir remtis dažnai mus pavedančia intuicija. Bet algoritmai nėra jau tokie neutralūs: jie klysta visai kaip žmonės, nes jie mokosi iš tų pačių žmonių jiems pateiktų duomenų. Tad aklai pasitikėti algoritmų sprendimais nereikėtų.

Vienas to pavyzdys yra JAV naudojamas algoritmas, sprendžiantis apie nuteisto nusikaltėlio polinkį dar kartą nusikalsti. Neseniai buvo pastebėta, jog šis algoritmas turėjo rasistinių polinkių: jeigu esi juodaodis, jo nuomone, tavo recidyvizmo tikimybė didesnė. Kadangi tokiais algoritmais naudojamasi sprendžiant, kokio dydžio bausmę skirti, juodaodžiai už tokius pat pažeidimus automatiškai baudžiami stipriau nei visiškai toks pats baltasis kaimynas, kuris gyvena beveik identiškomis socialinėmis sąlygomis. Su panašiomis diskriminacinėmis problemomis susiduria ir moterys: algoritmai mano, kad jos turi žymiai mažesnę tikimybę uždirbti aukštesnę algą, todėl net joms net nerodo gerų darbo pasiūlymų. Jei tik keliolika procentų vadovų yra moterys, tai net neverta švaistyti lėšų joms rodant vadovų darbo skelbimus.

Tokią algoritmo klaidą ištaisyti nėra taip paprasta, kaip gali pasirodyti. Net jei įstatymais uždrausi kuriant algoritmą atsižvelgti į žmogaus lytį ar odos spalvą, yra daug kitų su šiais dalykais koreliuojančių faktorių. Jei 82% namų ūkių su nepilnamečiais ir tik vienu suaugusiuoju sudaro vieniša mama su vaikais, tai iš šeimos sudėties nesunku atspėti suaugusiojo lytį. Juodaodžius galima atskirti pagal vardus, o Lietuvos atveju, tautybę tikriausiai nesunku suprasti pagal pavardę. Žmogaus gyvenamosios vietos pašto indeksas irgi labai daug ką pasako.

Dirbtinio intelekto algoritmai yra kaip vaikai, kurie mokydamiesi iš aplinkos pradeda suvokti ryšius tarp kintamųjų. Lygiai taip, kaip svarbu, jog vaikas bendrautų su tinkamais žmonėmis ir augtų ne asocialioje aplinkoje, taip ir algoritmo negalima lengvabūdiškai tiesiog paleisti mokytis į platųjį pasaulį. Tai pernai suprato Microsoft, paleidusi savaime besimokantį Twitterio botą Tay, kuris per kelias valandas iš interneto vartotojų išmoko daug rasistinių frazių ir tapo piktu keikūnu. Net ir akylai prižiūrint dirbtinio intelekto mokymosi procesą, mokymosi pavyzdžių imtis turi gerai atitikti realaus pasaulio proporcijas (o tai nevisada lengva pasiekti). 2015-aisiais Google išleistas atpažįstantis objektus nuotraukose algoritmas sukėlė skandalą, mat juodaodžių nuotraukas klaidingai klasifikuodavo kaip beždžiones: jis mokėsi daugiausiai iš baltųjų nuotraukų. Panašiai, kaip Delfi žino apie automobilius tik tiek, kad jie dažnai patenka į avarijas.

Galų gale net jei ir labai atsargiai suformuosi duomenų imtį algoritmo mokymuisi ir atidžiai prižiūrėsi visą procesą, mūsų visuomenėje yra tam tikrų stereotipų ar šališkumų, kurie atsispindės duomenyse. Jei dirbtinio intelekto algoritmą mokysi naudodamasis 1870-ųjų studentų duomenų baze, tikėtina, jog jis į magistro programą siūlys priimti beveik vien tik vyrus. Jeigu algoritmas išmoksta tavo keistumus ir atsižvelgdamas į tavo iškreiptą pasaulio vaizdą tau siūlo skaityti tik straipsnius apie konspiracijos teorijas, tai tik padidina tavo tikėjimą jomis – algoritmai ne tik kad nepadeda objektyviau suvokti pasaulį, bet vis labiau jį iškreipia. Klaidingi įsitikinimai sustiprinami ir daromos vis didesnės klaidos.

Ar yra išeitis iš šios spiralės? Vargu, ar visiškai įmanoma sukurti idealius algoritmus, nes jie tėra mūsų visuomenės atspindys. Kritinis mąstymas ir skeptiškumas tampa labai svarbiais įrankiais atskiriant tiesą nuo melagingų naujienų, tik šiais hiperaktyviais laikais, kai dėmesį gali sukaupti tik kelioms sekundėms, tai tampa brangu ir nemadinga.

Dear Data,

Vieną Kalėdų senelio dovanotų knygų surijau per vieną vakarą. Dvi profesionalios duomenų dizainerės (net nesu tikras, kaip teisingai vadinti duomenų atvaizdavimu užsiimančiuosius) – viena Londone, o kita Niujorke –  ištisus metus kas savaitę viena kitai siųsdavo ranka pieštus atvirukus su duomenų schemomis, diagramomis ir grafikais. Kiekvieną savaitę jos pasirinkdavo vis naują temą – kiek kartų pasakei „ačiū“, kiek kartų per savaitę nusijuokei, kas kabo tavo spintoje, kas yra tavo geriausi draugai, kiek kartų nusikeikei ar kiek išgėrei alkoholio. Pasirodo, per septynias dienas tokių duomenų galima prikaupti devynias galybes, ypač jei žymėsiesi ne vien plikus faktus, bet ir su šiais faktais susijusias aplinkybes: ne visi pasakyti „ačiū“ yra vienodi, kai kurie būna ištarti kita kalba, kai kurie parašyti elektroniniame pašte, kai kurie buvo pasakyti tik iš mandagumo, o kai kurie ypač nuoširdūs, nes buvo sakyti su meile savo vyrui. Per daugiau nei penkiasdešimt savaičių šios dizainerės sugalvojo daug išradingų duomenų vaizdavimo būdų ir kone kiekviena atvirutė stebina detalių gausa – bet detalės neužgožia bendro duomenų piešiamo paveikslo, jos nenumaldomai traukia gilyn, ten kur abstraktūs agreguoti skaičiai nutrindami ribą tarp statistikos ir asmeninio intymumo pavirsta į atskirus išgyventus faktus. Kai dešimt kartų pasakytas žodis „ačiū“ tampa trimis „ačiū“ padavėjai už pateiktą sriubą, dviem „ačiū“ bendradarbiui už persiųstą emailą, padėka draugui už tai, kad jis šalia ir keturiais „ačiū“, kuriuos turėjai pasakyti, bet neišdrįsai, tai nebe plika statistika: tikrai jautiesi gerai pažįstantis autorę.

Peržvelgus šio projekto atvirutes pradedi suprasti, kad duomenimis savo gyvenime galima paversti beveik bet ką, tačiau vien pats duomenų rinkimas priverčia atkreipti dėmesį į tuos dalykus, kuriuos šiaip būtum praleidęs pro pirštus. Vien tai, kad skaičiuoji šypsenas, verčia tave daugiau šypsotis, vien tai, kad seki savo alkoholio suvartojimą, galbūt daro tavo blaivesniu, vien tai, kad surenki duomenis apie žmones, su kuriais bendravai per savaitę, primena tau, kad reiktų paskambinti seniai matytai tetai. Ką matuoji, tuo ir gyveni. Apie ką nuolat galvoji, su tuo ir susitapatini. Bet norint daugiau judėti neužtenka nuolat ant rankos nešioti Fitbit apyrankę – jei duomenys surenkami paprastai ir neskausmingai, į juos lengva numoti ranka ir užsimiršti. Kuo sunkiau duomenis teko rinkti ir analizuoti, tuo juos vertini rimčiau. Kartais nėra blogai duomenis sąmoningai užsirašinėti ranka: tai leidžia stabtelti ir pagalvoti apie kiekvieną konkretų stebėjimą.

Be to, kad ši knyga apie duomenis, ji dar priminė, jog reikėtų dažniau sakyti „ačiū“, tad dar kartą dėkoju Kalėdų seneliui už „Dear Data“.

Zylių stebykla

Man patinka vis ką nors naujo išmokti, o mokytis geriausia ką nors darant. Taip visai netyčia užgimė Rube Goldbergiško stiliaus zylių stebėjimo projektas, kuris savyje sujungė norą išsibandyti python kalbos bibliotekas konvoliuciniams neuroniniams tinklams su idėja viską padaryti Amazon AWS debesies infrastruktūroje be jokių dedikuotų serverių vien tik su Lambda funkcijomis. Suprantu, kad tiems, kas su tokiais dalykais nesusiduria tai skamba lygiai tiek pat įdomiai kiek man skambėtų nauja variklio vožtuvo modifikacija paskutiniame BMW modelyje (tikiuosi nesuklydau, kad vožtuvai kažkaip susiję su varikliais, non?), bet trumpai tariant, projektas tapo sudėtingas dėl to, kad norėjosi prie lesyklos atskridusias zyles registruoti automatiškai, o tam vien judesio daviklio neužtenka: kartais dėl didelio vėjo juda pati lesykla, kartais užfiksuojama pravažiuojanti mašina, o kartais vaizdas pasikeičia, nes atidarius balkoną aprasoja stiklas. Taigi, reikėjo sistemą „išmokyti“ nuspręsti, ar kadre šiuo metu yra zylė. Tiesa, pati sudėtingiausia dalis pasirodė esanti zylių atpažinimo funkcijų perkėlimas į debesį: nes juk kam daryti viską įprastai, jeigu galima kuo sudėtingiau. Bet rezultatas mane džiugina: gal ne tiek dėl to, kiek kasdieną priskaičiuoju zylių, o dėl įgytų žinių ir patirties. Apie Amazono debesį ir kaip apeiti jo ribotumus sužinojau tikrai daug.

Keletas detalių tiems, kam jos įdomios: balkone, prie zylių lesyklos, stovi Orange Pi kompiuteris su web kamera, kurioje sukasi motion, o jis veikia kaip judesio daviklis. Atsiradus judesiui, daromos jpg nuotraukos ir siunčiamos į Amazon S3 kibirą, o čia yra trigerinama lambda funkcija, kuri išima iš paveiksliuko jo foną (faktiškai yra paskaičiuojamas skirtumas tarp apdorojamo paveiksliuko ir foninio paveiksliuko, kuriame tikrai nėra zylės). Taip paruoštas ir sumažintas paveikliukas per Amazono SNS servisą atiduodamas kitai lambda funkcijai, kuri perleidžia paruoštą paveiksliuką per ištreniruotą neuroninį tinklą ir išspjauna atsakymą, kiek, jo nuomone, paveiksliuke yra zylių. Šie atsakymai kaupiami SQS eilėje iki tol, kol motion mano, kad judesys baigėsi ir į S3 kibirą įkelia viso judesio vaizdą. Tai trigerina trečią lambda funkciją, kuri paskaičiuoja vidutinį zylių skaičių SQS eilėje, ir, jei jis gana didelis, statinėje svetainėje apie tai padaro naują įrašą. Eilė išvaloma ir viskas prasidės iš naujo tada kai tik bus užfiksuojamas naujas judesys.

Zylių stebėjimo sistema per Amazon debesį

Kol visi stebi JAV rinkimus – netikėta pinigų reforma Indijoje

Tokios dienos, kai žinai, kad žiniasklaida bus užsiėmusi JAV prezidento rinkimais yra ypač puikios atskleisti kokią nors ne itin skanią žinią ar netikėtai padaryti kokią drastišką reformą. Tarkim, energetikos bendrovė E.ON tuo pasinaudodama šiandien per nurašymus pripažino 6.1 milijardo eurų nuostolių. Bet tai smulkmė, palyginus su staigia valiutos reforma Indijoje: vakar vėlai vakare paskelbta, jog nuo šiandien nebebus galima atsiskaityti dviem stambiausiais 500 ir 1000 Indijos rupijų banknotais (jų vertė maždaug atitinkamai 6.5 ir 13 eurų). Tai populiariausi banknotai Indijoje ir jais denominuota apie 85% visos pinigų masės.

Nuo šiandien nebegaliojantis 1000 rupijų banknotas (šaltinis: Wikipedia)
Nuo šiandien nebegaliojantis 1000 rupijų banknotas (šaltinis: Wikipedia)

Nuo šiandienos vidurnakčio šiais banknotais dar 72 valandasbus galima atsiskaityti keletoje išskirtinių vietų: ligoninėse, krematoriumuose bei kapinėse. Tas pačias 72 valandas banknotais bus galima atsiskaityti ir už maistą ar kurą, bet pardavėjai turės užsirašyti asmeninius pirkėjo duomenis. Jei banknotus bus bandoma keisti bankuose, ar ten padėti indėlį, mokesčių inspekcija turės patikrinti pinigų kilmę. Bankomatai šiandien ir rytoj neveiks, o vėliau išduos tik mažesnio nominalo pinigus: nauji 500 bei 2000 banknotai pasirodys apyvartoje tik po 3-4 savaičių.

Visa ši drastiška reforma daroma kovojant su šešėline ekonomika ir „juodais pinigais“, ir, anot Indijos vadovų, skurdžiai gyvenantiems nereikia dėl to pergyventi, nes tai palies tik turtinguosius: turintys daugiau nei 7 eurus grynais matyt jau turėtų būti priskirti šiai turtingųjų kategorijai. Tokia reforma atrodo ypač drąsiai šalyje, kur dauguma atsiskaitymų vyksta grynais, o bankų sąskaitų apskritai nedaug kas turi. Tikėtina, jog labiausiai tai palies smulkiuosius prekybininkus, ūkininkus ir vidutinę klasę, mat tikrai turtingi pinigus laiko bankinėje sistemoje (joje esančių pinigų ši naktinė reforma nepalies).

Toks eksperimentas bus įdomus ir kitu kampu: kas būna, kai staiga drastiškai (kad ir laikinai) sumažėja pinigų pasiūla? Prie viso to, kad iš apyvartos bus išimta didžioji dalis grynųjų, bus įvesti ir apribojimai išimti grynuosius iš bankomatų. Galvojant apie tai, kokio dydžio yra Indija ir kaip prastai ten veikia infrastruktūra, vien užtikrinimas, kad bankomatai neišdžiūtų ir banknotų logistika veiktų be trikdžių atrodo svaiginamai sudėtingas uždavinys. Kas būna su valstybės valiuta, kai vieną dieną gali atsibusti (visiškai tiesiogine prasme) ir suprasti, jog tavo grynųjų santaupoms iškilo pavojus? Tikriausiai nuo šiol santaupas laikysi doleriais, eurais, ar, kas labiausiai tikėtina Indijos atveju, auksu.

Kas gali įvykti su neformaliuoju sektoriumi, kuriame mokesčiai nemokami ir dauguma gauna atlyginimus „vokeliuose“? Jei tai būtų nedidelė ekonomikos dalis, gal poveikis ir nebūtų didelis, bet, Indijos atveju, staigus šešėlinio verslo perėjimas į šviesą būtų tolygus staigiam ir dideliam mokesčių pakėlimui – tikėtina, jog turėtų sumažėti atlyginimai ir dirbančiųjų skaičius. Sakoma, kad nemažai nekilnojamo turto, statybų ir žymiojo Indijos Bollywood’o sukasi šešėlyje. Dažniausiai šešėlyje sukasi vietiniai verslininkai, tuo tarpu užsienio kompanijoms tai gali išeiti į naudą – jos visada mokėdavo mokesčius ir viską darydavo skaidriai.

Toks sprendimas atrodo labai drąsus dar ir dėl to, kad jis palies ir daug valdininkų, kurie korupcijos būdu yra prikaupę dideles sumas grynųjų: atsisukti prieš savo komandą reikia tikrai daug ryžto. Ir tikriausiai tokia reforma galima tik tokioje valstybėje, kur didžioji dalis rinkėjų neturi santaupų. Jei tai kas bandytų siūlyti Lietuvoje, kone labiausiai nukentėję būtų pensininkai, kurie iki šiol nemažas sumas nepasitikėdami bankais grynais laiko namie. O ir visuomenės palaikymo priverstiniu būdu visus suginti į bankinę sistemą vargu ar rasi. Įdomu bus stebėti, kuo tai baigsis.

Sociologinės apklausos apie politiką – vėluojantis indikatorius

Šiandien delfi.lt pateikdamas naujausius apklausų duomenis rašo:

Apklausa buvo atlikta spalio 19-27 dienomis, vadinasi, dalis žmonių apklausta iki antrojo rinkimų turo spalio 23 dieną, dalis – po jo. Per tą laiką labai išaugo S. Skvernelio populiarumas: nuo 5,4 proc. iki 13,4 proc. Tai tikriausiai nenuostabu, nes Valstiečių ir žaliųjų sąjunga būtent šį politiką siūlo užimti premjero pareigoms. Paūgėjo ir Tėvynės sąjungos-Lietuvos krikščionių demokratų pirmininko Gabrieliaus Landsbergio reitingas nuo 9,3 proc. iki 12,6 proc.
[…]
Tuo metu ilgą laiką visuomenės nuomonės ir rinkos tyrimų bendrovės apklausose pirmu numeriu figūravęs socialdemokratų lyderis A. Butkevičius patyrė reitingų nuosmukį: jo galimybės eiti šias pareigas gyventojai po rinkimų labai suabejojo ir šio politiko populiarumas smuko nuo 23 proc. iki 9,3 proc.

Visi šie pokyčiai labai aiškiai atsispindi reitingų grafike:

Kas tiktų į premjerus

Kyla labai natūralus klausimas, ar tokių apklausų metų gaunami reitingai vertingi nuspėjant ateitį – bent jau iš duomenų atrodo, jog jie yra labiau vėluojantis politinio populiarumo indikatorius, į kurį per daug dėmesio kreipti nereikia (pamoka socialdemokratams?). Dar daugiau – įtarčiau, jog populiarumas apklausose tiesiogiai susijęs su politikų paminėjimo dažnumu (ir kontekstu) žiniasklaidoje. Kuo daugiau apie konkretų žmogų kalbama kaip apie galimą premjerą, tuo daugiau kam jis atrodys tinkamas šiam darbui.

Tikriausiai tuo labai stebėtis nereiktų, mat jeigu manęs kas gatvėje sustabdęs paklaustų, kokia amerikietiško futbolo komanda kitais metais laimės Super Bowl, atsakyčiau „Green Bay Packers“, bet tik todėl, kad tai bene vienintelis komandos pavadinimas, kurį žinau. Amerikietišku futbolu visiškai nesidomiu ir nieko apie jį nenutuokiu, ir, tikėtina, jog panašiai apie tinkamus kandidatus premjero poste galvoja ir kiti apklausose dalyvaujantys: lengviausia paminėti tuos kandidatus, apie kuriuos dažniausiai pastaruoju metu kalbama viešojoje erdvėje. Ar tai reiškia, kad apklausos yra visiškai bevertės? Ne, eliminavus paminėjimų viešojoje erdvėje dažnumo efektą skaičiai galėtų tapti iškalbingesni. Jei dažnai apie kurį nors kandidatą kalbama, bet jis nefigūruoja apklausose, galima suprasti, jog jis tarp žmonių stipriai nemėgiamas (to geras pavyzdys buvo liberalų reitingų kritimas po Masiulio skandalo – paminėjimų daug, o reitingai pažemėje).