Ką perskaičiau spalį

Kadangi dukra jau kiek paaugo ir miega ramiau, spalį perskaitytų knygų sąrašas kiek trumpesnis nei rugsėjo. Tiesa, čia dar įsiterpia ir savaitės atostogos Italijoje, kurioms tikriausiai reiktų paskirti atskirą įrašą: keliauti su trijų mėnesių kūdikiu yra visai įdomi patirtis.

  • Kevin Bloom – „Continental Shift: A Journey into Africa’s Changing Fortunes“. Jau nepamenu, kas rekomendavo šią knygą, bet tikėjausi tikrai nemažai. Nemažai iš jos ir gavau, nors iki pilnos laimės kažkiek pritrūko aiškesnės vientisos minties: knyga yra dviejų Pietų Afrikos žurnalistų kelionių po Afrikos šalis aprašymų rinkinys, o kadangi šalys gana skirtingos, su skirtingomis problemomis (kai kur didžiausia vis dar bėda yra apsirūpinimas maistu, kitur – siekiama gyventi taikoje ir ramybėje, o trečiur – noras būti panašiu į išsivysčiusais šalis), tai ir knygos skyriai apima gana skirtingas temas. Bet Afrikos paveikslo dėlionė įtraukia. Atrodo, jog nuo finansų krizės ten daug kas pasikeitė: vakarai dykai pinigų nebedalina, o jeigu ir duoda paskolas ar sušelpia per tarptautines organizacijas, tai tokie pinigai ateina su papildomis sąlygomis dėl reformų, žmonių teisių, skaidrumo ir kitų sunkiai įgyvendinamų dalykų. Visa tai – puiki niša Kinijos investuotojams, kurie turi žymiai mažiau skrupulų ir nereikalauja jokių įsipareigojimų. Dar daugiau: su jais žymiai lengviau dirbti, nes jie suorganizuoja ne vien paskolą keliui statyti, bet ir atsiveža savo kompaniją, kuri tą kelią pastatys, o be to visai nespjauna ir į projekto „nubyrėjimus“, kyšius ir kitokius būdus pinigų „įsisavinimui“, nes į tai pragmatiškai žiūri tiesiog kaip verslo darymo kaštus. O ir palūkanos geresnės, nes bankas priklauso Kinijos valstybei, kuri labai skatina savo ekonomiką (tai išsiverčia į paslaugų eksportą, nes kelią stato Kinijos bendrovė su Kinijos inžinieriais ir netgi didžiaja dalimi Kinijos darbininkų). Ir pats kelias pigesnis, nes jo kokybė prastesnė, bet tai nesvarbu, nes tuo keliu nedaug kas gal ir naudosis, bet užtat bus galim pasigirti kažką padarius. Tiesa, paprasti Afrikos žmonės tuo džiaugiasi kiek mažiau: dideli infrastruktūros projektai dažnai atneša gana nedaug naudos, o ir į kinus žiūrima su įtarumu, mat jų projektuose samdoma mažai vietinių žmonių. Kita vertus, kalbinti kinai teigė, jog vietinių įdarbinti neįmanoma, nes jie nori daug (ir sveikatos draudimo, ir gerų darbo sąlygų „kaip vakaruose“), o patys dažnai pamiršta ateiti į darbą, kai iš Kinijos atvežti darbininkai dirba sunkiai, be burbėjimo ir gana pigiai. Žodžiu, visai įdomi knyga norintiems suprasti, kuo gyvena šiuolaikinė Afrika.
  • Salman Rushdie – „Shalimar the Clown“. Pastaruoju metu labai retai skaitau grožines knygas, tad reikėjo išorinio paskatinimo perskaityti šią knygą. Pripratus prie negrožinės literatūros grožinėms knygoms reikia specialiai nusiteikti, žiūrėti į tekstą atlaidžiau, suprasti, jog skaitai dėl pačio proceso malonumo, lėčiau gromuliuojant žodžius gerklėje ir stabtelint pagalvoti apie tai kas rašoma. Jeigu ne įsipareigojimas šią knygą perskaityti, turbūt šią knygą būčiau metęs gana greitai, kaip kad esu metęs Rushdie „Paskutinį mauro atodūsį“: per daug sudėtingų sakinių, nuvingiuojančių minčių ir darbo norint nepamesti siužeto giją, per daug noro pasididžiuoti nereikšmingomis detalėmis, kurios be kultūrinio konteksto gali likti nesuprastos. Kita vetus, net ir pagrindinė knygos tema – Indijos/Pakistano konfliktas dėl Jammu-Kašmyro provincijos liko gana plokščias, be aiškesnio vaizdo kodėl jis kilo ir kokios iki galo ten vyravo nuotaikos. Gal tiesiog esu atpratęs skaityti romanus.
  • Ta-Nehisi Coates – „Between the World and Me“. Labai nebloga žurnalisto iš Baltimorės knyga apie tai, kaip jaučiasi JAV juodaodžiai: apie baimės atmosferą, nes gatvėse daug smurto ir nusikalstamumo, apie tai, jog norintys siekti mokslo yra pašiepiami ir jiems sunku neiškristi iš mokyklos ir negrįžti į tą pačią gatvę. Stereotipai apie juodaodžius yra labai gajūs, ir juos visiems nelengva peržengti – net jeigu būdamas juodas tu stengiesi pasiekti ką nors daugiau, tau reikia kovoti tiek su neigiama aplinkos įtaka, tiek su tuo, kad tavo mokytojai baltieji į tave rimtai nežiūrės, nes gi vis tiek tu „nurašytas“. Į tave nerimtai žiūrės ir policininkai, nes vien dėl to, kad tu juodas, jie galvos, kad tu slepi ginklą ir gali juos nušauti. Ir išlipti iš tokio požiūrio nesiseka jau ištisus šimtmečius: amerikietiška svajonė galioja tik baltiesiems. Yra labai lengva kaltinti tingumu ar kvailumu tuos, kurie yra nieko nepasiekę, tačiau, deja, ne visi turi vienodas sąlygas ir visuomenės palaikymą siekti savo svajonių. Ar mes kartais irgi ne per skubiai apkaltinam „runkelius“ tamsumu prieš jiems suteikdami sąlygas siekti šviesos?
  • Vinnie Mirchandani – „SAP Nation: a Runaway Software Company“. Paėmiau į rankas šią knygą, nes tikėjausi kompanijos SAP istorijos, bet ji pasirodė esanti SAP kompanijos kritika klientų ir verslo analitikų akimis. SAP yra didžiulis milžinas verslo IT sistemų rinkoje ir, atrodo, kad sunkoka rasti patenkintų ja klientų: projektai vyksta labai ilgai ir brangiai, o apčiuopiamos naudos gana mažai. Būtų įdomu pamatyti ir kitokią nuomonę apie SAP, be to šioje knygoje pasigedau.
  • James Surowiecki – „Wisdom of Crowds“. Viena geresnių populiariųjų knygų apie tai, kaip žmonių grupės priima sprendimus. Išleista senokai, prieš dešimtmetį, ir net gaila, kad kažkaip tuo metu jos neperskaičiau – skaitant ją dabar beveik viskas jau girdėta, daug kartų skaityta kur nors pas Malcolm Gladwell, Dan Ariely ar Daniel Kahneman. Bet jei dar nesate persisotinę tokio tipo skaitinių – tikrai patiks.

Ką turi mokėti analitikas

Neseniai iš skaitytojo gavau klausimą: ką turi mokėti analitikas? Klausimas ne toks jau paprastas, nes neužtenka išvardinti kelias programavimo kalbas ar paminėti kelias technologijas: negali būti jokio baigtinio sąrašo prie kurio sudėliojus varneles galėtum sakyti, kad, va, šitas analitikas tikrai yra geras. Juk tai tėra tik įrankiai.

Nors daugelis analitiko negali įsivaizduoti be matematikos ar statistikos žinių, manau, kad pati svarbiausia sritis, kurią turi išmanyti analitikas yra verslas, kuriame jis dirba. Juk jokios naudos iš to, kad gali sudaryti labai protingą statistinį modelį, jeigu verslas iš to negali padaryti jokių protingų įžvalgų. Sugebėti užduoti teisingus klausimus ir į juos atsakyti gal ir ne šimto procentų užtikrintumu, bet greitai ir efektyviai versle yra labai svarbu. Ir labai dažnai būna, jog teisingai ir laiku užduotas klausimas („o mes toje šalyje sudarėme galimybes atsiskaityti debetinėmis kortelėmis?“) atneša žymiai daugiau naudos nei sudėtingi modeliai, beribės procesoriaus galios bei aukštosios matematikos diplomai. Gal būt dėl to ne visada akademinėje srityje daug pasiekusiems žmonėms sekasi dirbti analitikais: tam reikia kiek kitokios patirties, greito mąstymo ir susitaikymo su tuo, kad nemažai sprendimų gali būti ir klaidingi.

Verslo poreikių supratimas sudėtingas ir tuo, kad nelabai aišku, iš kur to mokytis – tai įgyjama per patirtį. Kai jau matai nebe pirmą ekonomikos nuosmukį, gali numatyti, kas bus su apyvartinėmis lėšomis, kai siuvi nebe pirmas kelnes, žinai, kad šitos medžiagos tiekėjas kartais vėluoja, kai klientų kreditingumą analizuoji nebe pirmus metus, supranti, kad verta atsižvelgti ir į kliento amžių ar šeimyninę padėtį. Bet tokios informacijos neperskaitysi kokioje nors vienoje knygoje: reikės ilgai ir aktyviai tuo domėtis. Todėl labai svarbu, kad analitikas būtų žingeidus, domėtųsi savo analizuojama sritimi bei mokėtų uždavinėti teisingus klausimus. Atsakymai ateis su patirtimi.

Aišku, techninės žinios analitikui irgi reikalingos: juk reikia mokėti iš duomenų atrasti dėsningumus. Kadangi nemaža analitiko darbo dalis yra duomenų traukimas ir valymas, analitikui praverstų mokėti elgtis su duomenų bazėmis (dažniausiai tai reiškia, jog vertėtų neblogai žinoti SQL kalbą). Duomenis transformuojant reiktų mokėti kokią nors programavimo kalbą: R, Python, Ruby ar dar ką nors ne itin sudėtingo. Tai labai pagreitina duomenų analizės darbus, jau nekalbant apie tai, kad šių programavimo kalbų reikės norint daryti sudėtingesnes duomenų analizes – Excelis yra lyg vaikiškas kastuvėlis, lyginant su kitais įrankiais, kuriais reikia mokėti norint kapstytis didelių duomenų sankaupose.

Beje, matematikos žinių analitikui ilgai gali neprireikti – jeigu nedaromi sudėtinti dirbtinio intelekto modeliai, visiškai galima apsieiti ir be jos. Matricų algebra tampa naudinga tik labai pažengusiems. Bet be statistikos žinių toli nenueisi: reikia žinoti, kas yra statistinis reikšmingumas tam, kad šią savaitę dviem procentais nukritus pardavimams nepultum į paniką – gal būt tai tik pokytis normalių svyravimų ribose. Neprošal žinoti ir kaip analizuoti laiko eilutes – trendų ir sezoniškumo analizė gali duoti puikių įžvalgų.

Dar viena dažnai pražiūrima analitiko savybė: mokėjimas komunikuoti. Kad ir kokias protingas įžvalgas iš duomenų padarytum, jas reikės papasakoti kitiems kolegoms, ir dažniausiai p-reikšmės, autokoreliacija ir Chi kvadratas jiems absoliučiai nieko nesakys. Geras analitikas moka duomenis prašnekinti: rasti įžvalgas, jas suprantamai pavaizduoti grafikuose ir įtikinamai aprašyti žodžiais (ir nebijoti prieš auditoriją papasakoti jas gyvai). Puikus to pavyzdys yra Gitanas Nausėda – mokėjimas komunikuoti neretai yra svarbiau nei pačios sudėtingiausios akademinės analizės superkompiuteriais. Man pačiam to vertėtų pasimokyti.

Antro rinkimų turo prognozė pasitelkiant neuroninius tinklus

Pirmiausia turiu įspėti: nemanau, kad reikėtų į gautus rezultatus žiūrėti labai rimtai. Neuroninio tinklo mokymui naudojau tik 2012-ų metų Seimo rinkimų apygardų duomenis, tad imtis labai nedidelė, o tai turėtų lemti ir gana nemažą paklaidą prognozėse. Galbūt tikslesnių rezultatų būtų galima tikėtis naudojant apylinkių, o ne apygardų duomenis.

Prognozuoti šių metų rezultatus iš 2012-ų metų duomenų nelengva ir dėl stipriai pasikeitusio partijų populiarumo: žalieji valstiečiai prieš ketverius metus nebuvo labai patrauklūs rinkėjams, o ir Skvernelio atsiradimas labai šią partiją pakeitė. Įdomu tai, kad Darbo partijos bei tvarkiečių kritimas iš aukštumų gana gerai atsispindi neuroninio tinklo rezultatuose: jiems prognozuojama laimėti mažiau apygardų nei jie šiuo metu pirmauja.  Kad ir kaip ten būtų, gavau tokį rezultatą:

Prognozė Dabar pirmauja
LVZS 24 21
TSLKD 24 22
LSDP 9 10
LRLS 5 4
LLRA 3 3
TT 2 4
KITI 1 2
DP 1 3
NEP 2 2

Neuroninis tinklas „išmoko“, jog stiprus lenkų pirmavimas apygardoje dažniausiai lemia ir pergalę antrame ture. Algirdui Paleckiui pergalė neprognozuojama, nes istoriniai pernai metų duomenys rodo, jog „Frontui“ ne itin sekėsi – bet jo puikus pasirodymas pirmame ture tikriausiai buvo netikėtas ir daugeliui politikos analitikų. Keisčiausia prognozė, kuria sunku patikėti yra 52-oje Visagino-Zarasų apygardoje, kurioje antrame ture kausis Darbo partija su tvarkiečiais (pergalė prognozuojama Darbo partijai, nors stipriai pirmauja tvarkietis Dumbrava). Keistoka, bet gal ir logiška 40-osios Telšių apygardos prognozė, kur stipriai pirmaujantis darbietis turi mažai šansų atsilaikyti prieš valstietį Martinkų. Kaip jau minėjau, Darbo partijai šis modelis daug šansų nepalieka. Visas apygardų sąrašas su prognozuojamais nugalėtojais ir tikimybėmis, kad nugalės pirmaujantis:

Turint nedaug istorinių duomenų tikriausiai labiau pasitikėčiau politikos ekspertų prognozėmis konkrečioje apygardoje arba modeliuočiau tikimybes kiek kurios partijos rėmėjų ateis į antrą turą bei palaikys ne savo partijos kandidatą: būtent tokį modelį ruošia WebRobots komanda, kuri leido man pasinaudoti jų surinktais iš VRK duomenimis. Idėja patreniruoti neuroninį tinklą ir kilo susidūrus su problema ar nebūtų galima kaip nors statistiškai išskaičiuoti tikimybių, kiek, tarkim, socialdemokratų palaikytų konservatorių kandidatą jei jis būtų likęs prieš darbietį. Taip pat galima pažiūrėti į Vaidoto Zemlio prognozes.

Post Mortem

Rezutatai buvo stipriai kitokie, nei buvo tikimasi: daugiausiai prašauta (tikriausiai dėl to, kad 2012-aisias valstiečiai pasirodė ne itin įspūdingai) su LVŽS ir TSLKD. Tam tikros tendencijos buvo teisingos – Darbo partija, Tvarka ir Teisingumas bei Socialdemokratai iš tiesų gavo mažiau mandatų nei buvo pirmaujama po pirmo turo, tuo tarpu liberalai sugebėjo laimėti daugiau apygardų nei pirmavo po pirmo turo, tačiau šių pokyčių mastas buvo žymiai (žymiai žymiai) didesnis. Iš viso, neuroniniai tinklai sugebėjo atspėti 48 apygardas (67% tikslumas). Palyginimui – rankomis dėliotas Webrobots komandos modelis pasiekė 80% tikslumą. Tiesa, atmetus kai kuriuos nelogiškus neuroninio tinklo siūlymus, kurie plika akimi atrodė keisti ir pataisius prognozę Dainavos apygardoje dėl Vinkaus skandalo (ko iš 2012-ųjų duomenų niekaip nebuvo galima žinoti), buvo galima pasiekti maždaug 75% procentų tikslumą. Ne kažką, bet šis tas.

Skaičiuojant modelio patikimumą, dažnai žiūrimas plotas po Receiver Operating Characteristic (ROC) kreive (kuo gerenis modelis, tuo jis turėtų artėti link vieneto). Štai modelių palyginimai:

Area under ROC curve
Neuroninis tinklas (tikimybės) 0.597143
Webrobots modelis 0.708095
Neuroninis tinklas (binarinis) 0.549048
Laimės pirmaujantis 1 ture 0.500000
Laimės pirmaujantis daugiamandatėje 0.487619

O čia pačios ROC kreivės:

Skirtingų modelių ROC kreivės

 

Skaitykite toliau