Antro rinkimų turo prognozė pasitelkiant neuroninius tinklus
Pirmiausia turiu įspėti: nemanau, kad reikėtų į gautus rezultatus žiūrėti labai rimtai. Neuroninio tinklo mokymui naudojau tik 2012-ų metų Seimo rinkimų apygardų duomenis, tad imtis labai nedidelė, o tai turėtų lemti ir gana nemažą paklaidą prognozėse. Galbūt tikslesnių rezultatų būtų galima tikėtis naudojant apylinkių, o ne apygardų duomenis.
Prognozuoti šių metų rezultatus iš 2012-ų metų duomenų nelengva ir dėl stipriai pasikeitusio partijų populiarumo: žalieji valstiečiai prieš ketverius metus nebuvo labai patrauklūs rinkėjams, o ir Skvernelio atsiradimas labai šią partiją pakeitė. Įdomu tai, kad Darbo partijos bei tvarkiečių kritimas iš aukštumų gana gerai atsispindi neuroninio tinklo rezultatuose: jiems prognozuojama laimėti mažiau apygardų nei jie šiuo metu pirmauja. Kad ir kaip ten būtų, gavau tokį rezultatą:
Prognozė | Dabar pirmauja | |
---|---|---|
LVZS | 24 | 21 |
TSLKD | 24 | 22 |
LSDP | 9 | 10 |
LRLS | 5 | 4 |
LLRA | 3 | 3 |
TT | 2 | 4 |
KITI | 1 | 2 |
DP | 1 | 3 |
NEP | 2 | 2 |
Neuroninis tinklas „išmoko“, jog stiprus lenkų pirmavimas apygardoje dažniausiai lemia ir pergalę antrame ture. Algirdui Paleckiui pergalė neprognozuojama, nes istoriniai pernai metų duomenys rodo, jog „Frontui“ ne itin sekėsi – bet jo puikus pasirodymas pirmame ture tikriausiai buvo netikėtas ir daugeliui politikos analitikų. Keisčiausia prognozė, kuria sunku patikėti yra 52-oje Visagino-Zarasų apygardoje, kurioje antrame ture kausis Darbo partija su tvarkiečiais (pergalė prognozuojama Darbo partijai, nors stipriai pirmauja tvarkietis Dumbrava). Keistoka, bet gal ir logiška 40-osios Telšių apygardos prognozė, kur stipriai pirmaujantis darbietis turi mažai šansų atsilaikyti prieš valstietį Martinkų. Kaip jau minėjau, Darbo partijai šis modelis daug šansų nepalieka. Visas apygardų sąrašas su prognozuojamais nugalėtojais ir tikimybėmis, kad nugalės pirmaujantis.
Turint nedaug istorinių duomenų tikriausiai labiau pasitikėčiau politikos ekspertų prognozėmis konkrečioje apygardoje arba modeliuočiau tikimybes kiek kurios partijos rėmėjų ateis į antrą turą bei palaikys ne savo partijos kandidatą: būtent tokį modelį ruošia WebRobots komanda, kuri leido man pasinaudoti jų surinktais iš VRK duomenimis. Idėja patreniruoti neuroninį tinklą ir kilo susidūrus su problema ar nebūtų galima kaip nors statistiškai išskaičiuoti tikimybių, kiek, tarkim, socialdemokratų palaikytų konservatorių kandidatą jei jis būtų likęs prieš darbietį. Taip pat galima pažiūrėti į Vaidoto Zemlio prognozes.
Post Mortem
Rezutatai buvo stipriai kitokie, nei buvo tikimasi: daugiausiai prašauta (tikriausiai dėl to, kad 2012-aisias valstiečiai pasirodė ne itin įspūdingai) su LVŽS ir TSLKD. Tam tikros tendencijos buvo teisingos – Darbo partija, Tvarka ir Teisingumas bei Socialdemokratai iš tiesų gavo mažiau mandatų nei buvo pirmaujama po pirmo turo, tuo tarpu liberalai sugebėjo laimėti daugiau apygardų nei pirmavo po pirmo turo, tačiau šių pokyčių mastas buvo žymiai (žymiai žymiai) didesnis. Iš viso, neuroniniai tinklai sugebėjo atspėti 48 apygardas (67% tikslumas). Palyginimui – rankomis dėliotas Webrobots komandos modelis pasiekė 80% tikslumą. Tiesa, atmetus kai kuriuos nelogiškus neuroninio tinklo siūlymus, kurie plika akimi atrodė keisti ir pataisius prognozę Dainavos apygardoje dėl Vinkaus skandalo (ko iš 2012-ųjų duomenų niekaip nebuvo galima žinoti), buvo galima pasiekti maždaug 75% procentų tikslumą. Ne kažką, bet šis tas.
Skaičiuojant modelio patikimumą, dažnai žiūrimas plotas po Receiver Operating Characteristic (ROC) kreive (kuo gerenis modelis, tuo jis turėtų artėti link vieneto). Štai modelių palyginimai:
Area under ROC curve | |
---|---|
Neuroninis tinklas (tikimybės) | 0.597143 |
Webrobots modelis | 0.708095 |
Neuroninis tinklas (binarinis) | 0.549048 |
Laimės pirmaujantis 1 ture | 0.500000 |
Laimės pirmaujantis daugiamandatėje | 0.487619 |
O čia pačios ROC kreivės:
Skaityti toliau…Dvidešimt Nobelio vertų Rusijos istorijų
Istorija po istorijos, puslapis po puslapio, paragrafas po paragrafo: kiekvienas Svetlanos Aleksievič užrašytas sakinys persmelktas skausmu, kančia ir neviltimi. Knygoje „Padėvėtas laikas“ („Second Hand-Time: the Last of the Soviets“) patiekiama dvidešimt pasakojimų apie gyvenimą per pirmąjį dvidešimtmetį po Sovietų Sąjungos subyrėjimo. Temos atsikartoja, nors mozaika spalvinga: vieni herojai buvo nuoširdūs komunistai, kurie dar dabar liūdi dėl to, kad buvo sugriauta didžioji idėja, kuriai jie paskyrė savo geriausius gyvenimo metus, kiti herojai – nuoširdūs demokratai, kurie buvo išsiilgę laisvės, tik laukinio kapitalizmo metais nesugebėję ja pasinaudoti. Skaityti toliau…
Ką skaičiau migdydamas dukrą
Nebūčiau pagalvojęs, kad susilaukus dukros atsiras tiek daug laiko skaitymui. Kuo ji neramesnė, tuo ilgiau ją reikia nešioti ant rankų ir migdyti savo glėbyje. Kuo ji neramiau miega, tuo ilgiau ją reikia glausti prie krūtinės ir tuo vėliau perkelti į lovytę. Kuo ilgiau ją tyloje migdai glėbyje, tuo daugiau puslapių perverti Kindle skaityklėje. Dešimt knygų per penkias savaites. Sydney Finkelstein – „Superbosses“. Yra tokių puikių vadovų, su kuriais labai norisi dirbti, nors žinai, jog bus labai sunku: iš tavęs bus daug reikalaujama, bet su šypsena arsi po devyniais prakaitais, nes jie ras kaip tave tinkamai motyvuoti. Skaityti toliau…
Siddhartha Mukherjee. The Gene: an Intimate History
Labai mėgstu tokias knygas, kurios pasakoja, kaip veikia pasaulis. „The Gene. An Intimate history“ papasakoja viską, ką yra atradęs genetikos mokslas: nuo DNR iki CRISPR, nuo Darvino teorijų iki šiuolaikinių mokslininkų tyrimų. Apie genetiką turėjau tik gana paviršutinį supratimą, įgytą mokyklinėse biologijos pamokose, o perskaičius šią storoką knygą man visko daug paaiškėjo: ir kaip veikia proteinai, kaip pasireiškia paveldimumas, kam naudojama DNR polimerazė, kokios sunkiausios problemos genų inžinerijoje ir ar lengva klonuoti žmogaus DNR. Skaityti toliau…
Kaip skiriasi partijos pagal Manoseimas.lt duomenis
Prieš kelias dienas pasirodė manoseimas.lt svetainė, kurioje, atsakius į 12 klausimų, galima pasilyginti, kuri partija buvo arčiausiai jūsų nuomonės. Buvo įdomu paanalizuoti, kurios partijos yra panašiausios ir kiek jos skiriasi. Liberalai ryškiai kitokia opozicinė partija, bet išties, jiems artimiausi socialdemokratai, o ne konservatoriai. [includeme file=”notebooks/barebones/manoseimas.html”]
„Never Split the Difference“ – patikusi knyga apie derybas
Buvusio vyriausiojo FTB derybininko Chris Voss knyga „Never Split the Difference“ – vienas geresnių šių metų mano atradimų, kuriame daug veiksmo iš įkaitų dramų, praktinių derybų patarimų ir situacijų analizės. Jei kitos knygos apie derybas dažnai galvoje palieka tokį skystokai salstelėjusį neurolingvistinio programavimo poskonį, tai čia viskas aišku, logiška ir savose lentynose. Derybos joks ten ne kompromisų menas ir jose nebūtina naudotis tiesioginės rinkodaros vadybininkų triukais. Žodžiu, tai, ko ir tikėtumeis iš kieto įkaitų derybininko. Skaityti toliau…
Įtakingiausių verslininkų analizė
Vakar dariau šiokią tokią analizę, apie kurią jau rašiau Facebooke. Šiandien tiesiog bandau būdą, kaip įkelti šią analizę į dienoraščio formatą. Geresnę notebook versiją galima rasti čia, o žalius duomenis šiuo adresu. Svarbiausia pastraipa tiems, kas tingi skaityti viską: Įdomu tai, kad politikai daug įtakos suteikia asociacijų ir konfederacijų veikėjams, bet verslininkams jie įspūdžio nedaro: grafiko apačioje liko Danas Arlauskas bei Stasys Kropas. Matyt politikams su jais tenka nemažai bendrauti, bet reali jų įtaka kyla ne iš pačių asmenybių, o iš atstovaujamų interesų. Skaityti toliau…
Nauji dalykai, kuriais džiaugiesi tapus tėčiu
Pirmas garsus vaiko klyksmas tik atėjus į pasaulį, nes žinai, kad nuo šiol viskas bus kitaip; Pirma tylos minutė po kelių valandų klyksmo vaikui pagaliau užmigus, nes gal galėsi gauti akimirką atokvėpio; Pirma plati vaiko šypsena vos ryte tave pamačius, nes ji nubraukia visą susikaupusį nuovargį ir bemiegę naktį; Laisvas pusvalandis, kai vaikas dieną miega, nes galima vėl veikti tai, kas prieš buvimą tėčiu buvo visiškai įprasta; Laisva minutė su žmona, kai vaikas miega ramiai ir nebesiveja buitis, nes galima tiesiog pabūti kartu nieko neveikiant; Skaityti toliau…
Vilniaus viešojo transporto duomenys
Niekada iki šiol nenaudojau dplyr R paketo, tad norėjau pasižiūrėti, kaip jis veikia (o veikia jis tikrai patogiai!). Kadangi neseniai buvo paviešinti Vilniaus Viešojo Transporto vėlavimų duomenys, tai kaip tik šis duomenų rinkinys pasirodė tinkamas pasižaidimui. Kadangi tai labiau techninis galimybių bandymas, tai didelių įžvalgų ir neieškojau, nors visgi radau, kad privatūs vežėjai vėluoja žymiai rečiau nei VVT, troleibusai yra patikimesni nei autobusai, o savaitgaliais viešasis transportas yra punktualesnis (kuo nereiktų stebėtis – juk eismo mažiau). Skaityti toliau…
Duomenų analitiko darbas dažniausiai yra duomenų valymas
Turbūt didžiausias skirtumas tarp mokykloje ar universitete darytų duomenų analizių ir realaus pasaulio yra turimų duomenų kokybė. Rašėm savaitgaliais magistrinius darbus, pasižiūrėdami į kursiokų failus darėm „statistikos laboratorinius“, sprendėm uždavinius bei iš vadovėlio atkartojom nelabai suprantamas ekonometrinius modelius – ir beveik visada duomenys buvo duotybė. Ar tai būtų BVP augimo eilutė iš Statistikos departamento, ar Olimpiadų medalių suvestinė: beveik visada duomenys buvo švarūs, tvarkingi, be klaidų, be neužpildytų eilučių, be praleistų kablelių, romėniškų skaitmenų, sunkiai įskaitomo buhalterės Janinos rašto ir pasimetusių sąskaitų-faktūrų. Skaityti toliau…