Delfi įtakingiausi verslininkai

Kiekvienais metais portalas Delfi daro svarbių žmonių apklausas ir taip išrenka įtakingiausius šalies žmones. Pasižiūrėjus į įtakingiausių verslininkų rinkimus pasirodė, jog politikai ir patys verslininkai labai skirtingai vertina tam tikrų verslininkų įtaką, tad ką politikai nuvertina ar pervertina?

Tam pirmiausia reikėjo išsivalyti duomenis. Po keliasdešimt search-replace operacijų iš HTML teksto pasidariau švarų CSV, kuris jau tinkamas analizei.

verslas = read.csv2('/Users/petras/datadev/verslininkai.csv', header=TRUE, sep=",")
head(verslas)
##         Verslininkas Politiku_balas Verslininku_balas Pop_balas
## 1    Robertas Dargis            128                89         9
## 2    Gitanas Nausėda             93                62         9
## 3      Darius Mockus             58                68        16
## 4 Nerijus Numavičius             56                62        18
## 5   Nerijus Mačiulis             41                39         4
## 6     Arvydas Avulis             36                22         4
##   Ziniasklaidos_balas Visuomenininku_balas Tarnautoju_balas
## 1                  54                   80              103
## 2                  46                   64               78
## 3                  53                   36               56
## 4                  50                   36               41
## 5                  30                   28               42
## 6                  23                   17               51

Duomenų normalizavimas

Žymiai patogiau dirbti su santykiniais skaičiais, tad absoliučius balus paverčiau į santykinius, padalindamas juos iš kiekvienos kategorijos respondentų skaičiaus (bent jau spėju, jog būtent tai reiškia maksimalus galimas balų skaičius kategorijoje). Santykinis rodiklis reiškia, kokia dalis respondentų pažymėjo konkretų verslininką kaip vieną iš 5 įtakingiausių Lietuvoje.

verslas %>% 
  mutate(Politiku_balas = Politiku_balas / 196) %>%
  mutate(Verslininku_balas = Verslininku_balas / 137) %>%
  mutate(Pop_balas = Pop_balas / 29) %>%
  mutate(Ziniasklaidos_balas = Ziniasklaidos_balas / 93) %>%
  mutate(Visuomenininku_balas = Visuomenininku_balas / 106) %>%
  mutate(Tarnautoju_balas = Tarnautoju_balas / 160) -> verslas

Tiesinė regresija

Pritaikome paprastą tiesinę regresiją.

fit <- lm(Verslininku_balas ~ Politiku_balas, data=verslas) -> fit
summary(fit)
## 
## Call:
## lm(formula = Verslininku_balas ~ Politiku_balas, data = verslas)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.118173 -0.017360  0.002104  0.012048  0.192314 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -0.002738   0.006480  -0.423    0.674    
## Politiku_balas  1.036687   0.049748  20.839   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.04563 on 68 degrees of freedom
## Multiple R-squared:  0.8646, Adjusted R-squared:  0.8626 
## F-statistic: 434.3 on 1 and 68 DF,  p-value: < 2.2e-16

Kad jau turime regresiją, kurios R^2 yra 0.86, galima pasižiūrėti, ką labiausiai vertina verslininkai, lyginant su politikais.

verslas$diff <- residuals(fit)
verslas %>% 
  ggplot(aes(x=diff, y=reorder(Verslininkas, diff))) + theme_light() + 
    geom_point(size=1) + 
    geom_segment(aes(y=Verslininkas, yend=Verslininkas, 
                     x=0, xend=diff, color=(diff>0))) +
    geom_point(size=1) + 
    theme(axis.text.y=element_text(size=6), axis.title=element_text(size=8)) + 
    guides(color=F) + ylab("") + 
    xlab("Verslininkų vertinimas, lyginant su politikais") 

Įdomu tai, kad politikai daug įtakos suteikia asociacijų ir konfederacijų veikėjams, bet verslininkams jie įspūdžio nedaro: grafiko apačioje liko Danas Arlauskas bei Stasys Kropas. Matyt politikams su jais tenka nemažai bendrauti, bet reali jų įtaka kyla ne iš pačių asmenybių, o iš atstovaujamų interesų. Tuo tarpu verslininkai žymiai daugiau reikšmės suteikia Dariui Mockui bei Nerijui Numavičiui: asmenims, kurie atstovauja savo pačių interesus. Gal kiek netikėtai trečias tarp labiausiai politikų nuvertintų verslininkų yra Dalius Misiūnas: energetika verslininkams labai svarbu, bet ji kontroliuojama valstybės ir pačių politikų, tad politikai energetikų galios nesureikšmina.

Tarp didžiųjų bankų ekonomistų irgi įdomus prasilenkimas: Gitanas Nausėda bei Raimondas Kuodis yra politikų ekonomistai, o Nerijus Mačiulis ir Jekaterina Rojaka - labiau verslininkų.

Balsuojančiųjų koreliacijos

Ne visos balsuotojų grupės turi vienodą nuomonę. Galima paskaičiuoti koreliacijas tarp skirtingų balsuotojų.

cor(verslas %>% select(-Verslininkas, -diff))
##                      Politiku_balas Verslininku_balas Pop_balas
## Politiku_balas            1.0000000         0.9298451 0.6915122
## Verslininku_balas         0.9298451         1.0000000 0.8094200
## Pop_balas                 0.6915122         0.8094200 1.0000000
## Ziniasklaidos_balas       0.8891672         0.9622906 0.8549599
## Visuomenininku_balas      0.9585121         0.9400149 0.6876915
## Tarnautoju_balas          0.9715207         0.9244120 0.6896682
##                      Ziniasklaidos_balas Visuomenininku_balas
## Politiku_balas                 0.8891672            0.9585121
## Verslininku_balas              0.9622906            0.9400149
## Pop_balas                      0.8549599            0.6876915
## Ziniasklaidos_balas            1.0000000            0.8930495
## Visuomenininku_balas           0.8930495            1.0000000
## Tarnautoju_balas               0.8978414            0.9541088
##                      Tarnautoju_balas
## Politiku_balas              0.9715207
## Verslininku_balas           0.9244120
## Pop_balas                   0.6896682
## Ziniasklaidos_balas         0.8978414
## Visuomenininku_balas        0.9541088
## Tarnautoju_balas            1.0000000

Atrodo, jog labiausiai išsišoka Popkultūros ir sporto atstovų nuomonė. Jų atotrūkis dar geriau matosi spalvotame grafike:

qplot(x=Var1, y=Var2, 
      data=melt(cor(verslas %>% select(-Verslininkas, -diff))), 
      geom="tile", fill=value) +
  xlab("") + ylab("") + guides(fill=F) + theme_light() + 
  theme(axis.text.x=element_text(angle=90)) 

Nenuostabu, kad tarnautojai ir politikai turi labai panašias nuomones (koreliacijos koeficientas net 0.97). Šiose dviejose grupėse buvo apklausta net 160 + 196 = 356 respondentų, tad vienoda valdininkų/politikų nuomonė rinkimuose yra labai stipriai reprezentuojama. Žiniasklaida yra antra labiausiai „nepriklausoma“ grupė (koreliacija su kitomis grupėmis mažesnė nei 0.9), nors jos nuomonė geriausiai koreliuoja su verslininkų nuomone.