Keletas patarimų apklausų sudarytojams

Artėjant tam pavasario metui, kai į elektroninį paštą bei Facebook’o srautą pradeda plaukti studentų prašymai užpildyti nuobodžias ir skausmingai ilgas bakalaurinių ar magistrinių darbų anketas, užtikau labai neprastą „Partially Derivativepodcast‘o seriją apie tai, kaip teisingai tas apklausas sudarinėti. Kadangi patarimai buvo vertingi ir man pačiam, dalinuosi trumpa jų santrauka:

  • Prieš sudarant apklausos anketą reikia gerai pagalvoti, kokius duomenis nori surinkti ir kaip tuos duomenis analizuosi. Visai ne pro šalį būtų iš anksto susidaryti sąrašą grafikų, kuriuos norėsi nupiešti ir nuspręsti, kokias regresijas skaičiuosi. Anketa žymiai sutrumpės, kai tikrai žinosi kokių tiksliai duomenų reikia, o ir klausimai bus žymiai tikslesni: gal iš tiesų reikia sužinoti, kaip klientai vertina restorano maisto kokybę, o ne tai, ar jiems tiesiog patiko jame apsilankyti. Kuo trumpesnė anketa – tuo geriau. Niekas nenori švaistyti laiko pusvalandį pildydamas anketą apie restoraną.
  • Tiksliai apibrėžk savo tiriamųjų populiaciją, nes nuo to priklausys ir tavo klausimai. Jei darai apklausą apie Pokemonus, tikriausiai gali naudoti ir ne tokią formalią kalbą, nes tavo respondentai bus jauni, bet jei klausinėji apie pensijų fondus, tai ir klausimai turėtų būti labiau solidūs.
  • Klausimai turi būti trumpi ir aiškūs. Juos respondentai turi suprasti be jokių papildomų paaiškinimų.
  • Klausimai turi būti objektyvūs. Neklausk „Ar tau labai patiko mūsų restorane?“ (Bet juk tai savaime suprantama, ar ne?)
  • Kad ir kokį užduosi klausimą visada gausi kažkokį atsakymą, bet ar pats klausimas buvo teisingai suformuluotas ir teisingai suprastas?
  • Geriausia prieš paleidžiant apklausą ją patestuoti su keliais žmonėmis. Reiktų jų paklausti, kaip jie suprato klausimus, ar jiems nekilo neaiškumų. Kiek užtruko laiko užpildyti anketą? Jei testuojama internete, galima pažiūrėti ties kuriuo klausimu žmonės daugiausiai užtrunka laiko – gal jis per sudėtingas ar tiesiog sunku apsispręsti?
  • Apklausa turėtų būtų kuo trumpesnė, bet jei apklausinėji žmones asmeniškai gyvame susitikime, ji gali trukti ir pusvalandį ar valandą. Apklausiant telefonu respondentai ima dairytis į laikrodį po 10-15 minučių, o internete jie dažniausiai pasiruošę paskirti tik keletą minučių. Tiesa, jei apklausos klausimai yra labai įdomūs, jos trukmė gali būti ir ilgesnė, bet geriausia galvoti, kad tavo apklausa nėra labai įdomi.
  • Reikėtų vengti atvirų klausimų, nes juos sunku analizuoti. Analizuojant juos kažkaip reikės sudėlioti į kategorijas, o tai nėra lengva automatizuoti.
  • Internete reikėtų vengti didelių klausimų blokų, kur prašoma nuo 1 iki 10 sužymėti savo vertinimus daugeliu kriterijų (pvz „Nuo 1 iki 10 įvertinkite: grožį, spalvą, kvapą, vaizdą, pojūtį, šaltį, etc“). Dažniausiai tokie klausimų blokai netelpa mobilaus telefono ekrane ir juos labai sunku teisingai sužymėti, ypač jei reikia slinkti ekraną.
  • Respondentai dažnai yra tinginiai ir linkę pasirinkti lengviausią variantą. Jei reikia rinktis iš kelių kategorijų („obuolys“, „kriaušė“ ar „bulvė“), jie dažnai pasirinks pirmą, todėl kartais vertakiekvienam respondentui atsakymus pateikti atsitiktine tvarka.
  • Jeigu vertinimo skalė susideda iš nelyginio skaičiaus kategorijų („įvertinkite nuo vieno iki penkių“), tingus respondentas žymiai lengviau pasirinks neutralią vidurinę reikšmę. Jei būtinai norima, kad respondentas pagalvotų geriau ir išreikštų savo (kad ir silpną) preferenciją, reikia prašyti rinktis iš lyginio skaičiaus kategorijų („nuo vieno iki keturių“ arba „nuo vieno iki dešimt“). Tiesa, skalė nuo vieno iki dešimt dažnai yra per smulki: lengviau apsispręsti, kai galima rinktis iš 4-5-6 kategorijų.
  • Ar leisti rinktis kategoriją „kita“ paliekant vietos įrašyti savo variantą? Dažniausiai taip, bet reikia palikti vietos tik vienam ar dviem žodžiams, kad nebūtų daug vietos plėstis (kiek vietos paliksi, tiek kas nors ir prirašys, o po to tai sukels problemų duomenis analizuojant ir kategorizuojant). Apklausos testavimo metu reikia stebėti, ar daug kas renkasi variantą “kita” ir pagal tai pakoreguoti atsakymų variantus. Galutinėje apklausoje reiktų tikėtis, kad šio varianto pasirinkimas nedominuos.
  • Analizuojant apklausos duomenis reikia atkreipti dėmesį į atsakymų pasiskirstymą. Jei visi repondentų atsakymai yra beveik vienodi, iš apklausos gausi nedaug informacijos. Jei visi tavo restoraną vertina penkiomis žvaigždutėmis, tikriausiai ne visai teisingai formuluoji klausimą.
  • Apklausos pradžioje nedėk demografinių klausimų (amžius, lytis, pajamos ir t.t.), nes respondentui tai nuobodu. Paklausk ką nors intriguojančio, kad respondentas susidomėtų ir norėtų iki galo užpildyti visą anketą. Žmonės nuo pat pirmųjų klausimų savo anketinių duomenų pildyti nenori – jie vis dar sprendžia ar verta paskirti savo penkias ar dešimt gyvenimo minučių tavo apklausai.

Dear Data,

Vieną Kalėdų senelio dovanotų knygų surijau per vieną vakarą. Dvi profesionalios duomenų dizainerės (net nesu tikras, kaip teisingai vadinti duomenų atvaizdavimu užsiimančiuosius) – viena Londone, o kita Niujorke –  ištisus metus kas savaitę viena kitai siųsdavo ranka pieštus atvirukus su duomenų schemomis, diagramomis ir grafikais. Kiekvieną savaitę jos pasirinkdavo vis naują temą – kiek kartų pasakei „ačiū“, kiek kartų per savaitę nusijuokei, kas kabo tavo spintoje, kas yra tavo geriausi draugai, kiek kartų nusikeikei ar kiek išgėrei alkoholio. Pasirodo, per septynias dienas tokių duomenų galima prikaupti devynias galybes, ypač jei žymėsiesi ne vien plikus faktus, bet ir su šiais faktais susijusias aplinkybes: ne visi pasakyti „ačiū“ yra vienodi, kai kurie būna ištarti kita kalba, kai kurie parašyti elektroniniame pašte, kai kurie buvo pasakyti tik iš mandagumo, o kai kurie ypač nuoširdūs, nes buvo sakyti su meile savo vyrui. Per daugiau nei penkiasdešimt savaičių šios dizainerės sugalvojo daug išradingų duomenų vaizdavimo būdų ir kone kiekviena atvirutė stebina detalių gausa – bet detalės neužgožia bendro duomenų piešiamo paveikslo, jos nenumaldomai traukia gilyn, ten kur abstraktūs agreguoti skaičiai nutrindami ribą tarp statistikos ir asmeninio intymumo pavirsta į atskirus išgyventus faktus. Kai dešimt kartų pasakytas žodis „ačiū“ tampa trimis „ačiū“ padavėjai už pateiktą sriubą, dviem „ačiū“ bendradarbiui už persiųstą emailą, padėka draugui už tai, kad jis šalia ir keturiais „ačiū“, kuriuos turėjai pasakyti, bet neišdrįsai, tai nebe plika statistika: tikrai jautiesi gerai pažįstantis autorę.

Peržvelgus šio projekto atvirutes pradedi suprasti, kad duomenimis savo gyvenime galima paversti beveik bet ką, tačiau vien pats duomenų rinkimas priverčia atkreipti dėmesį į tuos dalykus, kuriuos šiaip būtum praleidęs pro pirštus. Vien tai, kad skaičiuoji šypsenas, verčia tave daugiau šypsotis, vien tai, kad seki savo alkoholio suvartojimą, galbūt daro tavo blaivesniu, vien tai, kad surenki duomenis apie žmones, su kuriais bendravai per savaitę, primena tau, kad reiktų paskambinti seniai matytai tetai. Ką matuoji, tuo ir gyveni. Apie ką nuolat galvoji, su tuo ir susitapatini. Bet norint daugiau judėti neužtenka nuolat ant rankos nešioti Fitbit apyrankę – jei duomenys surenkami paprastai ir neskausmingai, į juos lengva numoti ranka ir užsimiršti. Kuo sunkiau duomenis teko rinkti ir analizuoti, tuo juos vertini rimčiau. Kartais nėra blogai duomenis sąmoningai užsirašinėti ranka: tai leidžia stabtelti ir pagalvoti apie kiekvieną konkretų stebėjimą.

Be to, kad ši knyga apie duomenis, ji dar priminė, jog reikėtų dažniau sakyti „ačiū“, tad dar kartą dėkoju Kalėdų seneliui už „Dear Data“.

Duomenų analizė Twitter

Geras straipsnis apie tai, ką reiškia būti duomenų analitiku tokioje didelėje kompanijoje kaip Twitter: ką jie veikia, su kokiomis problemomis susiduria ir kodėl norinčiam knistis dideliuose duomenyse reikia mokėti programuoti. Jei sukūrei modelį R kalba savo kompiuteryje tai dar nereiškia, jog jį bus galima panaudoti praktikoje – ties juo dar nemažai turės prisidėti programuotojai, kol jis galės būti perkeltas į produkcinę aplinką.

Šaltinis: Doing Data Science at Twitter — Medium