Dar vieno analitiko svetainė

Petras Kudaras

Koreliacija ir priežastingumas

Pasižiūrėjęs į savo dienoraščio lankytojų sąrašą ir pamatęs, jog dažniausiai mane iš pono Google pasiekia internautai surinkę paieškos žodį koreliacija, šiek tiek nustebau. Na, bet tai priminė man kai kurias mintis, kurias man įskiepijo universitetas: būtent, kad egzistuojanti koreliacija ne visada parodo, jog egzistuoja ir ryšys tarp kintamųjų.

Patį koreliacijos apibrėžimą labai nesunkiai galima rasti wikipedijoje: tai yra statistinio ryšio tarp kintamųjų stiprumo matas. Iš esmės, paėmę duomenų poras galima statistiškai parodyti, kad vienam kintamajam pasikeitus, pasikeičia ir kitas kintamasis. Tačiau iš viso to galima daryti tik tokią išvadą, jog egzistuoja statistinis ryšys, o ne koks nors priežastingumas (t.y. A nebūtinai veikia B, nors A ir B yra statistiškai susiję). Viena geriausių tokio teiginio iliustracijų yra pavyzdys su ledų suvartojimu ir nuskendusiųjų skaičiumi: pastebėta, jog padidėjus ledų suvartojimui, padidėja ir skenduolių skaičius, tad lyg ir norėtųsi daryti išvadą, jog ledų valgymas yra labai kenksmingas plaukikams. Savaime suprantama, čia neatsižvelgiama į svarbiausią užslėptą kintamąjį: oro temperatūrą. Vasarą būna karšta, todėl padidėja tiek ledų suvartojimas, tiek skenduolių skaičius, nes daugiau žmonių maudosi. Gali būti, jog koreliacinis ryšys yra nustatomas, o iš tikrųjų priežastingumas buvo visiškai priešingas: štai praeitame amžiuje buvo manoma, jog žmonėms yra naudinga turėti blusų, nes statistiškai buvo pastebėta koreliacija tarp žmonių sveikatos ir blusų turėjimo – blusas turėjo sveikesni žmonės. Iš tikrųjų, ryšys yra visiškai priešingas: blusos dažnai sukelia ligas, o žmogui susirgus karštine, jog nebegali gyventi žmogaus plaukuose, nes ten per karšta, todėl susirgęs žmogus blusų nebeturi.

Šiais laikais prastas koreliacijos ir priežastingumo suvokimas irgi yra dažnas, o ypač „tyrimuose“, kurie yra daromi spaudoje, vaikantis sensacijų ir panašiai. Štai JAV buvo atliktas tyrimas, kuris nustatė, jog rūkymas kenkia studentų mokslams, nes rūkantys studentai gauna mažesnius pažymius. Nepagalvota, jog pagrindinė tokios koreliacijos priežastis gali būti tokia, kad rūkantys studentai yra tokie studentai, kurie ir šiaip mokslams skiria mažiau dėmesio, o gal kaip tik, jie rūko tik todėl, jog nesiseka moksluose?

Šios koreliacijos ir priežasčių ieškojimo pastabos buvo vienas vertingiausių dalykų, kuriuos teko išmokti universitete.