Meillä on vahva taipumus hakea yhteyksiä asioiden ja tapahtumien välille. Usein jatkamme tätä ajattelua niin, että yhdistämme kaksi ajallisesti samanaikaista tapahtumaa niin, että toinen olisi toisen syy. Unohdamme sen tosiasian, että suurin osa samanaikaisista tapahtumista on pelkästään sattumaa. On enemmänkin poikkeus, että samanaikaiset tapahtumat liittyisivät toisiinsa ja että niiden välillä olisi syy-yhteys.
Samanaikainen tapahtuminen ei todista syy-yhteyttä
Tutkijat joutuvat painimaan tämän ilmiön kanssa päivittäin. Syy- seuraus –suhteen todistamiseen ei nimittäin tieteessä riitä ilmiöiden samanaikaisuus. Syyn ja seurauksen välillä tulee olla toimiva ja uskottava yhteys.
Esimerkiksi kun epäilee jonkun lääkkeen aiheuttavan tietyn haittavaikutuksen, ja tämän vaikutusmekanismi ei ole tiedossa, tulisi ilmiö kyetä havaitsemaan myös satunnaistetussa tutkimuksessa, jossa toinen ryhmä saa lääkettä ja toinen lumelääkettä. Tämän jälkeen pitäisi voida selvittää se, millä tavalla lääkkeen haitta syntyy.
Yksilön tapauksessa epäillyn aiheuttajan poistaminen pitäisi poistaa myös seuraus. Lisäksi aiheuttajan uudelleen lisääminen pitäisi aiheuttaa seuraus uudelleen. Näin ei tavallisesti kuitenkaan toimita sillä yksilön kannalta se ei ole edullista eikä sitä koeta tarpeelliseksi.
Esimerkiksi, jos antibiootista tulee ihottumaa, todetaan vain, että henkilö on tälle lääkkeelle yliherkkä eikä sitä tule enää jatkossa käyttää. Kuitenkin kun tutkimuksissa on antibiootteja sitten annettu näille ihottumapotilaille uudestaan, vain pienellä osalla ihottumareaktio uusiutuu ja periaatteessa lääke olisikin suurimmalle osalle potilaista käyttökelpoinen.
Korrelaatiokerroin ei todista syy-yhteyttä
Tavallisesti numeerisen tiedon käsittelyssä käytetään korrelaatiota. Korrelaatiokerroin kuvaa kahden muuttujan välistä tilastollista riippuvuutta. Tämä ei kuitenkaan tarkoita, että muuttujien välillä olisi syy-yhteys sillä korrelaatio ei kerro tästä yhteydestä mitään. Se ainoastaan kertoo että muuttujat käyttäytyvät samalla tavalla. Tämän havainnollistamiseksi käsittelen alla kolmea tapausta, joissa lukuarvot ovat todellisista tilastoista.
Kalan kulutus Yhdysvalloissa korreloi selvästi (r=0,84) hapankerman kulutuksen kanssa. Tämä ei herätä mitään kummastusta, sillä voimme kuvitella niiden välille oikeankin yhteyden. Mutta kun tarkastelen ihan saman kalatilaston yhteyttä vuosittaiseen sademäärään New Yorkissa, saan myös hyvän korrelaation ja käyrät näyttäisivät jopa seuraavan toisiaan paremmin. Voivatko siis kalan kulutus Yhdysvalloissa ja sademäärä New Yorkissa olla syy-yhteydessä toisiinsa?
Toisessa esimerkissä tarkastelen vähärasvaisen maidon kulutusta. Kuvasta käy esiin, että samaan aikaan kun tämän maidon kulutus on vähentynyt, myös nälkäkuolemat ovat vähentyneet (r=0,86). Tämän kuvan nähtyään jokainen meistä miettii, voisiko näillä olla todellista yhteyttä sillä osaamme kuvitella ainakin teoriassa biologisen yhteyden näiden välille. Vähärasvaisen maidon kulutus tosin korreloi vahvasti myös Washingtonin avioerojen kanssa. Oletammeko näiden välillä olevan syy-yhteys?
Kolmannessa esimerkissä tarkastelen kananmunien kulutusta. Se näyttäisi seuraavan mielenkiintoisesti banaanin hintakehitystä (r=0,91). Kun banaanin hinta nousee, munien kulutus kasvaa. Siirtyvätkö ihmiset syömään munia silloin, kun heillä ei ole varaa ostaa banaaneja? Kananmunien kulutus noudattaa tosin vieläkin tarkemmin autonkuljettajien kuolleisuutta muualla kuin kolareissa (r=0,88). Altistaako kananmunien lisääntynyt syönti autonkuljettajat tapaturmille?
Kaikissa näissä esimerkeissä on yhteys tilastollisesti hyvin selvä. Kaikissa niissä myös käyrien muodot sopivat toisiinsa.
Kaikki nämä esimerkit ovat kuitenkin täysin keinotekoisia ja itse valitsemiani tätä blogia varten. Hyvän korrelaation ja tilastollisen yhteyden löytämiseksi tarvitsee vain valita sopiva aikajakso, jolloin ilmiöt näyttäisivät seuraavan toisiaan ja muuttaa x ja y-akselin asteikko sellaiseksi, että käyrät menisivät mahdollisimman paljon päällekkäin.
Tämä ilmiö on tärkeä monestakin syystä. On hyvin tavallista, että teemme varsin pitkälle meneviä päätelmiä erilaisten tilastolukujen ja niiden muutosten perusteella. Ei ole myöskään harvinaista, että yllämainitun tyyppisiä käyrästöjä käytetään virheellisesti perusteluina syy-yhteydelle.
On todettu, että jäätelön syönti ja rikollisuus ajoittuvat samoihin vuodenaikoihin. Jäätelön syönti tuskin aiheuttaa rikollisuutta vaan syynä on se, että lämpinä aikoina, jolloin myös jäätelöä syödään paljon, rikollisilla on helpompi toimia.
Aikaisemmissa blogikirjoituksissani pohdin, miksi joidenkin tiettyjen sairauksien esiintyminen oli muuttunut. Tällöin keskusteluissa väitettiin tietyn lääkkeen olevan niiden syynä. Väitteiden perusteluna oli juuri tämä ilmiö. Pelkästään se, että nähtiin ajallisia muutoksia tiettyjen sairauksien osalta lääkkeen markkinoilletulon jälkeen, riitti väitteissä varmistamaan sen, että lääke aiheutti nämä sairaudet. Niin ei tietenkään voinut päätellä sillä sairauksien syissä on lukuisia muitakin tekijöitä, jotka tulee ottaa huomioon.
Mikäli haluatte tehdä omia mielikuvituksellisia käyräparvia, niitä voi toteuttaa mielensä mukaan mm. osoitteessa http://tylervigen.com/discover. Valmiita käyriä voi katsella osoitteessa http://www.tylervigen.com/spurious-correlations
”Vaikka houkutus on suuri, samanaikaisen tapahtumisen ja korrelaation perusteella ei tule tehdä päätelmiä ilmiöiden syy-seuraus -suhteesta.”
19 vastausta artikkeliin “Syy, ja sen seuraus”
Kiitos hyvästä ja selkeästä artikkelista!
Olen aiemminkin hämmästellyt, miksei korrelaation puuttumista noteerata merkittäväksi näytöksi.
Syy-yhteys edellyttää välttämättä korrelaation ja sen puute osoittaa syy-yhteyden puuttumisen.
Eli jos tapahtumien a ja b välillä ei ole suoraa korrelaatiota (vaan joko käänteinen tai olematon), niin voidaan kirkkain silmin todeta, että a ei aiheuta b:tä (eikä b a:ta) merkittävässä mitassa. Johtopäätöksen luotettavuus on sama kuin lähtödatan luotettavuus.
Ts. syy-yhteyden osoittaminen on ’dekadia’ vaikeampaa kuin syy-yhteyden kieltäminen.
Onko asia näin?
Minusta asia voidaan yleistää juuri noin.
Mutta saman tien tulee mieleen monia tilanteita missä asia ei ole noin yksiselitteinen. Esimerkiksi kysessä voi olla ei-linearrinen suhde, jolloin vasta tietyn kynnysarvon jälkeen tulee vaste. Taikka että vaaditaan enemmän kuin yksi aiheuttaja samaan aikaan, jolloin toisen puuttuminen sekoittaa korrelaation kokonaan. Luokkamuuttujissa korrelaatiota ei voi edes laskea. Muutamia pikaisia esimerkkejä mainitakseni.
Joo, tässä on teoreettinen mahdollisuus käyttää poissulkemista syy-yhteyden etsimisen rinnalla.
Minäkin yritin keksiä vastaesimerkkejä, joissa esittämäni tulkinta olisi virheellinen. Mutta keksin vain sellaisia tapauksia, jossa lähtötiedot ovat riittämättömät oikeidan johtopäätöksen tekemiseen. Johtopäätökset eivät voi olla lähtödataa luotettavampia.
Esimerkkisi ’ei-lineaarinen tapaus kynnysarvolla’ paljastuu, jos lähtödata sisältää riittävän suuren vaihtelun muuttujalle. Tulos on pätevä siinä muuttujan arvoalueessa, mikä on mukana lähtödatassa. Eli jos lähtödata on kapea (korrelaatio peittyy), niin tulos on oikein siinä muuttujan kapeassa arvoalueessa.
Esimerkkisi ’kahden muuttujan tapaus toisen puuttuessa’ on vastaava. Tulos vastaa lähtödatan tilannetta. Jos lähtödatassa olisi mukana myös toinen tekijä, niin silloin olisi tutkittava myös kaikkien muuttujien kaikki kombinaatiot korrelaation esiinkaivamiseksi.
Kaikenkaikkiaan voidaan tässäkin todeta, että koetulosten yleistäminen koskemaan testitilannetta laajempaa tapausta, on varsin herkkä virhetulkinnoille.
Ai niin pitääkö säästää doctor who, clara vai puhelinboxi ?
Jos säästetäänkin nigerialaishuijaus..
Aletaankin laatimaan hypoteeseja, jotka Juhani yrittää sitten kumota?
muuten oliko toi sinun klippisi anti obama vai pro obama ? Aamulla kattelin ja kuuntelin ylimääräisellä äänihäirinnällä. Voisi kuvitella, että dominoefektit liittyisi anti obamaan.
En tiedä kumpaa on.. Mulle tuli mieleen syy-seuraus suhteesta ensimmäisenä domino-efekti. Juhanille ilmeisesti käyrät ja korrelaatio. Ja sitten että nämä käyrät ja korrellaatio ei voi ainakaan pitää paikaansa… Vitsivitsi..
Vaikuttaa vähän toi Yhdysvaltojen touhu samalta kuin Suomenkin. Pakko on tehdä joku muutos kun vaan tietäis mitä tehtäis. Nyt kaikki sairaanhoitopiirit rakentaa kilpaa uusia seiniä ja Tampereellekin tulee uusi Sydän-yksikkö (vanha on aivan liian matala tai jotain ja foniatrian klinikkaa ei voida oikein edes käyttää) jne. Seuraavaksi toivotaan yhdenvertaisuuteen perustuen että Setä-Valtio rahoittaa kaikkia yhtä paljon. Sitten vedotaan lahjoittajiin, että Lastensairaalaankin lajoitettiin näin ja näin paljon. Potilaisiin ei sitten enää rahaa riitäkkään. Riittääköhän Obamalla? Kuubankin terveydenhuolto on paremmalla tolalla.
Jostain asioista vaan seuraa toisia asioita. Juhani piti esimerkkinä tästä syövän etenemistä. Oliko syöpä stokastinen vai determistinen, ehtiikö elimistö korjaamaan vaurion?
Katsoisin syy-yhteyttä mieluusti determistisestä näkökulmasta en stokastisesti niin, että kaikki etenee sattumanvaraisesti. Wikipedia tarjosi tähän vielä indetermistisen vaihtoehdon jossa myös sattumalla on merkitystä.
Esimerkki. Tiedemiehet tuhosivat vahingossa miljoonakaupungin;
http://www.iltalehti.fi/digi/2015081420179887_du.shtml
Jos CreditSuisse valjastettaisiin asteroidin törmäykseen, antaisiko se miljoonakaupungin tuhoutua?
Niin syy- ja seuraus suhde, onko insuliini aiheuttanut db 1 sairastuneiden kasvun, ennen insuliinia Suomessahan ei tainnut olla montaakaan tuhatta db1 sairastunutta nyt taitaa olla useita kymmeniä tuhansia. Okei absurdi väite.
Samalla tavalla kuin verenpainelääkkeet ovat verenpainetaudin aiheuttajia! 😉
niin tai mittakaava virheet, voiko jonkun asian 10 kertaistuminen 20 vuodessa olla vähemmin kuin saman asian kaksinkertaistuminen seuraavassa 20 vuodessa. Voi mutta kumpaa käytetään riippuu tietenkin raflaavuudesta. Ihmiset eivät lihoneet vaikka autokanta kymmenkertaistui, vasta seuraavana 20 vuotena, vaikka autokanta vasta kaksinkertaistui -> johtopäätös autojen lisääntyminen ei vaiktua väestön lisääntymiseen.
Yleensä tekniikan ihmiset saattavat saada mielenkiintoisia tuloksia aikaan. Jos lapset harrastavat liikuntaa 3 eri seurassa yhteensä 6 tuntia viikossa on lasten liikunnan harrastaminen lisääntynyt kolmin kertaiseksi sitten 1960 -1970 luvun, kun lapset kuuluivat n.0,75 seuraan. Tosin lapset saattoivat harrastaa tuolloin liikuntaa 15- 20 tuntia koulun lisäksi. Joku voi vetää johtopäätöksen, että lapset liikkuvat nykyään enemmin kuin aiemmin koska seuraharrastus on laajempaa.
En tiedä saako tänne ladata youtube -videoita, mutta… Domino-efekti puhuttaa enemmän kuin korrelaatio.
https://www.youtube.com/watch?v=eA42b2pZoV8
Tulisiko antibiootin käyttökelpoisuus varmentaa tutkimuksella eikä vain todeta ilman asiallisia tutkimuksia mahdollinen yliherkkyys?
Rokotuksen jälkeen jäädään puolestaan odottamaan tuleeko potilaalle anafylaksia.
Esimerkki ajallisesta tapahtumasta joka ei todista syy-yhteyttä; Lasten Perthesin tauti yleistyi Englannin teollistuessa…
Toistaiseksi kun vaihtoehtoisia antibiootteja on ollut tarjolla, aika harvoin on lähdetty tekemään altistuskoetta. Voi olla, että jatkossa tähän joudutaan turvautuman useammin.
Rokotuksen jälkeinen anafylaksia on toki ilmiönä olemassa. Mutta se on todella harvinainen tapahtuma, eikä sitä ”jäädä odottelemaan” rokotuksen jälkeen.
Tarvitaanko altistuskoetta jos potilaalle nousee antibiootista näppylöitä keholle – eikö vasta-ainemääritys verestä riittäisi?
Hyvä tietää ettei rokotuksen jälkeen tarvitse jäädä odottelemaan.
Antibiootin allerginen reaktio ei ole läheskään aina sellainen, jonka voisi mitata helposti verestä
Ehkäpä mahdollisen allergisen reaktion aktiivisuuden seurantaan tarvitaan lisäksi jotain muuta jos halutaan selvittää kudosvaurioita.
Toisekseen. Tilanteet muuttuvat. Nimeltä mainitsemattoman antibiootin käyttö joskus muulloin voi olla mahdollista kun altistus muuta kautta on vähäisempää.
Tällä oli muuten ratkaiseva osuus Toisen Maailmasodan miehistötappioihin. Antibiootit olivat amerikkalaisten salainen ase henkiinjäämistaistelussa.