úterý 8. února 2011

Zločin a statistika



Smrt jednoho je tragédie. Smrt milionu je statistika. (údajně J.V.Stalin)

Věřím jen té statistice, kterou si sám zfalšuji. (údajně W.S.Churchill) [1]


Statistika má špatnou pověst. Kromě toho, že je považována za nudnou, nevzbuzuje ani příliš mnoho důvěry. Svým způsobem je to paradox: statistické metody by měly sloužit k snažší extrakci pravdy z dat, ve kterých není možné se vyznat na první pohled. Přesto, statistiku je možné (vědomě i nevědomě) použít k transformaci pravdivých údajů v naprostou lež. V tomto článku se podíváme na dva způsoby, jakými je možno spáchat takový statistický „zločin“.

Simpsonův paradox
V letech 1972-1994 byla v Británii provedena studie zkoumající vliv kouření na dlouhodobé přežití u žen. Z dotazovaných kuřaček bylo po dvaceti letech mrtvých 24%, zatímco z nekuřaček plných 31%. Tento výsledek jakoby napovídal, že varování „kouření zabíjí“ na krabičkách cigaret nemusí být zcela pravdivé.

Obhájci kouření se mohou odvolat i na jinou statistiku: mezi dětmi narozenými s nízkou porodní vahou je kojenecká úmrtnost nižší, pokud je matka kuřačka. Nízká porodní váha bývá doprovázena zdravotními komplikacemi a zvýšenou kojeneckou úmrtností obecně, a platí to bez ohledu na kouření matky, ale když už má kojenec nízkou porodní váhu, je jeho šance na přežití větší, jestliže jeho matka během těhotenství kouřila [zdroj].

V roce 1973 byla universita v Berkeley obviněna z diskriminace žen při přijímacím řízení. Ovinění bylo založeno na statistice: z 8442 mužů hlásících se na universitu bylo přijato 44%, zatímco z 4321 žen pouze 35%. Rozdíl byl natolik výrazný, že jej lze těžko označit za náhodu.

Není asi vyloučeno, že by na Berkeley v sedmdesátých letech minulého století upřednostňovali muže, ale první dva příklady vypadají jako propaganda z dílny tabákové lobby. Ve skutečnosti mají všechny tři příklady společného jmenovatele: pravdivé informace v nich obsažené zdánlivě implikují závěr, který je napravdivý. Jedná se o příklad Simpsonova paradoxu.

Paradoxnost Simpsonova paradoxu vynikne při pohledu na informace o počtu přijatých uchazečů o studium na Berkeley rozepsané pro jednotlivé studijní obory zvlášť (data pro šest největších oborů ze sto jednoho):




obor muži ženy
zájemců přijatých úspěšnost zájemkyň přijatých úspěšnost
A 825 512 62% 108 89 82%
B 560 313 56% 25 17 68%
C 325 120 37% 593 202 34%
D 417 138 33% 375 131 35%
E 191 53 28% 393 94 24%
F 373 22 6% 341 24 7%
A-F 2691 1158 43% 1835 557 30%



Z tabulky je patrné, že na většině oborů jsou úspěšnější ženy. Muži jsou na tom lépe pouze v oborech C a E, a i tam je jejich převaha relativně malá (37:34 a 27:24). Přesto, v úhrnném výsledku, muži vítězí jasně 43:30. Aby paradox vyniknul ještě lépe, zkusme uměle snížit počet úspěšných mužů v oborech C a E na 100 a 40; jejich relativní úspěšnost by pak byla 30% a 21%. V tomto hypotetickém případě by na jednom každém oboru z šesti sledovaných byly ženy úspěšnější než muži, a přesto, v celkovém součtu, by úspěšnost mužů byla stále téměř 42% - tedy výrazně více, než 30% u žen!

Při bližším pohledu na data je patrné i vysvětlení paradoxu. Obory C a E, kde byla šance na přijetí nízká, byly velmi populární mezi uchazečkami, zatímco jejich mužští kolegové se ve velkém hlásili na obor A, kam se dostat bylo relativně snažší. I když si tedy v rámci jednotlivých oborů ženy vedly zpravidla o něco málo lépe, jejich celková úspěšnost odrážela především výsledky z těžkých přijímaček na C a E, zatímco mužská celková úspěšnost byla silně ovlivněna lehkým oborem A.

Podobně se dají vysvětlit i oba kuřácké případy. V prvním z nich hraje roli věk. V době konání průzkumu bylo kouření populární mezi mladými Britkami, zatímco ve starší generaci ženy příliš nekouřily. Množina kuřaček tak byla v průměru mladší, než množina nekuřaček, a z tohoto prostého důvodu byl počet úmrtí během dvaceti let v první skupině nižší. V případě porodní váhy je vysvětlení toto: Kouření matky ve skutečnosti zvyšuje riziko nízké porodní váhy, a tím pádem i riziko úmrtí kojence. Na druhé straně nízká porodní váha nemusí být sama o sobě příčinou úmrtí, může být i doprovodným příznakem jiných zdravotních problémů. Tyto problémy pak mívají v průměru větší šanci kojence zabít, než pouhá nízká váha. Když vybereme pouze kojence s nízkou vahou, pak ve skupině dětí nekuřaček je vyšší procento těch, které mají nízkou váhu v důsledku závažných zdravotních komplikací, prostě proto, že druhá skupina je nafouknuta dětmi, které mají nízkou váhu pouze následkem kouření jejich matky.

Simpsonův paradox může nastat, kdykoli zapomeneme zohlednit tzv. matoucí proměnné. Matoucí proměnnou je vlastnost, která ovlivňuje výsledky analýzy, a její hodnota je rozložena různě v obou porovnávaných skupinách, aniž by to bylo na první pohled vidět. V případu Berkeleyské pohlavní diskriminace byla takovou proměnnou ochota hlásit se na těžké obory, v případě britských kuřaček to byl věk, a v případě nízké porodní váhy to byla četnost nezávislých zdravotních komplikací. Pro vyvození správných závěrů ze statistické analýzy je klíčové, aby porovnávané skupiny byly kontrolovány na výskyt potenciálně matoucích proměnných. V lékařských výzkumech to bývá mnohdy problém.

Lineární regrese

Idea lineární regrese je jednoduchá: máme dvě proměnné x a y, které na sobě závisí (například x je množství vitamínů, které člověk přijme ve formě doplňků (tedy navíc k běžné dávce v potravě) každý den, a y je střední délka života), a chceme zjistit, jak x ovlivňuje y. Závislost by měla být hladká, a nejjednodušší hladká závislost je lineární. Data, která lze získat, jsou nutně zatížena šumem, takže pokud si nakreslíme do grafu množinu bodů, z nichž každý odpovídá jednomu evidovanému člověku (na vodorovné ose jeho průměrná denní dávka vitamínů, na svislé dožitý věk), nic moc z toho nevidíme [*]:





Právě proto se hodí regrese, která dokáže odfiltrovat šum, a ukáže pravou závislost y na x. Ukazuje se, že s rostoucím dávkou vitamínových doplňků délka dožití pomalu klesá. Dá se tedy usoudit, že doplňky škodí a je vhodné se jich vyvarovat.





Takové rozhodnutí je ale ukvapené. Je totiž dost dobře možné, že skutečná závislost není lineární, a užití lineární regrese je tak neoprávněné. Lepší než dlouhé žvanění je třetí graf, ve kterém jsem eliminoval šum:





Teď je očividné, že lineární regrese nejenže odfiltrovala šum, ale odfiltrovala i značnou část podstatné informace o závislosti. Doplňky ve velkém množství skutečně výrazně škodí, ale v malém množství jsou naopak prospěšné, lineární regrese ale tyto efekty zprůměruje do mírné škodlivosti.

(Tento příklad je inspirován kritikou Bjelakovićovy analýzy účinků některých atioxidantů [odkaz] uveřejněné v roce 2007. Osobně jsem nekontroloval věcnou správnost této kritiky, nicméně i pokud v tomto případě byla kritizovaná studie v pořádku, obecné varování před zbrklým užitím lineární regrese platí.)

Zločinů proti statistice je pochopitelně více, neboť lidé jsou tvořiví, nicméně moje ochota psát se pro dnešek vyčerpala. Do budoucna ale nevylučuji další pokračování na téma tohoto článku.


Poznámky:
1. Oba citáty jsou svým údajným autorům připisovány neprávem. Původ prvního citátu o smrti a statistice není jasný, ale neexistuje doklad toho, že by výrok pocházel skutečně od Stalina (viz též Stalinovu stránku na Wikicitátech a tam uvedené odkazy). Slova o falšování statistiky vložil Churchillovi do úst Josef Goebbels v rámci válečné propagandy.

1 komentář:

  1. For newest information you have to visit the web and
    on web I found this website as a best web page for newest updates.


    Also visit my blog post ... Swiftpaydayloansonline.co.uk

    OdpovědětVymazat