středa 1. prosince 2010

Testování hypotéz II.


Toto je druhý díl mikrosérie o testování hypotéz (první zde). Nyní se podíváme na to, jak vypadá frekventistická rutina.

Pro ilustraci může posloužit testování účinnosti hypotetického léku. (V minulém díle jsem popisoval bayesovský přístup na příkladu testování vyváženosti mince. Jiný, byť v zásadě analogický, problém jsem zvolil z důvodu jeho větší realističnosti.) Každý lék musí takovým testováním projít má-li být uvolněn na trh [1].

Formálně máme rozhodnout mezi dvěma hypotézami. První z nich je, že lék nefunguje. Tato hypotéza se nazývá nulová. Alternativní hypotéza je pochopitelně ta, že lék funguje. Je dost obvyklé, že se v podobných případech netestuje, jak silně lék účinkuje, pouze je třeba stanovit, zda účinkuje vůbec nějak.

Jelikož není na počátku jasné, jaké výsledky očekávat za předpokladu platnosti nulové hypotézy, klinická studie obvykle zahrnuje dvě skupiny pacientů, z nichž jedna dostává testovaný lék a druhá (tzv. kontrolní) placebo [2]. Výsledky kontrolní skupiny nám říkají, kolik pacientů se uzdraví bez testovaného léku, a jsou tím, s čím porovnáváme výsledky testované skupiny [3]. Uvažujme zjednodušený případ, kdy se zjišťuje pouze to, zda se pacient uzdravil (nezajímá nás tedy rychlost uzdravení, vedlejší účinky léku atd.).

Pokud se uzdraví více pacientů v kontrolní skupině, lék testem samozřejmě neprojde. Složitější je případ, kdy si vedou lépe ti pacienti, kteří lék skutečně dostali. V takové situaci káží zásady frekventismu zjistit pravděpodobnost, že by ke stejnému nebo ještě výraznějšímu výsledku došlo vlivem náhody za předpokladu, že platí nulová hypotéza. Tato pravděpodobnost se nazývá hodnota p, nebo v lehce germanistní formě p-hodnota. Pokud je p-hodnota nižší, než určitá mez, která se obvykle značí α, frekventista řekne, že nulová hypotéza je vyvrácena. Hodnota α je ryze konvenční záležitost, a často se pokládá rovna 0,05; v některých případech (tuším, že testování léků sem spadá) je ale vyžadována výrazně nižší α. Aby hantýrky nebylo málo, tak je-li p < α, říká se, že výsledek testu je statisticky signifikantní (na úrovni α).

Chce to příklad. Nechť jsou výsledky shrnuty následující tabulkou:



-uzdravenýchneuzdravenýchcelkem
testovaná skupina8210
kontrolní skupina4610

Z kontrolní skupiny usoudíme, že spontánní míra uzdravení je 40%. V testované skupině se ale uzdravilo 80%. Naše p-hodnota je tedy pravděpodobnost, že ve skupině deseti lidí, z nichž každý má čtyřicetiprocentní šanci na uzdravení, se uzdraví osm nebo více (připomínám, ptáme se na pravděpodobnost stejného nebo výraznějšího výsledku). Tato pravděpodobnost je

p = 45 . 0,48 . 0,62 + 10 . 0,49 . 0,6 + 0,410 = 0.012

To znamená, že výsledky testu jsou statisticky signifikantní na úrovni 0,05, na této úrovni tudíž můžeme nulovou hypotézu zamítnout. Kdybychom ale požadovali úroveň 0,001, výsledky by signifikantní nebyly.

Povšimněte si skutečnosti, že na rozdíl od bayesovského přístupu je role dvou soupeřících hypotéz nesymetrická. Nulová hypotéza je základní a potřebujeme relativně silnou podporu dat pro její zamítnutí. Na druhou stranu, nesplnění kritérií statistické signifikance ještě neznamená, že můžeme zamítnout alternativní hypotézu. Hodnota p totiž nezávisí pouze na míře účinnosti léku, ale i na velikosti testované skupiny. I kdybychom měli lék se stoprocentní účinností, bude-li testovaná skupina dostatečně malá a míra spontánního uzdravení dostatečně velká, kritérium p < α nesplníme.

Situace je tedy podobná jako u soudu. Stejně jako tam platí presumpce neviny, a vina je uznána až po shromáždění předepsaného množství důkazů, tak ve frekventistickém testování platí presumpce platnosti nulové hypotézy, dokud není shromážděna předepsaně silná statistika v její neprospěch.

Zmatení
Uvádění p-hodnoty spolu s výsledky testů má poměrně velký potenciál mást čtenáře, a bývá proto dobrým zvykem zdůraznit, co p-hodnota nevyjadřuje. Takže,

1. p-hodnota není pravděpodobnost platnosti nulové hypotézy. V rámci frekvenční interpretace pojem pravděpodobnost hypotézy vůbec nemá smysl.
2. p-hodnota není pravděpodobnost, že při opakování testu dostaneme opačné výsledky.
3. Vysoká p-hodnota neznamená "nedostatek dat", a tedy nutnost odložit úsudek o hypotéze na dobu, kdy bude k dispozici větší statistika. Ačkoli malý statistický soubor implikuje vysokou p-hodnotu, opačně implikace nesměřuje.
4. Statistická signifikance není praktická signifikance. Užití slova "signifikance", tj. "významnost", by mohlo vést k závěru, že lék je tím účinnější, čím je p-hodnota nižší. Nízkou p-hodnotu ale můžeme získat i pro marginálně účinný lék, máme-li dostatečně velký statistický soubor.

Potíže
Navzdory jejich oblíbenosti může být těžké frekventistické metody obhájit proti mnohým námitkám. Zde jsou některé z nich:

1. Nulová hypotéza je vždy špatně. Předcházející věta je sice trochu nadsázka, ale poukazuje na reálný problém spojený s tím, že při konvenčním testování se zjišťuje pouze přítomnost efektu bez ohledu na jeho sílu.

Typicky je tato námitka relevantní třeba při zjišťování férovosti hrací kostky. Žádná kostka není perfektní, a tak je jasné, že když shromáždíme dost velkou statistiku hodů, na úrovni 0,05 - nebo na jakékoli jiné předepsané úrovni - nulovou hypotézu vyvrátíme. Co nám to ale říká? Prakticky nic - nulová hypotéza neplatí u podvodnické kostky, na které padá šestka každým druhým hodem, stejně tak jako u profesionální kostky v kasinu, kde je výchylka pravděpodobnosti šestky od předepsané 1/6 v řádu miliontin. Je jasné, v čem je zde problém: nulová hypotéza je "bodová", tj. zabírá množinu nulové míry v prostoru všech přípustných hypotéz. Její platnost by vyžadovala naprosto přesné naladění parametrů, a jakkoli malá odchylka ji neguje.

Při testování léků nejsme ve stejné situaci pouze proto, že testovaný lék může teoreticky škodit. Prakticky ale problém existuje i tak. Každý "lék" má nějakou účinnost. U libovolné substance máme slušnou šanci, že o trochu zlepší pacientovy vyhlídky, byť třeba v řádu tisícin procenta. Pak stačí udělat dostatečně velkou studii. I když možnost, že lék škodí, zahrneme do nulové hypotézy, její vyvrácení znamená právě a jenom to, že testovaný "lék" neškodí. Zda také léčí je ovšem jiná otázka.

2. Jak určit, co je nulová hypotéza? Protože nulová hypotéza hraje ve frekventistické analýze dat význačnou roli, je velmi postatná otázka, kterou hypotézu vybrat jako nulovou. V mnoha případech je to intuitivně jasné - lék neúčinkuje, kostka je férová, telepatie neexistuje. Není ale příliš těžké představit si situaci, kdy intuice nepomáhá. Co když třeba vidím, jak protihráč drží v ruce hrací kostku a dýchá na ni, aby vevnitř roztál vosk a pohnulo se olověné závažíčko? Vím, že potom bude kostka vychýlená, ale nevím, ve prospěch které strany. Jsem-li si skutečně jistý, že protihráč kostku cinknul, férovost kostky nemá smysl uvažovat. Mám tedy vzít cinknutost ve prospěch šestky jako nulovou hypotézu? Nebo ve prospěch trojky? V bayesovském přístupu mohu všem možnostem přiřadit stejnou apriorní pravděpodobnost. Frekventistická praxe mě nutí mezi nimi vybrat.

3. Co je "výraznější výsledek"? K určení p-hodnoty potřebuji spočítat pravděpodobnost, že stejného nebo výraznějšího výsledku dosáhnu čistě náhodou. Výraznějším výsledkem se míní výsledek, který více svědčí ve prospěch alternativní hypotézy. Zase, v mnoha případech je to jasné: výraznější výsledek je více uzdravených pacientů nebo více správných odpovědí telepata. A stejně tak to v jiných případech jasné není. Která z následujících sekvencí šesti hodů kostkou svědčí víc o tom, že kostka je cinknutá? 5 2 5 3 5 5, protože ve čtyřech případech padla stejná strana, a tak je kostka cinknutá ve prospěch pětky? Nebo 4 1 1 4 4 1, protože za celou dobu nepadlo nic kromě jedničky a čtyřky, a tak kostka zjevně zvýhodňuje tyto dvě hodnoty?

4. Stejná data, různé řeči, různé p-hodnoty. Rozhodneme se testovat férovost mince tím, že provedeme čtyři hody. Padne třikrát hlava a jednou orel. Pravděpodobnost, že orel padne jednou, je 1/4, a že nepadne vůbec, je 1/16. Tudíž máme potvrzeno, že mince je cinknutá ve prospěch hlavy s p = 5/16 = 0.3125. Nyní se rozhodneme výsledek ověřit trochu jiným postupem: budeme házet mincí tak dlouho, dokud nepadne orel. Orel padne ve čtvrtém hodu. Nyní je p-hodnota rovna pravděpodobnosti, že orel padne na férové minci ve čtvrtém hodu nebo později, tedy p = 0.125.

V obou případech jsme získali stejná data, ale odpovídající p-hodnota se liší, v závislosti na tom, jak byl experiment naplánován. To ale znamená, že když mám k dispozici data, ale nevím, jaký byl plán experimentátora, nemůžu jednoznačně určit p-hodnotu.

Jeden z hlavních důvodů odmítání bayesovského přístupu je jeho subjektivita. Námitky 2, 3 a 4 ale poukazují na značné množství subjektivity ve frekventistické analýze; zatímco bayesovská subjektivita je otevřeně přiznaná ve formě apriorních pravděpodobností, zde se jedná o subjektivitu skrytou. A její zneužití může tak snáze projít bez povšimnutí.

5. Odkud vezmeme požadovanou úroveň signifikance? Je jasné, že pokud chceme dělit hypotézy na ještě nevyvrácené a již vyvrácené (zcela v duchu Popperovy filosofie), musíme někde vytyčit hranici. I tak se ale stěží lze ubránit otázce "a proč zrovna 0,05?" (nebo "0,001", nebo jakákoli jiná tradičně uznávaná mez statistické signifikance). Při praktickém posuzování toho, jaký výsledek přijmout k publikování, nějakou hranici potřebujeme, a ta hranice je nutně umělá - ale vzít tento přístup za teoretický popis procesu poznávání? V hlavách skutečných lidí neexistuje tato ostrá hranice: některým věcem věříme, jiné považujeme za možné, o dalších v různé míře pochybujeme. Je absurdní tuto škálu redukovat na dva protipóly, kde hypotéza potvrzená na p = 0.049 patří do prvního, zatímco kdyby byl výsledek 0.051, spadla by do opačného.

6. Složitost, nenázornost a velké množství metod. Popsal jsem velmi primitivní variantu testování. Pro testování složitějších hypotéz existují příslušně složitější testy, jako například test test chí kvadrát. Používané testy závisí na pravděpodobnostním rozdělení které nulová hypotéza předpokládá a jsou často pouze přibližné; sdílejí obvykle jednu vlastnost, a to je obtížná pochopitelnost.

7. Publikační efekt. Poslední z námitek se sice dotýká frekventistické rutiny pouze nepřímo, zato je ovšem prakticky nejvážnější. Jde o zvyk publikovat pouze statisticky signifikantní výsledky. Není-li výsledek statisticky signifikantní, podle teorie nevede k ničemu novému (nulová hypotéza stále není vyvrácena), takže motivace takový výzkum publikovat je malá. Je na první pohled vidět, co je špatně. Na úrovni 0,05 je statisticky signifikantní efekt zjištěn náhodně v jednom z dvaceti případů. O devatenáct negativních se ale nikdo nedozví, zatímco jeden pozitivní je publikován. Tato praxe vede k tomu, že považujeme za statisticky prokázané mnoho jevů, které ve skutečnosti neexistují. Jistě je možné pokusit se poté pokus replikovat, problém ale je, že negativní výsledek má menší váhu: pouze nevyvrací nulovou hypotézu. Od toho se potom odvíjí počet citací a prestiž, která z článku vyplývá.

Poutavou kritiku frekventistických metod si lze přečíst v Yudkowského článku, ze kterého jsem čerpal inspiraci, i na Wikipedii.

Jak je asi z posledních dvou příspěvků jasné, nejsem příliš velkým příznivcem frekventistických metod. V příštím, posledním, díle se tak vrátím k některým otázkám bayesovské analýzy.


Poznámky:
1. S výjimkou homeopatik, o kterých se i bez testu ví, že nefungují.
2. Skupiny by měly být rozděleny tak, aby příslušnost k jedné ze skupin nebyla korelována s dalšími faktory, které by mohly ovlivňovat uzdravení, jako je věk, pohlaví, rasa a podobně. Mimo testovaného léku musí obě skupiny musí dostat přesně tutéž léčbu. Navíc je třeba dbát na to, aby sami lékaři před hodnocením výzkumu neznali, který z pacientů dostává testovaný lék a který placebo - zásada dvojitě slepých testů.
3. V některých případech kontrolní skupina není potřeba. Jsou to situace, kdy výsledky za předpokladu platnosti nulové hypotézy jsou jasné: zjišťování férovosti mince nebo kostky, zkoumání telepatie apod.

Žádné komentáře:

Okomentovat