pondělí 15. listopadu 2010

O podmíněných pravděpodobnostech


Známá logická chyba, pro kterou lidé mají vrozené dispozice, je oblíbené "obracení implikací". Víme-li, že "pokud A, pak B", máme sto chutí ze znalosti B usuzovat na platnost A. Že (doufám) většina lidí nakonec odolá a podobného úsudku se zdrží, za to vděčíme mimo jiné i škole, ve které se rozdíl mezi "pokud A, pak B" a "pokud B, pak A" v rámci jinak dle mého soudu nedostatečné výuky logiky probírá.


Zatímco tak gramotní lidé obvykle chápou, že implikaci A→B nelze beztrestně obrátit na B→A, přidáme-li do problému nejistotu ― a uvažování v pravděpodobnostech ― pravděpodobně tím nachytáme většinu populace na švestkách. Bohužel, mnohdy i mezi těmi, jejichž profese by v ideálním případě měla jisté porozumění pravděpodobnosti a statistice vyžadovat.


Klasická ilustrace problému je tato. Existuje choroba Ch (obvykle je tím Ch nějaká forma zhoubného bujení, případně AIDS, ale na konkrétním výběru choroby nesejde), kterou lze diagnostikovat určitým testem ještě před nástupem příznaků. Jak už to ale bývá, není tento test ideální: má přesnost pouze 99%. To znamená, že jedno procento z těch, kteří chorobu mají, projde testem s negativním výsledkem, a jedno procento těch, kdo chorobu nemají, projde testem s pozitivním výsledkem [1]. Představte si tedy, že absolvujete test s pozitivním výsledkem. Jaká je pravděpodobnost, že skutečně máte chorobu Ch?


Většina lidí v takové situaci usoudí, že pravděpodobnost je 99%. Tato odpověď se jednoduše nabízí. Je to nakonec jediné číslo, které máme k disposici. Jenže 99% je pravděpodobnost, že člověk, který trpí Ch, bude pozitivně diagnostikován. Otázka ale byla: jaká je pravděpodobnost, že člověk, který je pozitivně diagnostikován, skutečně má nemoc Ch? Rozdíl ve formulaci se může zdát nevelkým, ale rozdíl v číslech bývá dramatický.


Co je tedy správná odpověď? Předpokládejme, že chorobou Ch trpí jeden člověk z tisíce. Nezávisle na tom, jak velká část lidí se dostaví na testy, lze potom předpokládat, že z tisíce testovaných je jeden nemocný a 999 zdravých. Jeden nemocný je téměř jistě odhalen testem (pravděpodobnost chyby je jen 1%), na druhou stranu ale stejné procento zdravých obdrží chybnou pozitivní diagnózu. Jedno procento z 999 lidí je deset osob. Mezi pozitivně diagnostikovanými je tak poměr skutečně nemocných ku zdravým 1:10, a tak hledaná pravděpodobnost je pouze kolem 9%, nikoli 99%.


Položíte-li otázku lékařům, tak i když je seznámíte s četností výskytu Ch v populaci, šance dostat správnou odpověď je dost malá [2]. O závažnosti podobné chyby lze přitom těžko pochybovat. Stres, jemuž je pacient vystaven, dozví-li se, že má závažnou chorobu s jistotou 99%, je zcela zbytečný, je-li ve skutečnosti téměř jistě (90%) zdráv.


Chceme-li záležitost formalizovat, vyplatí se užít matematickou notaci. Označme T+ situaci, kdy test dá pozitivní výsledek, a analogicky T- situaci, kdy dá test negativní výsledek. Podobně, Ch+ a Ch- označuje stav, kdy pacient má, respektive nemá, diskutovanou chorobu. Podmíněné pravděpodobnosti se označují s užitím svislé čáry: P(A|B) označuje pravděpodobnost A, víme-li B; tedy P(T+|Ch+) je pravděpodobnost, že člověk, který má chorobu, bude pozitivně diagnostikován. S takto zavedeným označením lze výše uvedené pravděpodobnosti zapsat jako


P(T+|Ch+) = P(T-|Ch-) = 0,99
P(T-|Ch+) = P(T+|Ch-) = 0,01


Co chceme znát, a neznáme, je P(Ch+|T+). K tomu lze užít Bayesův vzorec


P(B|A) = P(A|B)P(B) / P(A)


V našem případě na pravé straně figuruje známá P(T+|Ch+) = 0,99, a dále dvě další pravděpodobnosti. P(Ch+) je pravděpodobnost, že člověk má chorobu bez ohledu na výsledků testu. Je přirozené tuto pravděpodobnost identifikovat s četností výskytu choroby v populaci ― neznáme-li výsledky testu, či nebyl-li test ještě proveden, je to rozumný předpoklad [3] ― tedy 0,001. Do jmenovatele pak potřebujeme dodat P(T+), což je celková pravděpodobnost, že test dopadne pozitivně, bez ohledu na skutečný zdravotní stav pacienta. Jak velká je tato pravděpodobnost? Můžeme ji rozdělit na dvě části: Pravděpodobnost, že pacient je nemocný, a test dopadne pozitivně, je rovna P(Ch+)P(T+|Ch+), což je v daném případě 0,000 99. Druhou možnost zastupuje pravděpodobnost, že pacient je zdravý a získá pozitivní test, P(Ch-)P(T+|Ch-); zjevně P(Ch-) = 1 - P(Ch+) = 0,999, takže hledané číslo je 0,009 99. Obě možnosti se vylučují, jejich pravděpodobnosti tak lze sečíst, a získat tak jmenovatel 0,010 98. Když to dáme dohromady, vyjde 0,000 99 / 0,010 98 = 0.090 2, tedy přibližně 9%.


Bayesův vzorec působí na první pohled neprůhledně, ale v zásadě se při jeho použití neděje nic jiného, než intuitivně jasný výpočet, který jsem verbálně popsal o několik odstavců výše. Číslo v čitateli udává množství testovaných, kteří mají nemoc a zároveň pozitivní test (v poměru k celkovému počtu testovaných), číslo ve jmenovateli je celkový počet lidí s pozitivním výsledkem (zase v poměru k počtu testovaných).


Pro lepší názornost uvedu ještě jeden "kanonický" příklad, tentokráte ze soudní síně. V tomto případě policie vyšetřuje strašný zločin, a jediné vodítko je otisk prstu nalezený na místě činu. Je jisté, že otisk mohl zanechat pouze pachatel. V databázi recidivistů se podobný otisk nenachází. Policie ale požádá o spolupráci veřejnost, a ozve se jí jistá firma, která pro kontrolu identity svých zaměstnanců při vstupu do střežených prostor užívá otisků prstů. Firemní databáze je předána policii [4] a ta provede porovnání, přičemž najde jeden shodný otisk. Jeho majitel je zatčen a obžalován.


U soudu je shoda otisku jediným důkazem viny obžalovaného. Státní zástupce pak předvolá policejního experta, který vypoví, že otisk prstu nalezený na místě činu nebyl zcela zachovalý, nicméně byl natolik kompletní, že šance, že otisk náhodně vybraného člověka se bude jevit shodným, je jedna ku sto tisícům. Obhájce sice zmíní dosavadní bezúhonnost klienta, absenci motivu a možnost náhodné shody otisků. Přesto je obžalovaný odsouzen. V odůvodnění rozsudku soudce uvede, že pravděpodobnost 1:100 000 je tak malá, že je o vině obžalovaného rozhodnuto nade vší rozumnou pochybnost.


Ponechavše stranou právní stránku věci, bylo by takové rozhodnutí v pořádku? Odpověď zní: nebylo. Obhajoba, kdyby postupovala správně, by upozornila na to, že i pokud je číslo 0,000 01 ve výpovědi policejního experta v pořádku, nelze ho interpretovat jako pravděpodobnost neviny obžalovaného. Jedna ku sto tisícům je pravděpodobnost náhodné shody u neviného, tj. P(shoda|nevinen), nikoli hledané P(nevinen|shoda). Obžalovaný je sice občanem státu, ve kterém došlo ke zločinu, jinak ale o jeho vině nic nenasvědčuje. Má-li stát deset milionů obyvatel, uvedená pravděpodobnost implikuje, že je mezi nimi sto takových, jejichž otisky se shodují s otiskem pachatele. Za předpokladu, že vrah není cizinec, je tedy pravděpodobnost viny obžalovaného 1%. Je to sice výrazně větší pravděpodobnost, než původní 1:10 000 000, jakou bylo rozumné předpokládat před provedením testu [5], ale pořád je obžalovaný téměř jistě nevinen [6].


Hlavní poučení je, že P(A|B) a P(B|A) jsou jiné pravděpodobnosti, a mohou se dramaticky lišit. Pro přepočtení jedné na druhou potřebujeme znát navíc i P(A) a P(B). Máme-li k dispozici P(A|B), ale ne již P(B), hodnotu P(B|A) spočítat nelze. Nejlepší, co za takového stavu je možno udělat, je pokusit se P(B) rozumně odhadnout. V žádném případě ale nesmíme podlehnout pokušení a přiřadit P(B|A) = P(A|B). A znovu, tak jako v jiných případech, kde jde o pravděpodobnosti, platí univerzální rada: Je snažší dojít ke správné odpovědi, pokud místo o pravděpodobnostech uvažujeme o četnostech výskytu. Je snadné zaměnit pravděpodobnost viny při předložených důkazech a pravděpodobnost nalezení předložených důkazů za předpokladu viny. Je o dost těžší udělat chybu podobného rázu při odpovídání na otázku: kolik dalších lidí má stejné otisky?


Poznámky:
1. Ve skutečnosti nebývá důvod, aby procento chybných pozitiv bylo rovno procentu chybných negativ, stejné hodnoty jsem zvolil pouze pro jednoduchost ilustrace.
2. Nepodařilo se mi v rozumném čase najít původní zdroje. Tento článek mluví o 15% úspěšnosti lékařů při řešení podobného problému (s uvedením původní literatury).
3. Jsou-li k dispozici další informace o daném člověku, může se racionálně vybraná pravděpodobnost lišit. Například, známe-li věk onoho člověka, je lepší položit za P(Ch+) frekvenci výzkytu choroby v jeho věkové skupině.
4. Nejsem si jist, zda by v rámci našeho právního řádu takový postup byl legální. Pokud ne, čtenář má plnou volnost vymyslet si alternativní průpovídku.
5. Zanedbávám, že někteří občané (například nemluvňata) jako pachatelé nepřicházejí v úvahu.
6. Upozorňuji na to, že popsaný scénář nelze aplikovat jako univerzální argument proti otiskům prstů či jiné identifikační proceduře. V reálných případech jsou obvykle k dipozici další důkazy, a četnost náhodných shod u běžných identifikačních metod může být nižší, než 1:100 000. Přesto existují reálné případy, kde pravděpodobnostní argumenty týkající se identifikace viníka hrály roli: Adams, Collins. Nesprávné zacházení s pravděpodobnostmi u soudu má v angličtině i své standardní pojmenování: prosecutor's fallacy.

2 komentáře:

  1. Dobrý den,

    výborný článek, moc děkuji.

    OdpovědětVymazat