pondělí 31. prosince 2012

Druhé zamyšlení nad prezidentskou volbou


Pro posuzování korektnosti zákona o prezidentské volbě je relevantní nejen otázka jednoznačnosti popisu kontroly pravosti hlasů v příslušném zákoně, které byl věnován poslední příspěvek, ale i samotný princip náhodné kontroly. Probíhá-li kontrola namátkově, může se stát, že kandidát s předepsaným počtem podpisů bude vyřazen na základě statistické chyby (stejně jako může být na základě statistické chyby uznána kandidatura úchazeče, jenž nesplnil zákonem stanovené podmínky). Protože se zpravidla považuje za nežádoucí, aby náhoda zásadním způsobem ovlivňovala politické procesy, stojí za to se podívat, nakolik pravděpodobné je, že statistická chyba způsobí nesprávné odmítnutí kandidatury.

Tento článek vychází z následujících předpokladů:

  1. Při kontrole je vybráno 17 000 podpisů, které jsou všechny ověřeny, a procento chybovosti tohoto kontrolního vzorku je odečteno od celkového předloženého počtu podpisů. (Neberu tedy v potaz dvoustupňovou kontrolu vzorků a možnost, že od kontroly druhého vzorku bude upuštěno, pokud první vzorek má chybovost pod 3%. Výsledky budou tímto zanedbáním znatelně ovlivněny pouze v případě, kdy chybovost je blízká tříprocentní hranici nebo nižší a zároveň je počet platných podpisů blízký padesáti tisícům.)
  2. Podpisy jsou vybírány náhodně po jednom. (Nikoli tedy po arších, jak k tomu skutečně docházelo. Výběr po arších je obtížnější na analýzu, protože do výsledku je třeba zahrnout variabilitu chybovosti mezi různými archy, kterou je třeba odhadnout — tedy vycucat si z prstu; výběr jednotlivých podpisů je výrazně spolehlivější metoda z hlediska přesnosti výsledku.)
  3. Kontrola vybraných podpisů je přesná; nezapočítáváme tedy chyby vzniklé špatným ověřením konkrétních podpisů, ale pouze chyby spojené s výběrem podpisů.

Zabýváme se tedy situací, kdy hypotetický kandidát nasbíral celkem c hlasů, z nichž je p platných. (Kandidát pochopitelně zná pouze c, nikoli p). Budu uvažovat situace s různými hodnotami c a p (vyššími, než 50 tisíc), a zajímá mě, jaká je pro každou takovou kombinaci pravděpodobnost, že kandidát kontrolou neprojde a bude vyřazen. [1]

Pravděpodobnost, že kandidátovi s c podpisy, z toho p platnými, bude ve vzorku nalezeno l platných, je rovna


Pravděpodobnost, že kandidatura nebude uznána, pak je

(čitatel v horní mezi sumace je součin 17 000 a 50 000).

V tabulce níže jsou hledané pravděpodobnosti. V levém sloupci jsou uvedeny hodnoty p, v horním řádku hodnoty c. Uvnitř tabulky jsou pravděpodobnosti, že kandidatura nebude uznána.

51 000 55 000 60 000 80 000 100 000
50 000 49,4% 49,9% 49,8% 49,6% 49,7%
50 030 24,2% 38,2% 41,6% 45,1% 46,2%
50 100 0,88% 15,8% 24,3% 34,9% 38,4%
50 200 3.10-7 2,18% 8,2% 22,1% 28,1%
50 300 2.10-15 0,12% 1,8% 12,5% 19,3%
50 500 3.10-53 1.10-7 0,02% 2,8% 7,5%
51 000 0 ~0 5.10-12 0,007% 0,2%

První řádek s daty obsahuje možnost, že kandidát má právě předepsaných 50 tisíc pravých hlasů. Samozřejmě v takové situaci je uznání jeho kandidatury naprostá loterie: vzorek nebude mít přesně stejné zastoupení pravých hlasů jako celá petice, a je prakticky zhruba stejná šance, že bude mít hlasů méně (pak kandidát neprojde), nebo že jich bude mít více (pak kandidát projde).

V dalších řádcích vidíme, že kandidát má tím jistější pozici, čím více má pravých hlasů (to asi nikoho nepřekvapí), a mezi kandidáty se stejným počtem pravých hlasů má tím jistější pozici ten, který má menší chybovost. Máte-li tedy důvod se domnívat, že jste dosáhli padesáti tisíc pravých podpisů, přiděláváním dalších falešných si pod sebou řežete větev. Například, pouhých sto podpisů navrch nad předepsanou mez zajišťuje více než 99% šanci na úspěch, pokud je v petici pouhých 900 falešných hlasů. Přidělání dalších čtyř tisíc falešných hlasů sníží vaše šance o 15 procentních bodů.

Je taktéž patrné, že náhoda rozhoduje pouze v případech, kdy se kandidáti pohybují těsně kolem předepsaného množství podpisů. Již 51 tisíc pravých podpisů dává praktickou jistotu uznání kandidatury i při velké míře chybovosti (99,8% pro chybovost cca. 50%). Na věc je pochopitelně možné se dívat i obráceně: Kolik potřebuji pravých hlasů, abych měl např. 99% šanci na úspěch? To shrnuje následující tabulka:

1% 5% 10% 25% 50%
99% 76 170 250 447 825
99,9% 99 228 333 600 1106
99,99% 120 273 403 728 1341

V horním řádku je míra chybovosti, v levém sloupci pak požadovaná jistota uznání kandidatury. Vnitřek tabulky udává počet pravých hlasů, které je potřeba při udané chybovosti mít navíc k padesátitisícové kvótě, aby bylo dosaženo požadované jistoty. Tedy například pokud má kandidát chybovost 10% a chce mít 99,9% jistotu, že jeho kandidatura bude uznána, musí nasbírat aspoň 50 333 pravých podpisů.

Z výše uvedeného vyplývá, že náhodná kontrola dle zde analyzovaných pravidel je dostatečně přesná a splňuje svůj účel: vzhledem k nepravděpodobnosti krajních případů, kdy se počet pravých podpisů pohybuje jen velmi těsně okolo padesáti tisíc, je šance na věcně nesprávné neuznání kandidatury vlivem statistické chyby minimální, a eliminace takto minimální šance na chybu stěží stojí za enormní náklady spojené s kontrolou všech podpisů (zvláště uvážíme-li, že není vyloučeno, aby některý z kandidátů v budoucnu nenasbíral třeba půl milionu podpisů). Stojí za to i upozornit, že plná kontrola eliminuje náhodnou statistickou chybu, ale neeliminuje další náhodné vlivy, které mohou výsledky voleb taktéž ovlivnit, a to i v zásadní míře (náhodný neprověřený odkaz na článek diskutující vliv počasí na volby v USA).

Uvedený optimistický závěr bohužel odvisí od předpokladu skutečně náhodného výběru podpisů. Není až tak podstatné, jaký je použit generátor, není-li algoritmus včetně násady zveřejněn (což možná byl, možná nebyl — ví o tom někdo ze čtenářů více?). Podstatnější problém je ovšem s výběrem kontrolovaných podpisů po celých arších, což dobře ilustrují rozdíly mezi mírami chybovosti prvního a druhého vzorku u každého z kandidátů. Například u Vladimíra Dlouhého byly zjištěny chybovosti 16,2% a 18,2%. Nakolik je pravděpodobné, že podobný rozdíl by byl nalezen, vybíraly-li by se podpisy individuálně? Předpokládáme-li střední chybovost 17,2%, je pravděpodobnost, že u vzorku o velikosti 8 500 bude naměřena chybovost o 1% nebo o více odchylná od této hodnoty pouhých 0,8% (za předpokladu, že se podpisy vybírají po jednom). Totéž vyhodnocení u dalších kandidátů je ještě dramatičtější: Okamurovi zjištěna chybovost 19,4% a 23%, střed 21,2%, odchylka 1,8% nebo vyšší nastane s pravděpodobností řádově 10-5; Bobošíkové naměřeno 7,7% a 11,5%, střed 9,6%, odchylka 1,9% nebo vyšší má zde pravděpodobnost řádově 10-10. [2] Je tedy jasné, že kdyby probíhal výběr podpisů individuálně, tak velké rozdíly mezi chybovostmi obou vzorků by téměř jistě nebyly zaznamenány, což by, mimo jiné, dávalo proceduře ověřování výrazně lepší punc věrohodnosti.

Poznámky:
1. Obdobně lze vyhodnotit i obrácenou situaci, kdy p je menší než 50 000 a kandidát projde; relevantní rozdělení pravděpodobnosti je přibližně symetrické a pro p nepříliš vzdálené od padesátitisícové hranice tak lze použít zrcadlový případ: například, pravděpodobnost, že kandidát s 49 500 pravými podpisy a cca. 10% chybovostí díky chybnému vyhodnocení projde, bude přibližně stejná jako pravděpodobnost, že kandidát s 50 500 pravými podpisy a stejnou mírou chybovosti náhodou neprojde. Platnost aproximace se rozbije, jakmile se samo c bude příliš blížit 50 000.
2. Je to poněkud lajdácká analýza, poněvadž průměr vzorků je vzat jako jistá míra chybovosti (namísto jako odhad s nějakým pravděpodobnostním rozdělením) a navíc počítám pravděpodobnost, že jeden vzorek bude daným způsobem vzdálen od střední hodnoty (namísto pravděpodobnosti, že dva vzorky budou daným způsobem vzdálené od sebe). Nicméně lenost zde zvítězila nad přesností.

6 komentářů:

  1. Naša diskusia na gplus obsahuje viaceré odkazy ktoré by vás mohli zaujímať: https://plus.google.com/u/0/108367581507213041124/posts/1VbZD8x1wnq
    Ja som modeloval tie hlasy pomocou binomiálneho rozdelenia. Výsledky sú takéto: http://img705.imageshack.us/img705/7543/k20w.png

    Simuloval som aj systém s urnami, ale získal som absurdne veľké KI lebo som musel odhadnovať aj celkový počet hlasov v každej urne.

    OdpovědětSmazat
  2. Díky za odkaz. Neměl jsem trpělivost pouštět se do bayesovské analýzy na základě reálných výsledků, a tak rád vidím, že už to někdo udělal.

    Rozumím tomu tak, že jste pro chybovost t vzal a priori rovnoměrné rozdělení na (0,1), [což by v mém značení znamenalo vzít pro počet platných hlasů rovnoměrné rozdělení pro p na intervalu (0,c)], spočítal nejdřív apriorní pravděpodobnost, že kandidát s 60 000 hlasy má více než 50 000 platných, a potom na základě informace z kontrolních vzorků spočítal aposteriorní pravděpodobnost p(t). To vypadá korektně a máte tak to, co já nemám: odhad pravděpodobnosti, že došlo k chybě u skutečných zamítnutých kandidátů (zatímco já tu mám pravděpodobnost, že dojde k chybě u kandidáta, u kterého známe počet platných hlasů).

    Jediná nejasnost: co vlastně myslíte systémem s urnami? Binomické rozdělení je dobrá aproximace pro přesné hypergeometrické rozdělení (použité zde) a výsledky by se neměly moc lišit, není-li kontrolní vzorek jen o málo menší než celý soubor. Podle toho, co píšete, se zdá, že u uren potřebujete oproti binomiálu nějaký neznámý parametr navíc, což pro hypergeometrické rozdělení nepotřebujete, takže tím myslíte asi něco jiného?

    OdpovědětSmazat
  3. V podstate áno, ten jednoduchý model je
    t ~ dbeta(1,1) % aka t ~ dunif(0,1)
    K1 ~ dbin(t,N1)
    K2 ~ dbin(t,N2)

    kde K1 je počet platných hlasov pri kontrole, N1=17k a N2 je celkový počet odovzdaných hlasov. K posteriórnemu rozdeleniu K2 stačí už len pričítať K1 a zistiť relativny počet vzoriek, ktoré prekročili 50k.

    S tými urnami=archami je to komplikovanejšie. Celkový počet arch je známy a takisto v ktorej arche sa nachádzali chybné hlasy. Odhadol som počet bezchybných arch pri kontrole, celkový počet podpisov v jednej arche a na základe toho som získal rozdelenie frekvencie platných hlasov u archy. Pomocou tohoto rozdelenia som simuloval zvyšné archy a zrátal hlasy.

    OdpovědětSmazat
  4. Důležitou roli tady hrají i duplicity, které pravděpodobně zjišťovali s každým vzorkem, takže by dávalo smysl, aby druhý vzorek měl větší chybovost než první.

    OdpovědětSmazat
  5. k předchozímu příspěvku jsem na konec do komentářů umístil své reakce na reakce Hynka Bíly a dalších, kteří velmi podnětně reagovali na úvahy o čase. Připojil jsem dotazy k emergenci a redukcionismu. Prosím pana Bílu i další zúčastněné, zejména Mirka, Jana Olšinského a Medeu o reakci, celé je to i na mém blogu zde:
    http://membra-disjecta.blogspot.cz/2013/04/emergence-kauzalita-cas-atomismus.html

    OdpovědětSmazat
  6. oprava: mé komentáře jsou nikoliv u předchozího příspěvku, ale u tohoto příspěvku:
    http://koroptew.blogspot.cz/2012/12/determinismus-moralni-soudy.html

    OdpovědětSmazat