pátek 4. června 2010

Paradox roztržitého řidiče

Původně se paradox jmenuje paradox of the absent-minded driver (je to relativně nový paradox, pravděpodobně z 90. let minulého století; viz diskusi zde), ale pro větší realističnost zde přisoudím řidiči poruchu paměti; přece jenom zapomenout, že jsem před pár minutami řešil složitý pravděpodobnostní paradox, to lze těžko nazvat pouhou roztržitostí.

Hrdina tohoto paradoxu, obchodník s lehkými topnými oleji, náměstek na ministerstvu obrany a funkcionář ČMFS [1], trpí vzácnou chorobou, která přichází v záchvatech. Když záchvat přijde, přestává fungovat převod z krátkodobé do dlouhodobé paměti. Záchvaty mívají různou délku, od jednotek do desítek minut, a projevují se tím, že si pacient během jejich trvání nic nezapamatujena déle, než pár desítek vteřin. Ostatní duševní schopnosti jsou ovšem nedotčeny, zejména si pacient bez problémů vzpomíná na vše, co si již pamatoval před začátkem záchvatu.

Obchodník vyjíždí z domova na důležitou schůzku. Pokud se na jednání dostaví včas a předá svému partnerovi kufřík se 100 tisíci korun v neoznačených bankovkách, za měsíc od něho obdrží zpět 400 tisíc. Obchodník je v časové tísni a musí jet vlastním vozem (tudíž ho máme právo nazývat řidičem), a má spočítáno, že bude na místě včas, pokud pojede po novém úseku dálnice a sjede na 42. kilometru, odkud je to už jen kousek. Potud je vše v pořádku (aspoň z hlediska obchodníka-řidiče).

K řidičově smůle se sejde řada nepříjemných okolností. Během odjezdu z domova zjistí, že zrovna nastupuje jeden z jeho záchvatů. Navíc novou dálnici ještě nezná, a ke všemu na nově postaveném úseku ještě není osazeno značení. Řidiče najednou zaplaví studený pot. Uvědomí si totiž, že před řečeným sjezdem je ještě jeden, na 38. kilometru, a silnice z něho vede přímo do nejhoršího slamu ve městě, kde vládnou kriminální gangy (pro dokreslení atmosféry dodejme, že je zhruba jedna hodina po půlnoci). Ačkoli je náš řidič angažován v podezřelých transakcích, není příliš zběhlý v pouličních bitkách, a pokud sjede na 38. kilometru, téměř jistě bude přepaden a gangsteři si přivlastní jeho kufřík.

Jelikož je řidič racionálně uvažujícím člověkem, rozhodne se proto v rychlosti analyzovat situaci. Jakmile dojede na sjezd, bude jistě vědět, že je buď na 38., nebo na 42. kilometru. Další sjezd je až na 63. kilometru, a tam už jsou sjezdy označené, a před 38. kilometrem je pouze křižovatka na 30. kilometru, kde na dálnici najel. Nic víc nepozná ani z ujetých kilometrů (bohužel se nepodíval na jejich stav na začátku cesty, nebo si to už nepamatuje), ani z času (hodinky si zapomněl ve spěchu doma). Takže jsou dvě možnosti:

Buď bude na 38. kilometru. Pokud pak sjede, bude okraden o svých 100 tisíc, a pokračovat potom na schůzku bez peněz je bezpředmětné. Nebo bude pokračovat dál, což znamená, že se ocitne se před podobným dilematem ještě jednou na dalším sjezdu.

Nebo bude na 42. kilometru, a když sjede, za měsíc si bude moct vyinkasovat třísettisícový čistý zisk. Jestli ale bude pokračovat, může se otočit až o 15 21 km dál, a než se vrátí, obchodní partner už na místě nebude čekat. Jak se rozhodnout? Čtenář má teď vhodnou chvíli k samostatnému promyšlení situace a navržení vhodné strategie, než bude pokračovat ve čtení další analýzy, která následuje pod schématem.

Řidič uvažuje takto: "Jelikož nemám ponětí, na kterém ze sjezdů jsem, je to, že jsem na 38. km stejně pravděpodobné, jako to, že jsem na 42. km. Pokud sjedu, s p = 1/2 získám 300 000 a s p = 1/2 ztratím 100 000, takže průměrný očekávaný zisk je 100 000. Pokud budu pokračovat rovně, pak jsem-li na 42. km, schůzku propásnu, a budu na nule. Jsem-li na 38. kilometru, pak získám ještě jednu šanci na 42. kilometru. Jelikož nevím, jak se rozhodnu tam, přiřadím stejnou pravděpodobnost tomu, že odbočím jakožto i tomu, že pojedu rovně, a očekávaný zisk z této varianty je 150 000. Tudíž celkový očekávaný zisk je 1/2 x 150 000 + 1/2 x 0 = 75 000. Odbočím."

Souhlasíte? Vůdce kriminálního gangu ve slamu na 38. kilometru by jistě souhlasil.

Problém s předchozí strategií je ten, že je nekonsistentní. Řidič se rozhoduje deterministicky. Bere v úvahu pravděpodobnosti, ale nehází kostkou - pouze vybere variantu s největším ziskem. Varianta "jsem na 38. km, budu pokračovat, a na příštím sjezdu odbočím" je nesmyslná, protože na příštím sjezdu, pokud to bude ten na 42. km, bude mít řidič stejné množství informací jako teď, a bude se rozhodovat podle stejné úvahy a se stejným výsledkem. Pokud se tedy rozhodne jet rovně, pak se i na příštím sjezdu rozhodne jet rovně. Očekávaný zisk tedy není 75 000, ale nula.

Úvaha, že tím spíš se vyplatí odbočit, je ale také zjevně chybná. Zastávaje tuto strategii, řidič skončí zcela jistě ve slamu, a jeho střední očekávaný zisk bude sice 100 000, ale se znaménkem minus. I postup, který vedl k rozhodnutí, je špatně: pravděpodobnostní kalkulace vycházela z toho, že p = p(38. km) = 1/2 a vedla ke strategii odbočit; ale strategie odbočit vede k tomu, že řidič nikdy nedojede na na 42. km, a tudíž p = 1. Paradox!

Pes je zakopán [2] v tom, že zvolená strategie závisí na pravděpodobnosti p, ale ta zase závisí na zvolené strategii. Ukazuje se, že není možné svořit strategii, která by
  • v každém konkrétním rozhodování na křižovatce zvolila deterministicky tu variantu, která má vyšší očekávaný zisk,
  • rozhodování probíhalo stejně na 38. km i na 42. km (jelikož řidič nepozná, kde je), a
  • pravděpodobnosti užívané v tomto rozhodování by byly konsistentní se zvolenou strategií.
To ovšem velmi podkopává autoritu pravděpodobností. V paradoxu Šípkové Růženky existují dvě napohled rozumné odpovědi na otázku "jaká je pravděpodobnost, že je mince padla lícem navrch?". Zde se naopak jeví, že neexistuje žádná rozumná odpověď na otázku "jaká je pravděpodobnost, že jsme na prvním dálničním sjezdu?". Samozřejmě, popsané paradoxy jsou podobné v tom, že v obou hraje roli ztráta paměti. Šípková Růženka může problém rozřešit tak, že ze dvou možných pravděpodobností vybere tu, která vede k optimální rozhodovací strategii v případě, že má možnost na výsledky vsadit. Roztržitý řidič tuto možnost nemá, protože v jeho případě existuje zpětná vazba od rozhodovací strategie k pravděpodobnostem.

Na závěr dodám, že jet rovně není optimální strategie. Ale o tom zase příště.

Poznámky:
1. Tři povolání byla vybrána náhodně bez specifického důvodu z množiny profesí těšící se obecně špatné pověsti, výhradně z estetických důvodů. Nechci tím vznášet žádná obvinění, ani činit specifické narážky, nebo dokonce poškozovat čest jakékoli instituce či skupiny obyvatel.
2. Nejsem si jist s vhodností užití tohoto rčení v daném kontextu, ale přesto volím možnost oživení textu; až příliš často se přistihuji při stylisticky nevhodném opakování stále stejných frází.

1 komentář:

  1. Maximální částka, jež řidič může vydělat, v závislosti na netransferabilitě informace, je zhrobu 33 kKČ.

    Prequel : ... Přemýšleje nad tímto problémem napadlo mne jisté "Šalamounské řešení" Vím sice, že užití kostky je zapovězeno, já ji však, v duchu pouhé diskuse o maximalizaci zisku .... Řekl jsem si :

    Nechť má řidič potulnou minci, na níž panda líc s pravděpodobností p.

    Strategie zní : "Hodím-li líc, odbočím."

    Program Karel aneb jak to celé bylo :
    Řidič těstojistě (P=1) dorazil na pověstnou třicetvosmičku - byl okráden a dehumilitarizován (o částku -100p kKč)
    Ten samý řidič však róvněž pokráčel v jízdě (P=1-p), v této konstelaci se minulost znóvu opakovála, řidič házel, odbočóval a vydělává 300p(1-p) kKč.
    Jenže opět pokračoval dál (P=(1-p)^2), tentokráte nevydělává ani neprodělává nic a jen jel ,,,

    Celkový výdělek ? Činil -100p+300p(1-p) kKč

    Funkce překvapivě nabývá Glutea Maxima !. a to v hodnotě p=1/3. Z tohoto jeden může odkrýt bájné maximum.

    OdpovědětSmazat