pondělí 21. června 2010

Náhoda jako strategie

Nikdy mě nebavilo učit se šachová zahájení. Šachová zahájení je nutno znát nazpaměť, jsou to výsledky nashromážděných zkušeností mnoha generací šachistů hrajících na vysoké úrovni, a pro průměrného šachistu nedávají moc smysl. Je to prostě něco, co je nutno memorovat, a to jsem nikdy neměl rád.

Následkem čehož se mi několikrát stalo, že jsem hrál proti slabšímu soupeři, který ale na rozdíl ode mne měl trpělivost naučit se jednotlivá zahájení. Jelikož jsem zahájení neznal, odchýlil jsem se od standardu již někdy v druhém tahu (v prvním tahu je to těžké, skoro každá z možných kombinací prvních tahů je součástí nějakého pojmenovaného zahájení), což by mě teoreticky mělo dostat do nevýhody, nebo v případě, kdy soupeř není příliš zdatný, přinejmenším nezhoršit jeho pozici. Paradoxně však odchylka od standardu zpravidla vedla ke zhroucení soupeře mnohem rychlejšímu, než kdybych hrál "optimálně".

V různých počítačových hrách člověk velmi často narazí na opakující se situaci, kdy umělá inteligence počítače dělá systematicky hloupou chybu, a následkem toho ji lze porazit navzdory i velkému handicapu. Vzpomínám na dva simulátory fotbalu běžící pod DOSem, jeden byl snad z roku 1995, druhý ještě archaičtější. V obou bylo možno s trochou zkušenosti porazit mnohem silnější počítačový tým [1] využíváním předvídatelných chyb v jeho hře. V prvním zápase sice člověk dostal od počítače 11:0, ale po pár zápasech se poměr otočil a pomalu nebylo oč hrát. Stačilo dát míč do autu, počkat na (předvídatelně) chybné vhazování soupeře, proběhnout po straně hřiště, a z jisté pozice míč skončil vždycky v bráně.

Co mají tyto příklady společného? Je to patrná nevýhoda, kterou představuje předvídatelnost herní strategie. Jakmile je hráčova strategie pravidelná, tak se dostává do nevýhody. Kdybych v případě šachů hrál podle standardního zahájení, soupeř by se udržel ve vyrovnané pozici minimálně do konce naučeného zahájení, a další hra by navzovala na jemu familiérně známou situaci, zatímco odchylka v počátku vede k překvapení a nutnosti improvizovat. Když počítačová umělá inteligence hraje svou roli pravidelně, člověk může pravidelnosti vypozorovat a svou strategii přizpůsobit, a samozřejmě najde situaci, na kterou programátoři nemysleli. Jistě se dá najít mnoho příkladů z vojenství; ač tam vstupuje do hry mnoho dalších faktorů, než jen strategie, role překvapení je dosti dobře známa.

Paradoxně se tak nekoordinovaná náhodnost může osvědčit lépe, než detailně promyšlená systematičnost. Moje frustrace z dvou zmíněných fotbalů vedla k tomu, že jsem naprogramoval vlastní, ve kterém jsem prakticky každý rozhodovací moment počítače doplnil výstupem z náhodného generátoru. Sice se lze proti počítači naučit hrát, ale je to výrazně těžší než u všech ostatních fotbalů, které jsem kdy hrál [2], a nikdy se nedostaví pocit, že určitá taktika je naprosto solehlivou cestou k vítězství. (Můžete se přesvědčit sami, program je ke stažení tady. Možná bude potřeba emulátor DOSu, jako je např. Dosbox, u mně to ale běhá i na ixpéčkách.)

Z předchozího by bylo možno usoudit, že při hledání optimální strategie v jakékoli hře bude potřeba uvažovat i náhodné strategie. Intuice napovídá, že pokud jsou protivníkovy tahy předvídatelné, pak můžeme vymyslet deterministickou strategii, která povede k nejvyšším výhrám. Pokud ale soupeřova hra či pravidla obsahují prvky náhody, mohou tím deterministické strategii úspěšně vzdorovat, a optimální strategie bude náhodná. Nebo ne?

Máme pytel obsahující červené a modré kuličky, přičemž červených je 30 procent a modrých 70 procent. Stroj sype kuličky z pytle a hráč má za úkol předem odhadnout barvu následující kuličky. Za každý správný odhad dostane odměnu. Po čase se mu podaří vypozorovat, že modrých je většina. Jaká je optimální strategie? Zdá se, že většina lidí volí v takové situaci strategii, která kopíruje pravděpodobnosti: v 70 procentech tipují modrou a v 30 procentech červenou. (Zdroj.)

Optimální strategie je tipovat vždy modrou. Když se nad tím člověk jen trochu zamyslí, je to nad slunce jasné.

Výhoda náhodných strategií spočívá v tom, že soupeř se nemůže tak snadno učit a svoji strategii přizpůsobovat. Pokud se ale soupeř neučí a jeho strategie je fixní - byť nepředvídatelně náhodná - pak existuje deterministická strategie, která je lepší než všechny náhodné. Existují samozřejmě deterministické strategie, které jsou horší, než náhodné strategie; díky tomu může náhodný druhý tah v šachové partii proti špatnému hráči znajícímu Evansův gambit vést k rychlejšímu vítězství než standardní jezdec na f3. Ale strategie hrát náhodně není optimální: mezi mnoha tahy připadajícími v úvahu existuje jeden jediný, který je, i s uvážením kvality, schopností a herního stylu soupeře, v dané situaci nejlepší. Optimální strategie, ta, která vede k nejlepší herní efektivitě, nikdy nemůže být náhodná. Vždy jedna z možností je ta nejlepší [3].

Proto jsem v příspěvku o paradoxu roztržitého řidiče uvažoval pouze deterministické strategie. Řidič mohl odbočit na prvním nebo druhém sjezdu z dálnice, nebo nikde, přičemž nejlépe pro něj dopadlo odbočení na druhém sjezdu (zisk 300 tisíc), hůře neodbočení nikde (0) a nejhůře odbočení na tom prvním (ztráta 100 tisíc). Samozřejmě by bylo optimální prostě a jednoduše sjet na druhém sjezdu; když ale přidáme amnézii vedoucí k tomu, že řidič není schopen se upamatovat, na kterém sjezdu konkrétně je, získáme nepříjemné omezení, že každé rozhodování musí probíhat podle stejného algoritmu. Existují pouze dva deterministické algoritmy: první říká odbočit, a vede ke stotisícové ztrátě, a druhý říká neodbočit, a vede k nulovému zisku. Druhý algoritmus je tedy na první pohled optimální.

Jak si zde vedou náhodné algoritmy? Jestliže řidič na každém sjezdu užije náhodný generátor, nebo si normálně postaru hodí kostkou, a výsledek užije k tomu, aby se s pravděpodobností p rozhodl odbočit a z dálnice sjet, pak pravděpodobnost sjetí na prvním sjezdu je p, pravděpodobnost sjetí na druhém sjezdu je p(1 - p), a střední zisk je 300 000 p(1 - p) - 100 000 p. Tento výraz nabývá maxima pro p = 1/3, se středním ziskem 33 333 zaokrouhleno na celé koruny.

Výhodnost náhodné strategie zde je podmíněna právě jenom ztrátou paměti. Pokud algoritmům zakážeme pamatovat si jejich předchozí tahy včetně pouhého faktu, že byly nějaké předchozí tahy, pak deterministické rozhodování vede ke stále stejným tahům, nemění-li se okolní situace, a zavedení náhody do rozhodování může prospět. Mluvíme ale pouze o velmi úzké třídě situací, sestávající prakticky pouze z bizarností typu paradoxu roztržitého řidiče.

Poznámky:
1. Silnější ve smyslu, že jeho hráči běhali rychleji, stříleli silněji a zachycovali míče z většího okolí, tedy měli vyšší hodnoty všech jednoduše nastavitelných parametrů.
2. Moje zkušenosti s fotbalovými simulátory jsou ovšem omezené na programy z 90. let.
3. Pokud je několik možností stejně dobrých, pak náhodná strategie může být jednou z několika optimálních, ale pak nutně existuje stejně dobrá deterministická strategie.

Žádné komentáře:

Okomentovat