pondělí 30. listopadu 2009

Proti antropickému principu: obecné námitky

V návaznosti na nedávno napsaný úvod mám teď v úmyslu zahájit vlastní argumentaci proti antropickému principu (dále jen AP). V tomto článku se soustředím na ty formulace AP, které nepočítají s existencí více vesmírů.

Abychom mohli posoudit, jestli otázky, na které AP odpovídá, jsou vůbec regulérní, je na místě rozebrat význam příslovce proč. Otázky uváděné tímto příslovcem lze rozdělit přinejmenším do tří skupin. Srovnejte tyto dvojice otázek a odpovědí:
  1. Proč jsi ho okradl? - Protože jsem chtěl ty peníze.
  2. Proč došlo k nehodě? - Protože selhaly brzdy.
  3. Proč planety obíhají kolem Slunce? - Protože platí gravitační zákon.
V prvním případě se ptáme na úmysl nějaké osoby. Ve schématu proč X? - protože Y je na místě Y nějaký zamýšlený cíl. Jev X (okradení oběti) je zde příčina (nebo aspoň je činitelem - v našem případě zlodějem - považováno za příčinu) jevu Y (zloděj má peníze). Jev Y je účel jevu X. Y následuje časově po X. V druhém případě se naopak ptáme po příčině. X (nehoda) je zde následek Y (selhání brzd). Y předchází X v čase. Ve třetím případě se ptáme po obecnější zákonitosti Y, ze které vyplývá specifičtější X, nebo která aspoň zvyšuje pravděpodobnost platnosti X. X ani Y tu nemusí být nijak časově určeny či omezeny, Y bývá zákonitost, která je platná vždy, nebo alespoň po celou dobu, kdy zároveň platí X.

Jednotící pohled by mohl být ten, že budeme uznávat otázku proč X? a odpověď protože Y jako legitimní kdykoli, když Y bude možno vzít jako svědectví ve prospěch X. Tím myslím následující: pokud bychom nevěděli, zda platí X, znalost Y by zvýšila pravděpodobnost přiřazenou jevu X. Takovéto široké definici odpovídají všechny tři popsané významy slova proč: vím-li, že zloděj chce peníze, mám důvod předpokládat, že někdo bude okraden. Vědomí o selhání brzd je důvod, proč se obávat nehody. Z gravitačního zákona vyplývý, že dvojice těles kolem sebe obíhají po elipsách. Rozdělení významu na tři různé kategorie je přesto užitečné. Hlavním důvodem, proč na různé varianty významu upozorňuji, je mezi lidmi velmi rozšířená tendence očekávat odpovědi prvního typu (tj. účelové) na otázky týkající se jevů, ve kterých nevystupují žádné osoby. Je to zřejmě proto, že účelový (teleologický) význam slova proč vnímáme jako základní. Je to vidět v situacích, kdy otázka připouští různé typy odpovědí. Zeptáme-li se "proč jste jeli do Brna?", očekáváme, že nám dotázaní sdělí účel svojí návštěvy Brna, a naopak bychom asi nebyli úplně spokojení s odpovědí "protože jsme nastoupili do vlaku", případně "protože jsme se tak rozhodli". Tyto odpovědi jsou bezproblémové odpovědi druhého typu, ale jsou neuspokojivé, protože tazatel očekává odpověď prvního typu, pokud je možná.

Obzvlášť u otázek typu "proč je Země od Slunce vzdálená 150 miliónů kilometrů?", je dobré vědět, že formulace otázky se slovem proč v úvodu může být zavádějící, a že odpovědi prvního typu - což jsou v prvním přiblížení všechny začínající slovem aby - jsou nepřípustné. [1] Druhý typ interpretace AP, tj. existence člověka jako příčina charakteru světa, je taktéž vyloučena. Zbývá poslední varianta: AP dělá čest svému jménu a je to skutečně logický princip, něco jako například princip maximální entropie, či princip nejmenší akce, nebo Huygensův princip. Takovým způsobem asi AP většinově chápou kosmologové, alespoň tedy ti, kteří nevyznávají pravděpodobnostní variantu AP s mnoha vesmíry.

Zásadní otázka je: je AP srovnatelným principem s výše vyjmenovanými principy? Soudím, že není, a to hned ze tří důvodů. Prvním z nich je nejasná definovanost takového principu, druhým pak je jeho omezená aplikovatelnost, poslední pak zamaskovaný nepříznivý kompresní poměr.

Princip maximální entropie nám říká, že na třídě přípustných pravděpodobnostních rozdělení pro vyšetřovaný problém máme vzít to s největší entropií. Je to jedoznačně daný předpis, obecně aplikovatelný, a šetří místo: namísto nekonečného seznamu pravděpodobnostních rozdělení užívaných v každém myslitelném případě máme jeden vzorec a k němu krátkou a jednoznačnou interpretaci. Huygensův princip nám říká jak konstruovat vnější obálku šířícího se vlnového balíku; je to jednoduchý a jednoznačný algoritmus, jak mimo jiné dovozovat pravdivost či nepravdivost výroků o vlnách, opět v obecné konfiguraci vln a prostředí, v němž se šíří. Princip nejmenší akce funguje podobně - umožňuje jednoznačně spočítat trajektorii tělesa při zadaných počátečních podmínkách, pro případ libovolných počátečních podmínek.

Lze podobně popsat i AP? Jistěže ne. AP má vybrat jednu variantu vesmíru, a to tu naši, z velkého množství možných variant. Předpokládejme, že máme jednoznačně řečeno, co všechno je považováno za možné varianty. Typicky uvažujeme hypotetické vesmíry řídící se stejnými zákony jako ten pozorovaný, ale s různými hodnotami volných parametrů, jako je třeba rychlost světla či gravitační konstanta. Jedna z verzí AP říká, že konstanty musí být takové, že v daném vesmíru musí být podmínky pro vznik inteligentního života. Kromě nejasností v definici inteligentního života, o čemž se doufám zmíním v dalších příspěvcích, tkví problém v následujícím: Vesmír je jenom jeden. Tudíž výstup AP je sada hodnot konstant, které jsou dnes považovány za nezávislé, a to hodnot takových, aby umožňovaly existenci života [2]. Vezmeme-li dnes užívanou sadu přírodních zákonů, je výstupem AP maximálně okolo třiceti čísel. Přirozená otázka je, zda je kratší udat explicitně hodnotu těchto třiceti čísel, nebo konstatovat antropický princip. Ač to na první pohled nemusí být úplně zjevné, je AP určitě informačně složitější. Totiž podat s rozumnou výstižností definici života zabere jistě víc místa, než napsat třicet čísel s přesností, které je AP schopen, i za předpokladu opravdu jemného ladění a tudíž vysoké přesnosti AP. AP tedy nesplňuje jeden ze základních požadavků na fyzikální teorie: je větší, než množina jevů, které má vysvětlovat.

Ještě jedna úvaha může ilustrovat marnost, se kterou se tu potýkáme. AP nám totiž téměř z definice dává odpovědi pouze na otázky, které již máme zodpovězeny. Představme si, že neznáme hodnotu některé z 30 přírodních konstant. Ve skutečnosti to tak dokonce je - ze 27 parametrů Standardního modelu je zhruba polovina naprosto neznámých. Jsou neznámé proto, že výsledek žádného dosud provedeného pokusu na jejich hodnotě nezáleží. Proto ale také nemůžeme použít antropický princip pro určení těchto hodnot. Neznáme-li jediný jev, který závisí na těchto hodnotách, nemůže ani existence života známým způsobem na nich záviset. Všechna antropická zdůvodnění vypadají zhruba takto:  
  1. Musí existovat život (AP, premisa
  2. Musí být k dispozici prvek s dostatečným potenciálem tvorby složitých sloučenin (plyne z definice života
  3. Podmínky musí být vhodné pro zvnik uhlíku (důsledek 1 a 2)
  4. Proto existuje značné množství uhlíku (důsledek 3)
  5. Konstanta X musí ležet v intervalu I (důsledek 4 za použití nějaké konkrétní teorie).
Vypustíme-li bod 1 a prohlásíme-li bod 2 premisou argumentu, neztratí argument nic na své platnosti. Nebo lze jít ještě dál. Posuďte, oč jasněji a střízlivěji působí tento argument:
  1. Existuje značné množství uhlíku (z pozorování, premisa)
  2. Konstanta X musí ležet v intervalu I (důsledek 1 za použití nějaké konkrétní teorie).
Dá se říct, že každé zdůvodnění, které slouží k odvození hodnot přírodních konstant z AP sestává ze dvou částí. Nejdřív se z AP odvodí nějaký mezidůsledek (v našem případě existence uhlíku), který je přímo pozorovatelný, a z něho pak vyplynou přípustné hodnoty konstant. Vždy je ovšem možné argument zkrátit a mezidůsledek považovat za premisu argumentu, za primitivní pozorování, z kterého plynou naše závěry. První část, která tento mezidůsledek odvozuje z AP, je zbytečná, až bizarní. Skutečně považujeme existenci uhlíku za logický důsledek existence života?
Příště se podíváme na pravděpodobnostně formulovaný antropický princip.

Poznámky:
1. Pro věřící ve stvořitele je odpověď "aby mohl na Zemi vzniknout život" regulérní. Tuto možnost ponechávám stranou kdyby pro nic jiného, tak proto, že existuje široce uznávaný konsensus o tom, že náboženské otázky se nepovažují za součást vědy. Antropický princip není v principu náboženský argument a je široce zmiňován i ateisty. Nenáboženské teleologické interpretace AP neberu v úvahu; hledání účelu u procesů, kde chybí myslící agent, který by tento účel mohl pociťovat, je dle mého názoru viditelně absurdní.
2. Těžko si věc představit jinak, než že AP tyto hodnoty neurčí přesně, ale pouze jako nějaké (úzké?) intervaly. To je samozřejmě další neelegance oproti ostatním zmíněným principům, jejichž výsledky jsou naprosto přesné - aspoň za předpokladu naprosté přesnosti vstupních dat.

Pondělní šífra VIII.

Dnes něco jednoduchého.



ŘEŠENÍ.

úterý 24. listopadu 2009

Etymologický zpravodaj - D

Prvním slovem pro dnešní den je ďábel. Pochází z řec. διαβολος / diabolos = pomlouvač, od slovesa balló = házím, střílím (viz balistika). Předpona dia- odpovídá české předponě roz- (významem, ne původem), tj. diagram = rozpis, diagnóza = rozhodnutí, dialýza = rozklad, diametr = rozměr, dialog = rozhovor (častý omyl je považovat slovo dialog za ekvivalent monologu s náhradou číslovky mono za di, odtud jsou konstruovány obskurní výrazy typu trialog apod.). Diabolos je překladem hebr. satan (שטן). Slova ďábel a satan jsou v některých versích Bible užívána zároveň (Bible by se správně měla psát s y, neb název je od fénického města Byblos). Oproti tomu slovo čert nemá jasný původ. Ještě je vhodno zmínit se o slovu démon, z řec. δαιμων / daimón = zlý duch, prý souvisí se slovem dělit.

Abychom nezůstali pouze u teologické terminologie, zmíním ještě slovo dělo. Toto slovo bylo původně variantou slova dílo. Vývoj významu byl dílo → stroj → obléhací stroj → kanón. V tomto významu existuje jen v západoslovanských jazycích (slov. delo, pol. działo).

Nakonec, jako bonus, slovo darebák: základním tvarem je tu přídavné jméno darebný, původně daremný, v původním významu bezcenný. Slovo je odvozeno od slova dar, na základě logiky, že věci obdržené darem obvykle nemívají velkou cenu. (Když už jsem u toho, nedá mi to upozornit na fakt, že české slovo bezcenný může být pro ostatní Slovany dost matoucí. Polské bezcenny i ruské бесценный znamenají pravý opak, tj. neocenitelný, drahocenný.)

neděle 22. listopadu 2009

Úvod do antropického principu

V úplně prvním příspěvku na tomto blogu, který jsem psal někdy koncem letošního srpna, jsem vyjádřil svůj úmysl napsat kritiku antropického principu. Nuže, ta chvíle nastala teď. Předem říkám, že se neřadím k vyznavačům tohoto principu a následný text bude proto dosti kritický.

Asi je vhodné nejdřív říct, co je antropický princip (dále občas AP). Jak už to bývá, existují různé verze AP. Všechny tyto verze se nabízejí jako odpověď na otázky o povaze světa ve kterém žijeme. Jsou to otázky jako
  • Proč je poměr hmotnosti protonu a elektronu přibližně 1800:1?
  • Proč je Země zrovna 150 miliónů km od Slunce?
  • Proč je vesmír starý právě cca. 14 miliard let? 
Jedná se zpravidla o otázky typu "proč je svět takový, jaký je?" Odpovědi nabízené antropickým principem mají vždy něco společného s existencí člověka (odtud název - z řeckého ανθροπος = člověk). V následujícím budu rozlišovat následující typy či formulace AP:
  1. Vesmír musí vypadat tak jak vypadá proto, aby umožňoval existenci člověka.
  2. Vesmír musí vypadat tak jak vypadá proto, aby umožňoval existenci inteligentního života.
  3. Existuje více logicky přípustných variant vesmíru. Kdyby ale neumožňoval vznik inteligentního života, neměl by si kdo klást tyto otázky. Z toho, že si je klademe, vyplývá, že musíme žít ve ve velmi specifickém vesmíru.
  4. Reálně existuje mnoho různých vesmírů s různými zákonitostmi a hodnotami fyzikálních konstant. Inteligentní život ale může existovat jen v tom našem, a tak není divu, že se nacházíme zrovna tam.
První dvě formulace říkají, že existuje princip, který říká, že ve vesmíru musí existovat inteligentní život, z čehož se dá odvodit jisté omezení na to, jak mohou vypadat přírodní zákony. Interpretace takového principu může být různá. Lze jej považovat za běžný přírodní zákon, který komprimuje informace o povaze přírodních konstant do krátké věty "hodnoty musejí umožňovat inteligentní život", nebo lze tento princip zahrnovat do různých teologických spekulací.

Formulace 3 a 4 jsou pravděpodobnostní: netvrdí, že vesmír musí nějak konkrétně vypadat, ale pozorovaný fakt, že jako lidstvo existujeme, nám z mnoha možností vybírá pouze některé. Než zdlouhavý popis, lépe pomůže trochu nedokonalá analogie: Představte si, že vyhrajete ve sportce první pořadí, tipnuvše si čísla 6, 12, 34, 38, 41 a 42. Nemálo lidí si v takové situaci položí otázku: Jak je to možné, že padla zrovna tato čísla? V analogii s předchozím připadají v úvahu, kromě jiných, odpovědi
  • Existuje princip, který říká, že zrovna já musím vyhrát první pořadí. Tipnul jsem si 6, 12, 34, 38, 41 a 42, a proto tato čísla padla. Jiná by mi nezajišťovala výhru. (Odpovídá přibližně AP dle 1. a 2. formulace.)
  • Mohla padnout jakákoli čísla. Kdyby ale padla jiná, tuto otázku bych si nekladl. (Odpovídá přibližně třetí formulaci.)
  • Byla taženo spousta tahů, ale pouze tehdy, když někdo vyhraje první pořadí, tak si klade tuto otázku. (Přibližná analogie čtvrté formulace.)
Přepsán takto vypadá antropický princip nepříliš vznešeně a jeho první dvě formulace, přijmeme-li srovnání s loterií, se zdají být megalomanským přeludem. Nechci ale útok proti AP vést pomocí analogie, poněvadž analogie je velice zrádná metoda argumentace. Konkrétně srovnání s loterií je do značné míry zavádějící například proto, že existují sázející, kteří nevyhráli, a kteří si také mohou klást otázky, ovšem tentokráte namířené opačným směrem - proč jsem nevyhrál? - v situaci, kde je aplikován standardní AP by tomu odpovídali lidé žijící ve vesmírech neumožňujících život, což je absurdní. Přesto mám za to, že pocit absurdity navozený uvedenou analogií je částečně na místě.

V dalších příspěvcích na téma AP chci blíže rozebrat následující otázky:
  1. Je AP vůbec logicky správná odpověď na dobře definovanou otázku?
  2. Je AP fakticky správnou odpovědí? Neopírá se o nepotvrzené či nepravdivé zamlčené předpoklady?
  3. Je formulace AP v jakékoli podobě jednoznačná a přesná? Neopírá se o intuici víc, než je pro fyzikální princip vhodné?
  4. Je AP testovatelný?
Jsem připraven argumentovat, že ani na jednu z položených otázek není možné dát jednoznaně odpověď ano.


Poznámka na závěr: Občas se rozlišuje slabý a silný AP. Chápání tohoto rozlišení se ale může různit. V původní formulaci slabý AP odpovídá na otázku našeho především časového umístění uvnitř současného vesmíru (nemohli bychom žít těsně po velkém třesku, kdy byl vesmír příliš horký, ani výrazně později než dnes, kdy zaniknou hvězdy a nebude dost dostupné energie). Silný AP pak vypovídá přímo o hodnotách fyzikálních konstant. Tudíž, podle slabého AP není náhoda, že vesmír je starý 13 miliard let, podle silného AP není náhoda, že konstanta jemné struktury je přibližně 1/137. Někdy se ale silný AP rozumí jako synonymum pro 1. a 2. formulaci z tohoto článku, zatímco slabý AP je synonymem pro 3. a 4. formulaci. Abych snížil riziko vzniku nedorozumění, budu se snažit použití adjektiv silný a slabý vyhnout.

pondělí 16. listopadu 2009

Pondělní šifra VII.


Po delší době opět vychází šifra:



ŘEŠENÍ.

Neaktuální fotoreportáž z Bologne



 Procházeje svůj archív fotek s úmyslem najít něco do cestovní rubriky blogu, zastavil jsem se u složky týkající se italské Bologne. Pobýval jsem tam pár dní na konferenci v roce 2006 [1]. Vzpomínky nejsou nejčerstvější, na druhé straně bude díky tomu příspěvek stručnější, což může být i výhodou pro netrpělivé čtenáře. Namísto dlouhého psaní jsem stvořil něco jako ilustrovanou reportáž.

Svým způsobem příznačný je snímek nahoře: nemůžu si totiž zaboha vzpomnout, kde přesně jsem jej pořídil [2]. Protože jsem se ho nechtěl zříct, vyřešil jsem to jeho umístěním v záhlaví. U následujících fotografií se budu snažit vždy poskytnout nějaký komentář. Bohužel, paměť je prevít, a i věci, které se zdají zapamatovatelné navěky, se ztrácejí z paměti překvapivě snadno. Ale zpět k tématu.



Cestu po Bologni začneme u symbolu města, dvou věží, co stojí na konci ulice Rizzoli. Existují ještě další torri di Bologna, ale tyto dvě jsou nejvýraznější. Vyšší z nich se jmenuje Asinelli (věže byly pojmenovávány po rodinách, které je vystavěly v průběhu 12. století) a měří 97 metrů. Mírně se naklání, ale zdaleka ne tolik, jako ta menší, zvaná Garisenda, vysoká 48 metrů.



Věže jsou vděčným tématem fotografií. Do věže Asinelliů je možno vstoupit a po nesčetných schodech vystoupat až na vyhlídkovou plošinu.

 

Výhled seshora je exkluzivní. Na obrázku je pohled na západoseverozápad a nejnápadnějším objektem je katedrála sv. Petra. Před ní stojí svě věže, po Asinelli nejvyšší dochované ve městě. Ta vlevo je Torre degli Azzoguidi, zvaná též Altabella (tedy vysoká kráska), vpravo pak se tyčí Torre Prendiparte. Obě mají cca. 60 metrů.



Šikmost Garisendy je vidět i na pohledu shora. Asinelli a Garisenda jsou zvláštní i tím, že vyrůstají izolovaně, ostatní věže jsou alespoň z jedné strany včleněny do další zástavby.



Těch pár věží, co lze vidět dnes, je ovšem pouhé torzo původní středověké Bologne. Obrázek výše je ofotografovaný snímek visící uvnitř věže Asinelliů, zobrazující Bolognu jak vypadala ai tempi di Dante, tedy ve třináctém století. Podobný pohled na desítky věží dnes již nespatříme. Jisté přiblížení může představovat město San Gimignano, které je relativně známé svými věžemi. San Gimignano ale je, a vždycky bylo, oproti Bologni malým městečkem.

 

Z věží je možno domorodcům koukat přímo do zahrady. Ve vnitřním městě je velmi málo zeleně, a tak se není příliš proč divit pěstování stromů na střechách.



Tento snímek je pořízen pod patami dvou věží, na křížení Via Castiglione a Via Caprarie, a ilustruje další typický prvek Bologne: podloubí.



Podloubí je prakticky všude. Každá ulice v historikém centru má zakrytý chodník aspoň na jedné straně. Spíš než jako ochranu chodců před deštěm či sluncem je ale podloubí třeba chápat jako úsporu drahocenného místa. Ulice jsou v historické části Bologne velmi úzké a na chodník nebylo dost místa, a tak chodník vede domem. Nebo můžeme říkat, že domy jsou postaveny nad chodníkem, jak je komu libo. Mimochodem, chodníky často nejsou nijak výškově odděleny od silnice a hranici vymezují právě jen sloupy podloubí - dokonalá bezbariérovost ve středověkém podání.



Toto podloubí je ale speciální. Je to součást několik kilometrů dlouhé zastřešené cesty od bývalých hradeb u brány Porta Saragozza k poutní svatyni s oficiálním názvem Santuario della Madonna di San Luca ležící na kopci za městem.



Trasa vede nejdřív jako podloubí podél ulice Saragozza, ale pak se odděluje, ulici překříží mimoúrovňově (obr. výše pořízen z tohoto křížení) a dále pokračuje jako samostatně stojící zastřešené schodiště. Celá cesta má údajně 666 oblouků, což se zdá lehce zvláštní u křesťanské stavby.



Když už jsem zmiňoval šířku ulic: nějak se s tím musí vypořádat i hromadná doprava. Často lze vidět autobusy projíždějící úzkými uličkami jako na obrázku.



Dost ulic v roce 2006 bylo zatrolejováno pro provoz trolejbusů (italsky filobus) - vidět na levém obrázku (před kostelem Santa Maria dei Servi na Strada Maggiore), ale provoz nebyl žádný. Původně jsem si myslel, že trolejbusový provoz prochází likvidací, ale po krátkém hledání na webu se zdá, že byl zachován, a v době mé přítomnosti pouze panovala výluka. Hlavním dopravním prostředkem jsou ale skútry, jako všude v Itálii (obr. vpravo).



Zajímavým jevem jsou různé napohled vysloužilé bicykly pevně připoutané k místu svého určení. Potvrzují zásadu, že vždy je nejpevněji zajištěno to, co by stejně nikdo nekradl.



Druhý obrázek slouží jako důkaz, že předchozí snímek nebyla ojedinělá anomálie.



Když už jsme u dopravy, nebyl bych to já, kdybych si aspoň jednou nevyfotil nádraží. Toto je Boloňské hlavní a můžeme zde vidět mimo jiné jednotku ETR500 používanou na vysokorychlostních tratích.



Příjemnou atmosféru mají boloňská náměstí. Většinou nejsou velká, jak je vidět na příkladu Cavourova náměstí na snímku.



Náměstí San Stefano je vlastně rozšířená křižovatka ulic San Stefano a Via Santa. Pozoruhodná je zde bazilika Svatého Štěpána, založená již v pátém století. Je to vlastně komplex několika kostelů - snad až sedmi soudě dle místního názvu Sette Chiese, a protože antických památek v Bologni mnoho nenajdete, jedná se o jednu z nejstarších staveb ve městě.

 

Vlastně jediným větším náměstím je, už podle názvu, Piazza Maggiore. Je to přirozené centrum města, nejen díky poloze přímo ve středu historického centra, ale i díky konání kulturních akcí [3].



Na náměstí stojí za pozornost Neptunova kašna (vpravo unkční detail téhož). Uprostřed náměstí pak stojí Pallazo del Podestà, sídlo městské vlády (podestà byl titul nejvyššího úředníka a správce italských měst, obvykle dosazovaného papežem). Následující snímek nezobrazuje přímo tento palác, ale s ním sousedící Pallazo Re Enzo z poloviny 13. století. Ačkoli je palác podestů starší, byl přestavěn v renesančním stylu, zatímco palác krále Enza si zachoval svou gotickou podobu.




Poznámky:
1. Konferenci pořádala Boloňská universita, která je považována za nejstarší v Evropě (založena 1088).
2. Pozná-li někdo z čtenářů ono místo, ať mi prosím v komentáři osvěží paměť, budu vděčný.
3. Během čtyř dnů jsem na tomto náměstí byl svědkem promítání nějakého norského němého filmu z počátku dvacátého století (originální titulky v norštině, pod tím italský překlad) a následně promítání přímého přenosu semifinále MS ve fotbale Itálie proti Německu. Návštěvnost byla v obou případech hojná, v případě druhé akce ale diváci reagovali o poznání hlučněji.

středa 4. listopadu 2009

Entropie dvou obálek

O paradoxu dvou obálek jsem již psal. Pro připomenutí, nacházíte se v situaci, kterou jsem ve zmíněném příspěvku popsal jako televizní soutěž, kde:

Moderátor před vás položí dvě obálky, a sdělí vám, že uvnitř jsou šeky na výherní částku. Také vám sdělí, že z těchto dvou částek je ta vyšší dvojnásobkem té nižší. Nesdělí vám ale už, o jak vysoké částky se jedná.

Podle pravidel si teď musíte vybrat právě jednu z obálek. Poté ji máte právo otevřít a podívat se, o jakou částku se jedná. Nebude-li se vám částka líbit, můžete obálku vrátit a vzít tu druhou, ovšem tato volba je již definitivní.
Zdánlivý paradox spočívá v tom, že na jednu stranu je celkem očividně jedno, jestli vezmu první nebo druhou obálku. Před otevřením jsou obě obálky rovnocenné, a otevřením jedné z obálek se nic nedozvím o tom, jestli je to ta s více penězi nebo ta s méně penězi. Na druhé straně ovšem, najdu-li v obálce částku X, očekávaná střední hodnota v druhé obálce je 5X/4, což by znamenalo, že je lepší brát druhou obálku.

Napsal jsem, že paradoxnost vymizí, pokud blíže určíme, co znamená, že částky v obálkách jsou náhodné. Když řekneme, že nějaké číslo je náhodné, intuitivně automaticky předpokládáme, že její rozdělení je rovnoměrné na oboru přípustných hodnot, tj. že každá přípustná hodnota má stejnou pravděpodobnost. Ovšem na intervalu (0, ∞) rovnoměrné rozdělení neexistuje. U jakéhokoli jiného rozdělení ale neplatí, že otevřením jedné z obálek se nic nedozvím. Což jsem ilustroval na dvou příkladech.

Mohl jsem se tvářit, že problém je vyřešen, ale svět bohužel (nebo naštěstí) není tak jednoduchý. Není totiž od věci trvat na původním zadání: máte dvě obálky, o nichž vám moderátor sdělí právě jenom to, že v jedné je X, v druhé 2X, a X je náhodné. Vašim úkolem je zvolit strategii postupu.

Namítat, že pojem náhodnosti není jednoznačný, nepomůže. Ne vždy člověk dostává přesné a jednoznačné informace. Náhodnost X nemusí být výsledkem stisknutí tlačítka RND na kalkulačce či sledováním rozpadu uranu 235 či čehokoli jiného, co vnímáme jako z podstaty náhodný děj. Klidně to může být tak, že X si moderátor vycucal z prstu, nebo je pevně určeno v pravidlech soutěže, která vy bohužel neznáte. Pravděpodobnost nakonec není nějaká mysteriózní síla, která řídí určitou uzavřenou třídu jevů. Pravděpodobnost nežije v obálkách ani v náhodných generátorech; naopak, žije v našich hlavách, kde popisuje míru naší (ne)znalosti faktů. A v tomto případě je to tak, že o hodnotě X nevíme vůbec nic, a jsme nuceni si vymyslet její rozdělení pravděpodobnosti.

Pokud bychom věděli, že X může nabývat jen omezeného intervalu hodnot, automaticky volíme rozdělení rovnoměrné. Zdá se to naprosto přirozené, ačkoli není vůbec jednoduché odpovědět na otázku, proč. Není žádný pevný logický princip, který by nás k tomu nutil. Můžeme mávat rukama a říkat, že nemáme žádný důvod předpokládat, že pravděpodobnost, že při hodu mincí padne líc je větší nebo menší než pravděpodobnost, že padne rub - a proto předpokládáme, že tyto pravděpodobnosti jsou stejné. Na druhé straně, není-li důvod předpokládat různost těchto pravděpodobností, není ani důvod předpokládat jejich stejnost [1]. Pokud je nějaký fakt těžko odůvodnitelný, obvykle se to řeší tak, že jej prohlásíme za princip či axiom. S takovým "řešením" se tady můžeme klidně spokojit, a prohlásit, že při absenci jakýchkoli informací o hodnotě X kromě znalosti intervalu přípustných hodnot, z principu přiřazujeme X rovnoměrnou pravděpodobnost na onom intervalu.

Existuje nějaký podobný princip, který funguje i na nekonečných intervalech? Ukazuje se, že ano: za určitých podmínek poslouží princip maximální entropie [2].

Entropie pravděpodobnostního rozdělení je definována jako

S = -Σi pi log pi ,

přičemž pro spojité rozdělení je suma nahrazena integrálem. Číslo pi je pravděpodobnost i-té hodnoty. Základ logaritmu může být jakýkoli, nehraje to žádnou zásadní roli. (Omezuji se zde pouze na praktický popis principu, nikoli na argumenty, kterými je podpořen. Speciálně by stálo za to rozebrat, proč je entropie definována zrovna tak, jak je definována; snad se k tomu někdy v budoucnu dostanu.)

Princip maximální entropie říká (dále jen PME), že člověk by měl neznámé veličině přiřadit takové rozdělení, které má ze všech přípustných rozdělení nejvyšší entropii. Ukazuje se, že pro omezené intervaly dává PME rovnoměrné rozdělení, takže PME je zobecněním jednoduššího "principu rovnoměrné pravděpodobnosti", či jak tomu chceme říkat. Pro ilustraci vezměme hod mincí. Pravděpodobnost, že padne líc, označmě p, pravděpodobnost pádu rubu je bezpochyby 1-p. PME říká, že
- p ln p - (1-p) ln(1-p)
má být maximální, což je pro p = 1/2. [3]

Síla PME samozřejmě nespočívá ve schopnosti dojít k rovnoměrnému rozdělení neznámé veličiny v případě, že nevíme nic než obor jejích přípustných hodnot. To bychom mohli postulovat rovnou. Pomocí PME ale jsme schopni najít "správné" rozdělení i v případě, kdy máme o veličině dodatečné informace. Typickým případem je, když máme důvod se domnívat, že známe její střední hodnotu. Potom nám PME dá exponenciální rozdělení [4], jak můžeme vidět na třech příkladech na obrázku níže:




Uvažujeme-li interval (0, ∞), rozdělení s maximální entropií bez dodatečné podmínky na něm neexistuje. Čímž by se mohlo zdát, že nám PME nijak nepomohl. Ale ve skutečnosti jsme na tom docela dobře. Stačí totiž, specifikujeme-li střední hodnotu neznámé veličiny, a PME nám nadiktuje
rozdělení (bude to, stejně jako u konečného intervalu, exponenciála). (Kdybychom hledali rozdělení na intervalu (-∞, ∞), museli bychom zadat ještě jednu podmínku - mohl by to být třeba rozptyl a v takovém případě by rozdělení s nejvyšší entropií byla Gaussova křivka.)

Díky PME se tedy naše situace zjednodušuje. Místo celého rozdělení nám stačí nějak odhadnout jeho střední hodnotu. Na otázku jak bohužel žádná standardní odpověď neexistuje. Můžeme například odhadnout, kolik zhruba peněz si pořadatel soutěže může dovolit věnovat na výhru. Je celkem těžké si představit situaci, kdy není k dispozici žádná vědomost, která by mohla být použita k odhadu střední hodnoty. A i kdyby nebyla, střední hodnotu prostě odhadneme náhodně, ať už to znamená cokoli - nebude to pořád o nic horší, než kdybychom neměli žádnou strategii.

Princip maximální entropie se tak nejeví jako moc velká výhra. Což se není čemu divit, pokud máme málo informací, naše rozhodování podle toho bude vypadat, i když bude podrobeno matematickému formalismu. Pokud ale jsme schopni aspoň nějakou informaci získat, pak PME nabývá na síle. Představme si, že jsme dvojobálkové loterii podrobeni opakovaně. Pak můžeme evidovat výsledky z předchozích opakování a z nich spočítat odhady střední hodnoty, rozptylu a dalších momentů, ty pak zadat jako dodatečné podmínky pro hledané rozdělení a najít to s největší entropií. Tato strategie by měla být velmi efektivní.

Není samozřejmě pravda, že takový postup bude vždy optimální strategií. Házím-li cinknutou kostkou, na které padne vždycky šestka, také není optimální předpokládat rovnoměrné rozdělení. Optimální je předpokládat, že padne vždy šestka. Pokud ovšem vím, že je kostka cinknutá, ale nevím jak konkrétně, zase mi nezbyde než předpokládat rovnoměrné rozdělení. Předpoklad, že padne vždy šestka je sice optimální na kostce, která je tak upravena, ale je naprosto nevhodný na drtivé většině ostatních kostek. Naopak zásada rovnoměrného rozdělení padajících hodnot je univerzální. Stejně tak univerzální, ale obecnější, je princip maximální entropie. Obecnější proto, že umožňuje vzít v úvahu částečně známé informace. A dává odpověď na otázku: Jaké je přirozené rozdělení náhodné veličiny na nekonečném intervalu?

Poznámky:
1. Hod mincí není moc dobrý příklad, protože s ním máme dlouhodobé zkušenosti. Asi každý si za život pár set krát hodil mincí a ví proto, že rub a líc padají přibližně stejně často. Pokud ale narazíme na jev, se kterým žádnou zkušenost nemáme, je nastalá situace prekérnější.
2. Souvislost s termodynamikou je zde velmi volná. Ačkoli se člověk běžně s pojmem entropie setkává v souvislostech fyzikálních, pojem entropie přirozeně patří do teorie pravděpodobnosti a jeho fyzikální interpretace je jen jeho velmi specifickým uplatněním. Fyzikové ovšem objevili entropii nejdříve, již v
devatenáctém století. Princip maximální entropie pro pravděpodobnostní rozdělení byl formulován až v polovině století dvacátého.

3. Derivováním podle p získáme ln p - 1 + ln(1-p) + 1 = ln(1-p)/p, což je rovno nule právě když p = 1 - p.
4. Odvození je triviální úloha na variační počet.