Netřeba to moc rozvádět. Kdo si rozklikl tento článek, velmi dobře asi tuší, že průzkumy preferencí amerických voličů v r. 2016 byly popisovány jako naprosté fiasko. Vítězství Donalda Trumpa neuhádly. Letos se měly poučit. Podařilo se?
Tento článek byl originálně napsán pro blog autora na platformě Blogy Respektu. Původní text naleznete zde.
Začněme zásadním bodem. Spousta lidí neumí výsledky průzkumů číst. To by nebylo ke škodě, protože texty vládních nařízení a návrhů zákonů se též všichni neprobíráme, to udělají média za nás a v ucelené formě si to pak přečteme. Nepochybně to znamená, že břemeno zdroje a interpretace je pak na straně novinářů. Problém je, že ani zpravodajské weby neumí podat výstupy z průzkumů kvalitně.
Není to tak dávno, co bylo zcela běžné najít v titulku tvrzení typu: “TOP 09 hrozí, že se nedostane do sněmovny.” To by byla velmi podstatná zpráva, kdyby pohled na výsledky průzkumu neodhalil, že ten přisoudil dané straně třeba 4.5 % podpory. V takový moment nemá smysl brát takový výrok vážně. Autoři obdobných analýz sice mohou postupovat, jak jen poctivě chtějí, nikdy se ale nevyhnete určité míře statistické chyby. Ani sebelepší kvótní výběry ani nejdůmyslnější postupy vám nezajistí, že jste shodou náhod potkali více voličů ANO, než kolik by odpovídalo tomu, kolik jich v populaci přibližně je. Tedy se pak stane, že podpora ANO vám ve výsledcích přestřelí tu reálnou. Máme ale právě určitou míru chyby, se kterou je nutné počítat a kterou umím odhadnout. Jen je ještě třeba jí porozumět a na základě toho správně interpretovat výsledky. No a to se právě občas neděje.
Celek je více než soubor částí
S takovými i jinými potížemi, třeba danými nedostatečnou znalostí složení populace, nezastižením určité skupiny obyvatelstva, špatně vedenými rozhovory – s tím vším se potýkají průzkumy i v USA. Některé aspekty kvality průzkumů lze vědomě vylepšit, u jiných je to složitější.
Nechce se mi zaobírat konkrétními problémy v průzkumech před duelem Trump v. Clinton, napsáno o tom bylo mnohé a asi lépe, než bych teď svedl já. Letošní průzkumy jsem ale sledoval bedlivě. Proto se přesuneme rovnou k nim.
FiveThirtyEight je webová stránka věnující se modelování výsledků nadcházejících voleb a komentářům k těmto odhadům. Nedělají vlastní průzkumy. Agregují ty existující, kterých je obrovské množství, a skládají z nich, řekněme, průměrný obraz toho, jak to pro koho ve volebním klání vypadá. Jen zprůměrovat sebrané hodnoty samozřejmě nestačí, respektive by to ignorovalo rozdíly v metodách průzkumů (někdy po telefonu, jindy přes internet, …) a nebralo by to v potaz kvalitu zdrojových agentur. FiveThirtyEight to řeší zhodnocením metodologie sebraných průzkumů, každou agenturu má na základě její úspěšnosti a kvality postupů oznámkovanou od A+ do F a model to následně bere v potaz.
Pakliže ale každý průzkum, i ten “šprťácký”, obsahuje nutně míru nejistoty přesné hodnoty podpory kandidáta, jak správně odhadnout výsledek? Prezidentem Spojených států je zvolena osoba, která získá 270 či více hlasů volitelů. Ti zastupují jednotlivé státy federace, každý stát má různý počet volitelů, což se odvíjí od počtu obyvatel, a platí princip “vítěz bere vše”, tedy kdo v daném státu získá od občanů nejvíce hlasů, “sebere” všechny tamní volitele, kteří pak pro něj hlasují. Rozhoduje tedy doslova každý hlas, zvláště v těch nejlidnatějších státech (lépe řečeno – zároveň těch, kde má jedna či druhá strana možnost otočit výsledek ve svůj prospěch, Kalifornie, mající 55 volitelů, tedy nejvíce ze všech států, je “modrá”, ať by se republikánský kandidát třeba na hlavu postavil, a u toho foukal bubliny, … tedy aspoň prozatím to tak je…).
Statistka nuda je, nikdo nečte údaje
Kam s nimi – se všemi hodnotami podpory kandidátů v jednotlivých státech? Je jasné, že státy s nejvíce voliteli mají rozhodující slovo, ale ouha – v těch, kde mají předběžně šanci oba kandidáti, je dělí třeba jeden procentní bod! To je v mezi chyby, takže – kdo by vyhrál? Co když druhý kandidát, který je pozadu, jen protože jsme se ptali shodou náhod (špatně naplánované průzkumy můžeme počítat jako méně spolehlivé – ale opět nám jde o náhodnou chybu “měření”, která je nevyhnutelná!), by měl navrch a měl v hrsti stát s mnoha voliteli, a tedy značnou výhodu?
A co ostatní faktory? Jak moc půjdou lidé k volbám? Kdo tam přijde? Má kolem sebe dost míst, kde se dá hlasovat? Jak moc do rozhodování zasáhne covid-19 v tom kterém státě dle jeho místního rozšíření? Jak zahraje do karet stav ekonomiky?
Model FiveThirtyEight s tím vším veskrze počítá (pun intended). Vezme známé hodnoty z průzkumů, váží je dle jejich příslušnosti k pohlaví, etnickému původu, věku, vzdělání, dále započítává stav ekonomiky, kolik dnů zbývá do voleb a tak dále a tak dále… Tím je možné přiřadit k podpoře prvního či druhého kandidáta faktory zvyšující šanci na úspěch, a naopak i faktory šance snižující. Zlatým hřebem všeho ale je, že vážení podpory kandidátů vzhledem k okolnostem, kontextu a povaze voličů probíhá 40 000 simulacemi voleb. Přesně tolik vypočítá model sad možných výsledků – tu Hispánci podrží Trumpa, tady Bidena přijdou ve velkém volit Afroameričané, jindy je to třeba naopak. Model jednoduše náhodně přiřazuje míru faktorů, jejichž možný rozsah známe, ke každému z výsledků.
Poté, co počítač vyplivne souhrn 40 000 voleb (zajímalo by mě, jak dlouho by Nevada počítala takový vagón volebních lístků…?), máme celek vycházející z toho, jak se jednotlivé faktory mohou sejít a co průměrně vychází jako pravděpodobné.
(více k metodologii modelu zde)
Proto FiveThirtyEight počítá s pravděpodobnostmi vítězství obou kandidátů a ty prezentuje jako jeden ze zásadních výstupů. Zde pravděpodobně dochází k jednomu z mnoha zmýlení. Šance, že vyhrajete volby, která pro vás vychází jako o něco hůře než 25:75 není tak špatná, když si představíte, že takový kandidát si ze čtyř karet vytáhne jednu – a doufá, že tam na něj čeká nápis “Vítěz!”. Ano, 1:4 je jeho šance na vítězství. A přesně takovou kartu si pomyslně Trump vytáhl před čtyřmi lety, čímž zadupal do země tak lákavě a slibně vyhlížející tříčtvrtinovou pravděpodobnost, že vyhraje Hillary Clinton.
5-3-8, … dopočítali se správně?
Ani v r. 2016 nebyl model FiveThirtyEight tak úplně vedle. Sice i on přechroustal ve výpočtech opravdu nedostatečně vypracované průzkumy, ale výsledek zdaleka nevypadal tak pěkně pro Clinton, jak by se mohlo zdát – a jsme samozřejmě opět u interpretace, tedy jak si to přebrala média a jak lidé obecně. Bylo jasné, že nad případným triumfem Donalda Trumpa mnozí raději zavírali oči a dělali, že “to je prostě přeci nemožné, aby tenhle vyhrál!”.
Letos to naopak pro Bidena stabilně vypadalo dobře. V den voleb, kdy model počítal několik dnů předem prakticky už jen s jistějšími odhady, např. protože voliči se během zbývajícího času už tolik nerozhodnou jinak, měl Trump šanci na vítězství “jen” 10:89 (zbývající “1” by znamenala remízu, tedy 269 volitelů pro oba). To je výrazný rozdíl oproti r. 2016. Nyní máte před sebou jako Trump 10 karet a musíte si vybrat opět tu jednu. Asi se už potíte více a více se modlíte k bohům štěstěny, že?
Ať směřujete či ne prosby k nebesům, samozřejmě stále můžete zvítězit. Ale není to tak jisté. Musí se sejít užší vzorek možných kombinací faktorů, které působí na finální výsledky, aby vám to vyšlo. Naopak soupeř má přímo hostinu možností.
To se nakonec ukázalo i tehdy, kdy zbývalo ohlásit několik posledních států. Opakovaně se, a správně, říkalo, že Biden má k cíli 270 volitelů více možných cest, kdežto Trump mnohem méně.
K čemu jsem dospěl?
Biden opravdu vyhrál. Při volební noci, tedy ze 3. na 4. listopadu, sice došlo k překvapivému zisku Floridy pro Trumpův tým, ale nakonec Bidenovi stačilo otočit minule červené státy pro Trumpa v ty volící nejvíce hlasy jeho. Tedy Nevadu, Michigan, Wisconsin, Pensylvánii – aktuálně to pro něj vypadá dobře i v Arizoně a Georgii. A kdyby býval vyhrál v počátku Floridu, kde se hlasy sčítaly svižně, bylo by v podstatě jisté, že vzhledem k podobnostem preferencí na základě voličských charakteristik by se Bidenovi dařilo napříč státy u těchto skupin – a tedy že Trump ztrácí naději na Bílý dům už během Election Night.
Zajíknutí se Demokratů nad ztrátou Floridy bylo následováno i zajíknutím se autorů průzkumů. Floridu nečekali. Zdá se, že mimo jiné neodhadli míru podpory Trumpa mezi kubánskými imigranty.
Ale co říkal model FiveThirtyEight, jehož “stroj” se zastavil v den voleb? Že Biden by získal Floridu s pravděpodobností 69:31. To nezní nakonec tak závratné, že?
Jak vidíte v přiložené tabulce, někde se dala převaha kandidáta (resp. vyšší pravděpodobnost jeho vítězství) brát jako jistá, někde jako spíše nejistá. Florida mezi ně patří, pakliže za potřebný rozdíl mezi pravděpodobnostmi vezmeme hodnotu >=40. Tedy – patří, ale s odřenýma ušima. Můžeme soudit, že na jejím příkladě se agentury budou muset zvláště poučit.
Dále se ukazuje, že obecně Trumpovi model fandil méně, než jakou podporu nakonec získal. Ale – nebylo to podstatné. Nezapomínejme – podstatné je mít nejvíce hlasů v daném státě. Trump si sice výrazně lépe vedl ve státech jako New York nebo Severní Dakota – ale je to pro odhad toho, komu připadnou volitelé, nepodstatné. Rozdíl mezi kandidáty byl jednoduše moc velký, v prvním jasně vedl Biden, ve druhém Trump – asi i kdyby zamrzlo peklo. Ano, je to podstatné z hlediska toho, že v opačném případě, že Biden předčil očekávání, takové případy nemáme. U Trumpa jich je několik, jak můžete vidět. Jistě tedy budou muset nejen u Floridy autoři průzkumů zapátrat, proč se jim nedaří odhadnout skutečnou míru podpory pro Trumpa přesněji.
Na druhou stranu musím přiznat, že jsem byl přísnější, než jak “přikazuje” statistika. Grafické vyobrazení jasně napovídalo, že rozsah chyby v “popular vote” může být až do rozdílu zisku v podílu všech hlasů rovnému 10. Tedy kde měl být rozdíl 30 p.b., tam se mohl smrsknout na 20, případně rozšířit na 40 p.b. Já jsem přijatelný rozdíl nastavil na hodnotu 8.
Závěrem…
Když bychom sečetli volitele pro oba kandidáty jen v případě, kdy to vzhledem k rozdílu mezi pravděpodobnostmi bylo jistější, vycházelo by pro Trumpa 125 “zaručených” volitelů – a pro Bidena 279. Zbylých 134, ze států s těsnějšími odhady, by tedy zůstalo sedět v koutě, ale i kdyby si je do tance všechny přizval Trump, onu hranici 270 volitelů mi už dávno Biden sebral.
Dá se tedy říct, že v den voleb model FiveThirtyEight zcela pochopitelně dával tak velké šance na vítězství J. Bidenovi. Srovnání výsledků voleb s předpověďmi pro jednotlivé státy pak ukazuje, že Trump přebral Bidenovi modelem přisuzované volitele jen tam, kde to bylo těsné. U Floridy je tomu tak, že sice se zdála být spíše nakloněna k Bidenovi, ale Trumpův zisk na Bidenovi je v rámci chyby rozdílu mezi podíly.
Samozřejmě oficiální výsledky ještě nebyly vyhlášeny. Zdá se ale, že rozdíly mezi kandidáty se s dopočítáváním všech hlasů napříč federací spíše zmenšují. Tedy – nebylo to tak tragické, jak to mnozí popisují. Jen z pohledu do modelu FiveThirtyEight se dalo v předvečer voleb s jen minimálním zneklidněním ducha vsadit na vítězství Joe Bidena.
Co z toho vyplývá pro čtenáře? Doporučuji sledovat tyto modelové agregáty (nebo agregující modely?) spíše než jednotlivé průzkumy. Více průzkumů je vždy lépe, tím spíše pokud autoři modelů počítají s vážením dalších faktorů, které snadno neodhadnete, i kdybyste průzkumy vášnivě sbírali.
Jo a – moc nevěřte ve znalost metod průzkumů a základů statistiky u novinářů. Palcové titulky se píšou snadno, ale – nic ve zlém, přesto – pro skutečně správný závěr je třeba asi vždy jít hlouběji a vzít téma širší, komplexní perspektivou s těmi správnými a potřebnými znalostmi navrch.