Hledat
Přihlásit se
  • Věda a technika
  • Herní doupě
  • Tipy pro PC
  • IT Byznys
  • Mobily
  • Počítače
  • Počítače
  • Témata
  • Poradna
  • Diskuzní fórum
  • Video
  • Bazar
  • Blogy
  • MĚŘENÍ RYCHLOSTI
  • RSS
  • Facebook Twitter YouTube
  • Hardware
  • Software
  • Počítače
  • Notebooky
  • Služby na webu
  • Apple
  • Google
  • Microsoft
  • Seznam
  • Tiskové zprávy
Další témata
  • Týden Živě
  • Zprávy Živě
  • Testy
  • Pitvy
Všechna videa
Blogy Živě » Dejvidův blog

Dejvidův blog

o webu (2.0) a tak různě…
 

Příspěvky se štítkem „asociační pravidla“

Data mining výsledků prezidentských voleb

Po trošku delší době (4,5 roku :-) ) jsem se rozhodl oživit tenhle zaprášený blog příspěvkem o analýze dat výsledků prvního kola prezidentských voleb. Nečekejte žádná převratná zjištění, přeci jen, výsledky už byly rozebrány poměrně detailně. Jedná se nicméně o analýzu metodou, kterou si troufám tvrdit, že na tato data nikdo nepoužil.

S datasetem, dostupným jako otevřená data ve formátu csv ze stránek Českého statistického úřadu (volby.cz), jsem provedl několik úprav. Předně jsem pomocí dostupných číselníků přidal sloupce okres a kraj. Dále jsem vypočetl procentuální zisk pro jednotlivé kandidáty v jednotlivých volebních okrscích.

Upozornění - následující odstavce vás mohou (z)nudit, kdyžtak přeskočte rovnou na výsledky :-)

Takto upravená data jsem importoval do data miningového nástroje LISp-Miner, akademického systému pro podporu výzkumu a výuky v oblasti data miningu. LISp-Miner nabízí celou řadu analytických procedur a metod, já jsem pro analýzu využil metodu asociačních pravidel (problematika asociačních pravidel, rozdíl mezi klasickými asociačními pravidly a rozšířenými asociačními pravidly, která jsou implementovaná v LISp-Miner je možné najít například v mojí dizertaci). Velmi stručně a zjednodušeně - asociační pravidla jsou vztahy ve formě IF - THEN, to znamená na základě nějakého předpokladu (levá strana pravidla) platí závěr (pravá strana pravidla). Sílu či významnost pravidla určují takzvané míry zajímavosti.

Asociační pravidla jen velmi obtížně pracují se spojitými veličinami, tedy s číselným rozsahem. Pro analýzu výsledků prezidentských voleb jsou ale klíčové procentuální zisky jednotlivých kandidátů v jednotlivých okrscích. Proto je třeba přistoupit k tzv. diskretizaci, tedy z obrovského množství (spojitých) hodnot vytvořit několik málo intervalů (kategorií). Problém u těchto dat ovšem je, že není možné tyto vytvořit jeden interval pro všechny prezidentské kandidáty, protože se jejich volební výsledek značně liší. Vyřešil jsem to tak, že jsem vytvořil 6 percentilů (procentuálního) volebního výsledku pro každého kandidáta. Tím jsem zabezpečil souměřitelnost výsledků.

Pro názornost následuje tabulka s percentily pro jednotlivé kandidáty. Například Mirek Topolánek získal v jednotlivých okrscích 0 - 28,57%, Jiří Drahoš získal 0 - 75% atd.

Percentil Zeman Drahoš Fischer Horáček Hilšer Topolánek
10 0,25016 0,16974 0,0405 0,0446 0,0526 0,0125
25 0,3323 0,2083 0,0622 0,0646 0,0698 0,0239
50 0,412 0,2512 0,0903 0,0873 0,0867 0,0374
75 0,487 0,2961 0,1233 0,1104 0,1043 0,0526
90 0,5577 0,3442 0,155 0,1326 0,1239 0,0689
100 0,8913 0,75 0,5526 0,6905 0,4 0,2857

Intervaly z těchto percentilů vyplývající (tedy 0-10, 10-25, …) potom tvoří 6 kategorií, které jsem použil v data miningové úloze.

Takže jdeme na to, co jsem získal. Provedl jsem celkem 8 úloh pro 6 nejúspěšnějších kandidátů, úlohu Antizeman, tedy součet zisků všech kandidátů, kteří do druhého kola podpořili Jiřího Drahoše, a poslední úlohu věnovanou volební účasti. Všechny úlohy zkoumaly vztah konkrétní hodnoty kraje a okresu a volebního výsledku (resp. volební účasti) jednoho kandidáta.

Výsledky

Zde přináším získaných 20 nejsilnějších asociačních pravidel pro kandidáta Miloše Zemana:

A teď přichází to nejvýživnější, interpretace pravidel. První tři pravidla nám říkají známou věc, že Miloš Zeman měl velmi nízký zisk hlasů ze zahraničí. Podíváme se na přesnou interpretaci pravidla číslo 5:

Pro okres Praha-západ platí, že je 7,178x větší pravděpodobnost, že volební zisk Miloše Zemana v jednotlivých okrscích (Prahy-západ) dosáhl nejnižšího percentilu (konkrétně že zde dosáhl volebního výsledku do 25%) oproti celé datové matici (průměru).

Interpretace pravidla 7:

Pro okres Karviná platí, že je 7,1x větší pravděpodobnost, že volební zisk Miloše Zemana v jednotlivých okrscích (okresu Karviná) dosáhl nejvyššího percentilu (konkrétně že zde volební výsledek přesáhl 55,77%) oproti celé datové matici.

Následuje 20 nejsilnějších asociačních pravidel pro “antizemana”, tedy součet procentuálních zisků Jiřího Drahoše a kandidátů, kteří Jiřího Drahoše veřejně podpořili (Pavel Fischer, Michal Horáček, Marek Hilšer, Mirek Topolánek, Vratislav Kulhánek):

Poznámka - možná jste si všimli, že se v seznamu nacházejí obdobná pravidla (například pravidla 1-3). To je další z problémů asociačních pravidel, že se často objevuje více pravidel přinášející stejnou informaci. Je to způsobeno nastavením úlohy, respektive hierarchičností atributů na levé straně pravidla, v tomto případě atributů okres a kraj. Je zřejmé, že okres je podmnožina kraje. Proto pokud máme pravidlo, které obsahuje konkrétní okres i kraj, ve výsledcích bude rovněž pravidlo obsahující pouze okres (kraj tam být může ale nemusí, protože, narozdíl od okresu nemusí mít stejnou hodnotu míry zajímavosti). Je samozřejmě možné se těchto nadbytečných pravidel pomocí různých metod filtrování a následného zpracování výsledků zbavit, tomu jsem se už ale nevěnoval.

Výsledky pěti nejúspěšnějších kandidátů spolu s volební účastí se nacházejí pod jednotlivými odkazy:

Drahoš

Fischer

Horáček

Hilšer

Topolánek

Volební účast

Pokračování příspěvku » »


24. 1. 2018 | DejvidCh | 1

Dejvidův blog využívá WordPress MU a běží na Blog.zive.cz. Vytvořte si svůj vlastní blog
Sledování přes RSS: články a komentáře



  • Štítky

    akinator anotace Bing Digifórum diplomová práce e-mail e-shopy elektronika Facebook fotky foto fulltext Google Google Image Labeler Google maps hardware historie informatika internetová reklama mapy mashup metadata mobily motivace multimedia nakupování Office Ondřej Neff osobní produkt Seznam spam street view tag cloud video videoagregátor videoservery vyhledávače výuka výzkum web 2.0 web design Wikipedia WolframAlpha zábava
  • Poslední příspěvky

    • Data mining výsledků prezidentských voleb
    • Kontroverzní témata na Wikipedii
    • Google Image Labeler
    • Přednáška od Seznamu - Produkt a jeho reálný přínos
    • Přednáška od Seznamu - fulltext (1)
  • Administrace

    • Přihlásit se


Předplatné Computer

Aktuální číslo časopisu Computer
  • Testy nejnovějších produktů na českém trhu.
  • Informace ze světa internetu i bezpečnosti.
  • Plné verze programů zdarma pro všechny čtenáře.
Archiv Předplatné
Elektronické předplatné Tištěné předplatné



Cookies nám pomáhají
k vaší spokojenosti
Soubory cookies nám pomáhají řídit obsah stránky a reklamy tak, aby vyhovovaly vašim představám.
Nastavení můžete změnit v zápatí v odkazu cookies.
Rozumím Zobrazit další informace