Home
entries friends calendar user info Previous Previous Next Next
Homme de nombres - Выборы в МГД - подробные данные 2

Advertisement

podmoskovnik
[info]podmoskovnik
Add to Memories
Tell a Friend
Выборы в МГД - подробные данные 2
Вместо того чтобы проводить через точки приведенного в предыдущем посте графика регрессионные прямые (что ИМХО не есть правильно), дальнейший анализ подробных данных проведем так, как и раньше: просуммируем голоса избирателей по 1%-ным интервелам явки и посмотрим на результирующие графики. Подробно этот подход излагался в http://podmoskovnik.livejournal.com/5717.html



Итак, распределения голосов в зависимости от явки:



Как и в предыдущих анализах, видно, что голоса за все партии распределены по явкам очень похоже (ЛДПР, СпРос и Яблоко - вообще близнецы-братья, за исключением мелких деталей), и только голоса одной Партии (и вы ее знаете) ведут себя по-другому. Чтобы понять, как "по-другому", попытаемся снова выделить из голосов ЕдРа "нормальную" и "аномальную" части: нормальной будем считать компоненту, пропорциональную суммарному распределению голосов за "остальные" партии, а аномальной - то, что останется. Коэффициент пропорциональности подбираем так, чтобы аномальная часть была неотрицательна. Получается следующее:



Синяя линия - распределение голосов за "остальные" партии, зеленая - собственно "нормальная" часть голосов за ЕдРо (синее распределение*подгоночный коэффициент 0.85), лиловая линия - аномальная часть голосов.
В согласии со сказанным ранее при малых явках аномальная часть отсутствует и появляется в районе явки 20%.

Для контроля попробуем проделать ту же процедуру с голосами за КПРФ, разделив их на нормальную и аномальную части. Получается вот что:



При таком значении подгоночного коэффициента предполагаемая аномальная часть равна 0 в широком диапазоне явок, и лишь при относительно высоких явках немного проваливается в минус.
Практически аномальной части нет, что и оправдывает в некоторой степени наш подход.

Если теперь предположить, что аномальная часть голосов ЕдРа - это то, что накидали в ящики, и вычесть ее, получим следующие результаты голосования:

Явка: 22.02%

Распределение голосов:
ЛДПР: 9.82%
ПатРос: 2.90%
ЕдРос: 45.95%
КПРФ: 21.29%
СпРос: 8.54%
Яблоко: 7.54%
Недействительные бюллетени: 3.97%

Конкретные числа зависят от выбора подгоночного коэффициента при нормальной части, но в пределах разумных отклонений ситуация принципиально не меняется: в думу проходят пять партий из шести, а не две, и совсем с другим распределением мест.
  UPD Умные люди нашли ошибку в моем расчете: откорректированная явка не 19.49%, а 22.02%. Исправил. На другие результаты не влияет.

Tags: ,

Comments
barmaroz From: [info]barmaroz Date: October 13th, 2009 01:09 pm (UTC) (Link)
Спасибо.
Восстановленные результаты интересны, это второй важнейший результат (первый был уже на вчерашнем графике).
Третий результат - правдоподобность того, что был именно вброс, а не просто нарисованные цифры. Во всяком случае на этих выборах.
podmoskovnik From: [info]podmoskovnik Date: October 13th, 2009 01:13 pm (UTC) (Link)
Собственно, если говорить о восстановлении результата - все это наукообразие не очень нужно. Достаточно иметь цифру реальной явки (около 20%), которую уже оценили из вчерашнего графика, и просто вычесть лишние голоса ЕдРа.
barmaroz From: [info]barmaroz Date: October 13th, 2009 05:31 pm (UTC) (Link)
Верно. Более того, я ещё не забыл, чему меня учили на матмехе, а числа доступны.
Однако не будь этих постов ничего бы не произошло; поэтому я благодарен за труд, включающий и решение, и осуществление.
reineke From: [info]reineke Date: October 13th, 2009 05:11 pm (UTC) (Link)
второй график просто прекрасен! но подозрителен третий: получается, что результаты КПРФ, в первую очередь, Вы брали за образец нормальности-аномальности, поэтому такое совпадение. И это говорит о том, что, возможно, этот образец не очень хорош. Может быть, стоит подсчитать критерии нормальности-аномальности в зависимости от набранных голосов по каждой партии отдельно, а потом усреднять. Простите за сумбур.
podmoskovnik From: [info]podmoskovnik Date: October 13th, 2009 06:08 pm (UTC) (Link)
КПРФ - потому что по ней максимальная из всех партий статистика и соответственно наименьшие флуктуации. Можно построить и по другим.
podmoskovnik From: [info]podmoskovnik Date: October 13th, 2009 06:15 pm (UTC) (Link)
И да, то, что КПРФ составляет 40% "эталона", с которым проводится сравнение, естественно, завышает точность совпадения - примерно раза в полтора. Ну хорошо, даже если полученную для КПРФ "аномальную" часть увеличить в полтора раза - она несравнима с аномалией для ЕдРа.
alexey_rom From: [info]alexey_rom Date: October 13th, 2009 06:52 pm (UTC) (Link)
Для ЕР аномальная часть должна быть неотрицательной; почему этого не требуется для КПРФ? Конечно, изменение будет небольшим.
podmoskovnik From: [info]podmoskovnik Date: October 13th, 2009 07:26 pm (UTC) (Link)
Я не претендую на теоретическую точность, а исхожу из прошлого опыта и пытаюсь поймать реальное явление. Опыт анализа прошлых выборов показывает, что начальные участки распределений голосов по явке для кандидата власти и остальных пропорциональны с высокой точностью. Интуиция подсказывает, и опыт вроде подтверждает, что голоса за кандидатуру власти добрасываются, а не вычитаются. Далее, для КПРФ я скорее готов увидеть небольшую отрицательную аномалию, локализованную на высоких явках (отобранные голоса), чем положительную на низких.
Наверное, году в 2003-м и раньше части регионов могли быть проявления административного ресурса за КПРФ, но сейчас система значительно упростилась.

Хотелось бы, конечно, иметь формализованную процедуру, но пока не соображу как.
barmaroz From: [info]barmaroz Date: October 14th, 2009 06:56 am (UTC) (Link)
Задам ещё раз вопрос.
Кривые для остальных партий правдоподобны? Для всех?
Можно ли считать, что их цифры взяты из подсчёта, или же все числа удивительны?
podmoskovnik From: [info]podmoskovnik Date: October 14th, 2009 07:13 am (UTC) (Link)
Я уже где-то говорил, что приведенная методика распознает далеко не всякие искажения подсчета. Например, если все избирательные комиссии будут уменьшать на 30% результаты партии A и отдавать эти голоса партии B, увидеть это будет невозможно. Или если просто результаты будут рисовать руками. Остается надежда на то, что пока подтасовки делаются проще и грубее, поэтому что-то мы видим.
Похоже, что до явок где-то в 50% результаты остальных партий действительно реальные. При более высоких явках (а это, видимо, самые отмороженные/задавленные комиссии) заметен существенный провал в результатах Яблока и небольшой у КПРФ. Что это - результат ручного отъема голосов или социологический эффект (например, эти отмороженные комиссии расположены в районах, где за Яблоко в принципе не голосуют; имхо - маловероятно) - требует более тонкого анализа.
По ВЦИОМовскому экзит-поллу (из статьи Орешкина и Козлова в сегодняшней Новой Газете) у ЕР 45%, КПРФ 18%, Яблока 14%, СпРос 11%, ЛДПР 8%.
barmaroz From: [info]barmaroz Date: October 14th, 2009 07:42 am (UTC) (Link)
Спасибо. Именно о том и спрашивал.
В принципе, уже студент, владеющий основами статистики, может раскидать числа так, что распознать их произвольность будет практически невозможно. То, что это не происходит, характеристика времени и процесса, и именно это меня интересует.
Блистательная победа была очевидна задолго до, а вот метод - это важно. Надеюсь.
yurayu From: [info]yurayu Date: October 14th, 2009 08:02 am (UTC) (Link)

Первый же напрашивающийся вопрос

а почему распределения не гауссовы?
podmoskovnik From: [info]podmoskovnik Date: October 14th, 2009 08:14 am (UTC) (Link)

Первый же напрашивающийся ответ

А Гаусс тихо курит бамбук в сторонке. См. новый пост
maksagor From: [info]maksagor Date: October 15th, 2009 10:28 pm (UTC) (Link)
Я правильно понимаю, что данный анализ учитывает только вбросы, а например, "карусели" - т.е. многократное голосование на разных участках "летучими группами поддержки" в данной статистике не учитываются?
podmoskovnik From: [info]podmoskovnik Date: October 16th, 2009 06:24 am (UTC) (Link)
Если карусель тотальная - т.е. распространена равномерно по всем участкам (или, что то же самое, какой-либо партии просто везде завышают/занижают голоса, скажем, в полтора раза или вдвое) - с точки зрения такой статистики это невозможно отличить от честного подсчета. Пока же карусели относительно локализованные и остаются участки с честным подсчетом голосов - они по сути эквивалентны вбросам и распознаются. На самом деле выборы дают очень объемную и многогранную статистику, и подогнать их так, чтобы ничего не торчало, сложно, особенно учитывая интеллектуальный уровень наших избиркомов. Если, конечно, не использовать просто генератор случайных чисел.
xp_cmdshell From: [info]xp_cmdshell Date: October 16th, 2009 02:46 pm (UTC) (Link)
а почему вы группируете по 1% интервалу?
podmoskovnik From: [info]podmoskovnik Date: October 16th, 2009 07:16 pm (UTC) (Link)
Ну по чему-то же надо суммировать. Меньше - статистики не наберется, больше - пропадут некоторые пикантные подробности типа пиков на красивых числах.
xp_cmdshell From: [info]xp_cmdshell Date: October 17th, 2009 11:49 am (UTC) (Link)
то есть вы подгоняете результаты под заранее известный ответ? Спасибо. Больше вопросов не имею.
podmoskovnik From: [info]podmoskovnik Date: October 17th, 2009 01:28 pm (UTC) (Link)
Bye.
xeus_top_98 From: [info]xeus_top_98 Date: October 16th, 2009 03:29 pm (UTC) (Link)

Вы попали в Топ-30 Зиуса!

Ваш пост написан настолько интересно, что вы попали в Топ-30 Зиуса самых обсуждаемых тем в Живом Журнале.
Это очень положительное явление. Пожалуйста, продолжайте в том же духе. © Зиус
Пройди тест и узнай, сколько общих френдофф у вас с [info]Тёмой!
From: [info]yu_tarasievich Date: October 19th, 2009 06:42 pm (UTC) (Link)
Любопытно!

А насколько корректно "цифирки" (точнее, цифры единиц процентных долей) характеризуют такие процессы? Вы проверяли свою методику шире?

Или вот если допустить, что один из параметров (голоса за ЕР) действительно в разы различается с прочими (голоса за др.партии), то корректно ли рассматривать их наравне? Ведь в малом диапазоне значений происходит "компрессия" соотношений, и, значит, аномальные и нормальные части у маргинальных параметров будут более подобны?

Пардон, если уже было, как-то так подумалось.
podmoskovnik From: [info]podmoskovnik Date: October 19th, 2009 07:02 pm (UTC) (Link)
Не очень понял мысль. Если речь о том, что при меньшем количестве голосов за партию будет меньше и "аномальная часть" - так и графики рисуются в соответственно меньшем масштабе и все равно показывают относительное соотношение "нормальных" и "аномальных" голосов.
From: [info]yu_tarasievich Date: October 19th, 2009 08:11 pm (UTC) (Link)
Вы знаете, я в статистике только на уровне давно забытого вузовского курса по теории вер-тей, поэтому и выражаюсь туманно. Но как-то *кажется* (возможно, лишь кажется), что есть в вашей методе проблема: корректно ли сравнивать формы распределений, как вы делаете, допуская, что у одних параметр, условно говоря, "действительно от 0 до 80", а у других "действительно от 0 до 20"? Ведь на графике доля от общего числа. И уж не помню, справедливо ли ожидать нормальное распределение от дискретного параметра? Ведь вы не распределение по росту сравниваете в био.популяции, а выбор из нескольких вариантов?..
podmoskovnik From: [info]podmoskovnik Date: October 19th, 2009 08:27 pm (UTC) (Link)
Ошибки дискретизации здесь, наверное, есть, но вряд ли они здесь настолько важны и превышают, например, статистические флуктуации. Меня значительно больше смущает "ручной" характер процедуры определения аномальной части.
From: [info]yu_tarasievich Date: October 19th, 2009 08:36 pm (UTC) (Link)
> Меня значительно больше смущает "ручной" характер процедуры определения аномальной части.

Точнее, произвольность этой процедуры, да.
25 comments or Leave a comment
profile
podmoskovnik
Name: podmoskovnik
calendar
Back December 2009
12345
6789101112
13141516171819
20212223242526
2728293031
page summary
tags

Advertisement

Customize