podmoskovnik (podmoskovnik) wrote,
podmoskovnik
podmoskovnik

Доказательство номер 5

Это мои две копейки в дискуссию о результатах выборов мэра Москвы, начавшуюся с этого поста oude_rus и продолженную romanik'ом здесь и здесь. Название поста преследует исключительно художественные цели.

Дисклеймер: все дальнейшее изложение касается только локального влияния наблюдателей и никак не затрагивает значительно больший "эффект среднего поля" - то, что массовое наблюдение само по себе связывает руки фальсификаторам и не дает повторить истории выборов 2008 - 2011 годов, когда объемы фальсификации голосования в Москве достигали миллиона голосов. Именно наблюдателям мы обязаны тем, что сейчас речь идет о числах на два порядка меньше.

Краткое изложение предыдущих серий. Параллельно с официальным подсчетом голосов действовал ресурс http://sms-cik.org/, на который поступали по SMS данные протоколов избирательных участков от наблюдателей. Уже в ночь голосования выяснилось, что средние результаты кандидатов по данным МГИК и по данным СМС-ЦИК расходятся; по данным СМС-ЦИК получалось, что Собянин не дотягивает до 50%. Однако форма самих гистограмм не давала оснований подозревать грубые фальсификации - просто данные Мосгоризбиркома выглядели сдвинутыми на 3% в пользу Собянина.
При этом надо учитывать, что SMS-ЦИК располагает данными не со всех избирательных участков Москвы - в настоящее время база проекта охватывает примерно 60% участков с номерами до 3411 включительно (участки по месту постоянного пребывания избирателей, в основном жилые дома) и около 20% участков с номерами >3600 (участки по месту временного пребывания избирателей - больницы, военные части, СИЗО и т.д).
Второе важное обстоятельство состоит в том, что по тем участкам, где у SMS-ЦИК есть данные, эти данные не расходятся с официальными, за исключением полутора десятков случаев, из которых половина - мелкие технические ошибки в единицы голосов.
Вроде бы напрашивается гипотеза, что на участках, где наблюдателей не было (и соответственно по которым у SMS-ЦИК нет данных), голоса за Собянина искусственно завышали, что и породило расхождение. Однако oude_rus предложил более простое объяснение: выборка SMS-ЦИК смещенная, т.е. нерепрезентативная. А именно, сеть наблюдателей более плотно покрывает районы, где больше активных сторонников Навального и меньше сторонников Собянина, и менее плотно - где больше сторонников Собянина и меньше - Навального. В итоге простое суммирование данных наблюдателей приводит к относительному переучету голосов в районах, голосующих за Навального, и недоучету голосов в районах, голосующих за Собянина, и тем самым занижает результат Собянина. Для исправления ситуации oude_rus выполнил пересчет данных SMS-ЦИК с учетом коэффициента покрытия районов избирателями и получил более близкий к официальному результат Собянина (по последнему набору данных - 50.9% при официальных 51.37%).
В свою очередь, romanik утверждает, что репрезентативность выборки к делу отношения не имеет и причина расхождения состоит во влиянии наблюдателей на результаты подсчета голосов комиссией (наблюдатели предотвращают завышение голосов за Собянина).

Таким образом, имеются две гипотезы:
1. "Географическая": расхождение результатов SMS-ЦИК с официальными обусловлено особенностями распределения наблюдателей по участкам на территории Москвы.
2. "Наблюдательская": расхождение результатов обусловлено тем, что наблюдатели предотвращают нарушения и тем самым препятствуют завышению голосов за Собянина.

Цель этого текста - попытаться установить, в какой мере справедлива каждая из этих гипотез. Чтобы разделить влияние географического и наблюдательского факторов, рассматриваются различия результатов голосования на участках, расположенных по одному адресу (как правило, в одной школе), в зависимости от наличия или отсутствия наблюдателей.
В качестве исходных данных использовались:
- таблицы результатов голосования, скачанные shipilev: http://shipilev.net/pub/articles/elections2013/cikrf-1/moscow/csv/
- данные SMS-ЦИК, полученные с http://sms-cik.org/elections/151 в виде csv-файла 13 сентября. Из списка были исключены записи неаккредитованных наблюдателей и записи с нарушенными контрольными соотношениями. Общее количество участков, закрытых наблюдателями, по этим данным составило 2068.
- данные об адресах мест голосования, скачанные с http://mosgorizbirkom.ru/web/guest/searchuik

В результате сведения данных были выделены все адреса голосования, по которым одновременно имеются участки как с наблюдателями, так и без. Количество таких адресов составляет 451. По этим адресам расположено 548 участков с наблюдателями и 568 участков без наблюдателей, всего 1116 участков. Суммарное количество зарегистрированных избирателей для этих адресов составляет 2,4 млн (примерно 1/3 всех избирателей Москвы). Средняя явка для этих адресов составляет 31.08%, средний результат Собянина 52.71%, средний результат Навального 26.04%.
Участки, места голосования которых расположены по одному адресу, будут далее называться "соседними".

Для каждого адреса голосования вычислялись следующие параметры:
- суммарная явка и результаты Собянина и Навального на всех участках по данному адресу
- явка и результаты Собянина и Навального на участках, где по данным SMS-ЦИК присутствовали наблюдатели
- явка и результаты Собянина и Навального на участках, где по данным SMS-ЦИК наблюдателей не было
- отклонения явки и результатов Собянина и Навального на участках, где не было наблюдателей, от явки результатов по участкам, где они были.

1. Результат Собянина на участках без наблюдения в зависимости от результата на участках с наблюдением:
sob_sob_scatter
То же для Навального:
nav_nav_scatter
Видно, что результаты голосования на соседних участках с наблюдением и без за каждого из кандидатов могут  заметно различаться в любую сторону, а систематические отклонения в какую-то одну сторону если и есть, то очень небольшие, значительно меньше, чем типичный разброс между соседними участками с наблюдением и без.
Средний уровень голосования за Собянина в данном месте голосования можно использовать в качестве переменной, представляющей географический фактор (как индикатор "провластности" локального населения); тогда систематическое превышение результатов Собянина (снижение результатов Навального) на участках без наблюдения относительно участков с наблюдением является мерой "наблюдательского" фактора.
sob_trends_scatter
На этом графике "географическому" фактору соответствует общий наклон облаков точек, а "наблюдательскому" - разница в наклонах линий трендов для участков с наблюдателями и без (цвета линий соответствуют цветам точек). Видно, что отсутствие наблюдателей на участке действительно систематически увеличивает результат Собянина и уменьшает результат Навального по сравнению с соседними участками без наблюдения, однако это систематическое увеличение значительно меньше вклада географического фактора и меньше среднестатистического разброса результатов на участках с наблюдением и без.

Гистограммы отклонения результатов на участках без наблюдения от результатов на соседних участках с наблюдением:
hist_diff_unweighted
Гистограмма Собянина немного смещена в сторону положительных разностей, Навального - в сторону отрицательных. Средний прирост результата Собянина на участках без наблюдения составляет 0.33% при стандартном отклонении среднего 0.20%; среднее снижение результата Навального -0.27% при стандартном отклонении среднего 0.18%. Если принять за нулевые гипотезы утверждения, что наличие наблюдателей не понижает результат Собянина / не повышает результат Навального, то по одностороннему t-тесту эти гипотезу можно отвергнуть с достоверностью 94,5% для Собянина / 93% для Навального. Для явки наблюдательский эффект отсутствует (достоверность отклонения нулевой гипотезы 67%).

Оценим теперь количественный вклад наблюдательского эффекта в результаты выборов на рассматриваемой совокупности участков.
Сводка результатов выборов по этим участкам выглядит так:
table

Отклонение в 0.6% в результате Собянина и -0.6% в результате Навального на участках без наблюдения соответствует примерно -2300 голосам за Навального и +2300 голосам за Собянина, т.е. -4 голосам за Навального и +4 голосам за Собянина в расчете на один участок. Это дает количественную оценку "наблюдательского эффекта" на участках без наблюдения в рассматриваемой выборке. Поскольку типичный размер фальсификации там, где они были, вероятно, существенно больше, можно полагать, что скорее всего нарушения, ведущие к завышению голосов за Собянина, были далеко не на всех участках без наблюдателей.

Всего, по данным SMS-ЦИК, в Москве было не закрыто наблюдателями около 1300 участков по месту жительства избирателей. Если распространить полученную оценку наблюдательского эффекта на все такие участки, получится, что при сплошном наблюдении можно было бы ожидать уменьшения суммарного количества голосов за Собянина примерно на 5000 голосов. Это соответствовало бы снижению результата Собянина по городу в целом примерно на 0.21%. Приведенная оценка не учитывает эффекты от потенциального наблюдения на участках по месту временного пребывания избирателей, а также на особых типах участков по месту постоянного пребывания, которые не были представлены в рассмотренной выборке (деревни, дома престарелых).

Выводы. По выборке участков, расположенных по одному адресу голосования, было количественно определено влияние наличия наблюдателей на участке на результаты голосования за Собянина и Навального. Размер выявленного эффекта не позволяет утверждать, что участки без наблюдателей могли сыграть роль в победе Собянина в первом туре.

UPD: данные участков, по которым выполнялся расчет, выложены здесь.

UPD1: по предложению romanik пересчитал с полным набором записей SMS-ЦИК, включая неаккредитованных наблюдателей и записи с нарушенными контрольными соотношениями и исключив только две записи с признаками вандализма. 83 адреса ушли (оказались накрыты наблюдателями полностью), 38 добавилось. Участков с наблюдением 512, без наблюдения 493. Картинки не перерисовывал, там мало что изменилось. Наблюдательский эффект тоже изменился не сильно: 3,8 голоса на участок.
Достоверность отклонения нулевой гипотезы (что наблюдательского эффекта нет) снизилась до ~80%.
table
Tags: выборы, данные, статистика
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 94 comments