a_shen (a_shen) wrote,
a_shen
a_shen

Categories:

о статистике по голосованиям

мне казалось, что тут уже всё обсуждено, опубликовано и особых вопросов ни у кого нет, но выяснилось, что в связи с недавними "выборами Путина" граждане взволновались и, как я понял, полезно кратко объяснить ситуацию и дать ссылки

обзор ситуации на 2011-2012 год https://arxiv.org/pdf/1204.0307.pdf и ссылки там (боюсь, что многие протухли)

более поздние публикации - см. в

разная (в целом несостоятельная) критика - ссылки в http://www.mat.univie.ac.at/~neretin/pseudoscience.html

Кобак и др. про целые проценты
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00936.x
про корреляции https://arxiv.org/abs/1205.0741 (см. также https://scholar.google.is/citations?user=BUQbD5kAAAAJ&hl=en ссылки на журнальные варианты)

коротко про последнее "голосование" и "подсчёт"

1) статистически заметные фальсификации видны на множестве картинок, вот две совсем наглядные:
https://kobak.livejournal.com/111535.html
https://kireev.livejournal.com/1456665.html
(на всякий случай, кто не знает - при подсчётах и вводе данных в ГАС ни в какой момент проценты не вычисляются, всё идёт - естественно - в целых числах)

2) Оценки количества фиктивных "голосов" - дело существенно более сложное, тут возможны только приблизительные оценки, можно смотреть (как предлагал Шпилькин) по нарушению пропорциональности, см. картинки для областей и всей России в https://www.facebook.com/sergey.shpilkin/media_set?set=a.1654877677934195.1073741835.100002359376948&type=3&pnref=story, можно на тех же картинках смотреть по главному кластеру, можно оценивать по недействительным и т.п. - обсуждение разных методов и результатов см. у Шпилькина, Кобака, Пшеничникова, Овчинникова, Мятлева и других, но это сырое обсуждение и надо читать внимательно и что предлагается, и критику других. Много карт и данных у Киреева (в фейсбуке и ЖЖ, ссылки найти несложно, если надо, напишите, что конкретно интересует, я посмотрю). Сырые данные тоже доступны (и на сайте ЦИКа, и скачанные оттуда). Тут все оценки приблизительные (если кто-то говорит, что может оценить "фактическую явку" или "фактический результат" с точностью до процента, то это недоразумение (просто потому, что часть данных явно цельно-рисованные), но выделить регионы с наибольшими фальсификациями, а также понять, что это в целом скорее 10%, чем 1% или 40%, можно достаточно надёжно, разные методы сравнивались и проверялись на многих выборах, и ошибки на порядок тут очень маловероятны. Самая грубая оценка "на глаз главному кластеру" на приведённой картине показывает, что явка скорее всего чуть больше 60%, а результат чуть больше 70%

Если после изучения всего это что-то непонятно, то спрашивайте (уверен, что все перечисленные охотно ответят на технические грамотные вопросы или дадут имеющиеся файлы с данными, чтобы не скачивать заново и т.п.)

Disclaimer: вопрос о том, зачем "это" надо ("выборы" в целом или фальсификации в частности) и как так получается, выходит за рамки статистического анализа и должен обсуждать отдельно, здесь про это ничего не говорилось и не подразумевалось.

Source: https://a-shen.dreamwidth.org/112496.html,.
Comments: comment count unavailable
Subscribe
  • Post a new comment

    Error

    default userpic
    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 7 comments