Що таке “нормальне” з точки зору математиків: екскурс від шахт до виборів

25 Грудня 2011 | Stochastician

Категорія: Математика

Теги: , ,


В нашому житті ми постійно стикаємося з множинними об’єктами та подіями, які є наслідком одних і тих самих випадкових явищ. Це і наукові спостереження, і медичні дослідження, і розміри тварин та рослин одного виду, і ціни на акції, і багато іншого. Такі вибірки (набори даних) вивчає математична статистика. Чи впливають математичні інструменти на повсякденне життя людини, чи це все лише спеціалізовані знаряддя для теоретичних наукових розробок? А може правий Марк Твен зі своїм жартівливим афоризмом про брехню та статистику? Спробуємо розібратись.

Є багато методів, що дозволяють проводити аналіз вибірки (відшукання середнього значення вибірки, середнього квадратичного відхилення, моди, медіани, асиметрії, ексцесу) та дають змогу отримати найбільш загальні відомості про розподіл, якому належить вибірка.

Разом з тим, у математичній статистиці є також методи, що дають змогу оцінювати, наскільки вибірка підпадає під деякий «шаблон». Мова тут іде про метод перевірки гіпотез. Він полягає у тому, що потрібно спростувати «нульову гіпотезу» (більш просту і тривіальну): вона відповідає деяким «нецікавим» властивостям вибірки. Альтернативна гіпотеза, з іншого боку, часто несе в собі нову важливу інформацію.

Наскільки ці теоретичні математичні викладки допомагають нам у житті? Наприклад, нас цікавить вміст залізної руди в двох кар’єрах десь на Дніпропетровщині. Ми знаємо з геології, що її кількість у породах залежить не лише від конкретного місця видобування, але й може варіювати в межах одного родовища. Тому для вияснення реальних відмінностей між родовищами нульовою гіпотезою буде рівність вмісту руди у двох місцях видобування, тоді як альтернативою – різна кількість.

Карл Фридріх Гаус та математичний розподіл його імені на банкноті 10 марок ФРН

При аналізі вибірок статистики використовують поняття нормального (гаусівського, на честь видатного німецького математика Карла Гауса) розподілу – коли на всі елементи вибірки впливає велика кількість різних факторів, але вплив жодного з них не є вирішальним. Такий характер розподілу є наслідком «центральної граничної теореми».  Коли порівнюють дві вибірки, то є ймовірність (її позначають через р), що обидві вони взяті з одного розподілу, а відмінності між ними відсутні. Така «нецікава» ідея береться за нульову гіпотезу. Якщо ж ця ймовірність p дуже мала – наприклад, менше за 5% або 1%,- то нульову гіпотезу відхиляють і вважають, що ці вибірки, швидше за все, різні, і відмінності між групами спостережень викликані реальною різницею, в нашому випадку – різною кількістю руди.

Рівень, яким визначається поняття «маленька ймовірність», не завжди задається одним і тим самим. Справа у тому, що в залежності від галузі застосування «ціна помилки» може бути різною. Якщо помилка при прийнятті альтернативи, яка насправді є хибною, дуже дорого коштуватиме, то ймовірність p* беруть маленькою: наприклад, 2%, 1% чи, навіть, 0,5%. Такі величини беруть при дослідженнях впливу медичних препаратів на організм людини: тут беруть маленьким параметр p* (1% або 0,5%), що визначає межу між значущістю та незначущістю результатів, оскільки ціна помилки – життя людини.

Широко поширеним є застосування математичної статистики у задачах соціології. Всіх дуже цікавлять політичні вподобання населення і їх зміни в часі, а для цього проводяться соціологічні опитування. Як правило, оприлюднюючи результати своїх досліджень, організації, що їх проводили, не забувають при цьому додати фразу на зразок такої: «статистична похибка отриманих результатів не перевищує 2%». Що ж вона означає? Справа в тому, що голоси за політичні сили, що фігурували в опитуванні, також розподілені нормально. І тоді, задавшись деяким рівнем значущості p*, можна говорити про максимальне відхилення отриманого результату за деяку політичну силу від її істинного рейтингу, якому відповідає ймовірність, не менше ніж p*. Тобто соціологи вважають, що вірною є нульова гіпотеза про те, що виміряний відсоток голосів не відрізняється від істинного рейтингу. Вірність такої гіпотези і означає, що істинний рейтинг належить певному інтервалу із серединою у знайденому в опитуванні середньому значенні.

Математична статистика та нормальний розподіл дозволяють нам в житті не тільки перевіряти величини ймовірностей розподілу окремих даних, але й виявляти наявність сторонніх факторів (але не їх характер), що впливають на розподіл випадкових величин. Проілюструємо це на прикладі зовсім нещодавніх подій під час виборів до Державної Думи у Російській Федерації, на результати яких вказав фізик Сергій Шпількін та деякі інші математики та фізики.

На діаграмі зображено залежність між рейтингом партій та кількістю виборчих дільниць, у яких даний відсоток спостерігався (результати попередні), по усіх суб’єктах РФ.

Центральна гранична теорема говорить, що за великої кількості розглянутих дільниць випадковий параметр щільності цих дільниць в залежності від відсотку відданих голосів за партію повинен мати нормальний розподіл. Але на графіку чітко видно 2 моменти: наявність важкого хвоста справа від пікового значення («моди») у партії «Єдина Росія» (як наслідок можна також відмітити наявність важких хвостів зліва у всіх інших партій); наявність піків, кратних 5%, що у найбільш явній формі починаються після значення 65% у тієї ж самої партії. Перше і, особливо, друге, очевидно, несумісне із нормальним розподілом.

Дійсно, сформулюємо нульову гіпотезу про те, що розподіл нормальний, і альтернативну – розподіл відрізняється від нормального. При цьому буде використовуватись так званий критерій Пірсона. Основна ідея цього методу полягає у тому, що досліджуваний розподіл розбивають на інтервали і порівнюють площі фігур, що знаходяться під графіком розподілу, із відповідними площами нормального розподілу. Ймовірність того, що розподіл є нормальним, очевидно, зростає, якщо відмінність у площах менша. І навпаки. Важкий хвіст, що спостерігається у партії «Єдина Росія», очевидно, дасть дуже великі значення у відхиленні площ, спрямувавши ймовірність нульової гіпотези дуже близько до нуля (порядки «малості», про які тут іде мова, становлять порядку десяти нулів після коми, що означає безперечну значущість альтернативи). Свій внесок у ці відхилення внесуть також і піки в районі результатів, кратних 5%.

Які практичні висновки можна зробити з отриманих результатів? Математична статистика не вирішує питання про причини відхилення від нормального розподілу.  Із цієї та інших  діаграм явно випливає, що велику кількість голосів за «Єдину Росію» було віддано на виборчих дільницях із високою явкою. Ця ознака вирізняє дану партію серед її конкурентів та серед подібних діаграм для виборів в інших державах, у тому числі й в Україні. Відповідь на це запитання лежить в площині соціології та політології (а може й у компетенції кримінальної юриспруденції). Але математична статистика демонструє нам, що фактор, який призвів до таких наслідків, був вкрай потужним і спрямованим лише на одну партію, і він не може бути поясненим «природною» неоднорідністю активності населення в залежності від політичних вподобань, оскільки у цьому випадку також спостерігався б розподіл голосів по дільницях, що має одну виражену вершину та легкі хвости. Крім того, були отримані надзвичайно малоймовірні та неприродні результати кількості дільниць, рейтинг в яких у «Єдиної Росії» кратний 5%.

Ми бачимо, що задачі математичної статистики виникають у багатьох галузях людської діяльності. Вона вирішує ці задачі як у фундаментальних дослідженнях, так і при вирішенні прикладних проблем, пов’язаних у тому числі із виробництвом, фінансовими розрахунками, медициною, соціологією. Можна лише вітати якнайширше використання статистичних методів у оцінці людської діяльності: вони дозволяють не тільки вивчити істинний стан речей, але й вивести на чисту воду творців брехні та підтасовок.

Література

  1. Боровков, А. А. Математическая статистика, М.: Наука, 1984.
  2. Шпилькин С. Статистический анализ выборов в Госдуму 2011 года показывает возможные фальсификации – Газета.Ru. – 10 декабря 2011 г. 
  3. kobak.livejournal.com/101512.html 

Обговорення

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *