Є нахабна брехня, а є справжня статистика


Наукові теорії бувають різні. Є такі, де стверджується, що знання про теперішній стан системи достатньо, щоб спрогнозувати її поведінку в майбутньому (принаймні найближчому). Такі теорії називають детерміністи́чними. Як правило, мовою математики їх формулюють за допомогою рівнянь, що пов’язують відомі величини та прогнозовані. 

Але не всі наукові закони є такими. Буває так, що поведінку одного конкретного об’єкта передбачити не можна в принципі, однак якщо їх буде багато, і всі в однакових умовах, то можна сказати, на яку частку з них яка доля чекатиме. Що більша буде кількість, то точнішим буде прогноз. Такі теорії називають стохасти́чними. У фізиці яскравим прикладом є квантова механіка. Таким же чином описують виникнення хвороб під дією чинників слабших, ніж гільйотина, але таких, що з часом все ж завдають відчутної шкоди тілу. Коли ви чуєте, що куріння чи нездорове харчування збільшують ризик якихось захворювань на певний відсоток, то вас знайомлять з моделлю саме такого роду. Також математичні моделі випадкових процесів дали інженерам інструмент для визначення похибок, а управлінцям – для оцінки ризиків від можливих аварій чи несправджених прогнозів.

Ці моделі є дещо складнішими за шкільну математику, тому часто брехня мімікрує саме під них. Розрахунок – на людську необізнаність. Щоб знезброїти маніпуляторів вашою думкою, варто ознайомитися з засадами статистики. Тоді і виробникам чергового анахерону, який лікує пацієнтів від зайвого багатства, і недоброчесним політикам, охочим до суспільної підтримки шкідливих рішень, годі буде ввести вас в оману. Насправді, не настільки статистика страшна й таємнича, щоб бути непізнаваною.

Імовірність

Поняття ймові́рності є основним в математичних моделях, що описують випадкові процеси. Воно є настільки ж абстрактним та універсальним, як поняття кількості чи розташування у просторі. На прикладі кидання гральної кості перерахуємо припущення, які ми неявно робимо, вживаючи це слово.

  • Коли ми кидаємо кубик, засадничо не існує можливості передбачити, що випаде.
  • Ми можемо (принаймні у власній уяві) повторити як завгодно багато повторних кидань. І кожного разу перше твердження виконується.
  • Всі кидки́ кості є незалежними один від одного – без жодних закономірностей.

Розглянемо відношення кількості разів, коли випадає певне число, до загальної кількості кидань1. Воно має випадкове значення. Однак чим більша буде кількість кидань, тим ближче буде це відношення до значення, яке називається ймовірністю і є визначеним (не випадковим) для конкретних умов (гральної кості, стола, особи, що кидає тощо).

В математиці є поняття грани́ці, за допомогою якого описують такого роду “прямування” величини при зростанні аргумента до нескінченності. Грани́чний перехі́д є дуже плідним методом. Він є основою не тільки тео́рії ймові́рностей, а ще математи́чного ана́лізу, вищої математики, варіаці́йного чи́слення та багатьох інших цікавих розділів математики. Скориставшись поняттям границі, ми можемо сказати, що коли кількість кидань кості прямує до нескінченності, то частка випадінь певного числа прямує2 до ймовірності його випадіння.

Імовірність – це дійсне число між нулем та одиницею. Якщо дві події є незалежними (кидаємо дві кості, і на обох випадає якесь число), тоді ймовірність того, що стануться обидві, це добуток їхніх імовірностей. Тобто це число менше, ніж імовірності кожної окремої події (множимо числа менші за одиницю). Саме тому, наприклад, зберігання резервної копії ваших даних суттєво зменшує ризик їх втрати. Нехай імовірність збою у вашому комп’ютері протягом місяця буде 1% (хоча, це дуже погана якість), і для копії – так само. Тоді ймовірність, що зіпсуються обидва носії буде 0.01*0.01=0.0001 – у сто разів менша. Якщо взяти більш реалістичну оцінку ймовірності псування якісної електроніки, то одна додаткова копія зменшує ризик втрати у мільйони разів!

Коли маємо події, що не можуть статися одночасно (на приклад не може випасти одночасно два числа на гральній кості), тоді ймовірність, що станеться якась одна з них (байдуже, яка) – це сума ймовірностей окремих подій. На приклад, імовірність, що випаде парне число – це сума ймовірностей випадіння двійки, четвірки та шістки.

Якщо наш гральний кубик ідеально симетричний, а кидати його ми будемо ідеально (що б це не значило), то ймовірність випадіння кожного з шести чисел буде однаковою. Випасти кожного разу може тільки одне з них. Варіанти падіння на ребро, чи втрати кубика ми не розглядаємо. Тому можна визначити, що ймовірність випасти для одиниці, чи двійки, …, чи шістки дорівнює одній шостій, а в сумі вони (ймовірності) дають одиницю. Останнє твердження виконується саме через те, що інші можливості, крім випадіння якогось числа, наша модель виключає. Якщо ми говоримо, що ймовірність якоїсь події дорівнює одиниці, то це значить, що вона обов’язково відбудеться. Напевно. Відповідно, коли ймовірність чогось дорівнює нулю, то це значить, що подія є неможливою.

Потрібні для впровадження ймовірності припущення досить сильні. Але ці моделі описують багато явищ із вражаюче доброю точністю. Взагалі, всі математичні поняття є ідеалістичними. Використання чисел передбачає однаковість об’єктів, які ми рахуємо (що не завжди правда). Використання понять точки і простору – це теж нехтування певними властивостями: на приклад, коли ми описуємо положення авто в межах міста, нам вистачить точки на мапі, натомість описати точкою як воно стоїть у гаражі, вже не вдасться, бо розміри стають суттєвими.

Розподіли

Далеко не завжди доводиться описувати настільки прості процеси, як кидання однієї ідеальної кості. Дуже часто різні можливі результати випадкової події мають різні ймовірності. Тоді ми говоримо про розподіл імовірностей. Він може бути дискре́тним – коли є скінченна або зліченна множина варіантів (що таке зліченні множини, я вже писав). Тоді графічно його можна зобразити стовпчиками, положення яких відповідають різним значенням випадкової величини, а висоти – імовірностям. Сума висот усіх стовпчиків дорівнює одиниці:

Рис. 1. Приклад розподілу дискретної величини: кидаємо дві гральні кості, а на графіку показано ймовірності для різних можливих значень суми чисел, що випадуть. Автор: Tim Stellmach – Власна робота using Inkscape and Open Office Draw software., Суспільне надбання (Public Domain), https://commons.wikimedia.org/w/index.php?curid=1220091

Серед характеристик розподілу важливою є математи́чне очі́кування. Це коли ми візьмемо всі можливі значення величини, помножимо їх на відповідні ймовірності (висоти стовпчиків) та візьмемо суму цих добутків. Якщо всі значення рівноймовірні, то це буде звичайне середнє значення. Для пікоподібних симетричних розподілів, або розподілів близьких до таких, воно унаочнює те, які значення є найбільш імовірними. Пізніше ми поговоримо про випадки, коли воно є малоінформативним.

Випадкові величини можуть бути й неперервними. Тоді замість імовірностей набуття величиною окремих значень матимемо розподіл густини́ ймові́рностей. Про ймовірність же в такому розподілі можна говорити тільки якщо нас цікавить, чи величина потрапила в певний інтервал, чи ні:

Рис. 2. Графік нормального розподілу наведений як приклад неперервного розподілу випадкової величини. Літерою σ позначено параметр ширини розподілу. Автор: M. W. Toews – Власна робота, based (in concept) on figure by Jeremy Kemp, on 2005-02-09, CC BY 2.5, https://commons.wikimedia.org/w/index.php?curid=1903871

Для густини ймовірності є певні обмеження. По-перше, в жодній точці вона не може бути менше нуля. Ані ймовірність, ані її густина не можуть бути від’ємними. По-друге, так само як сума висот стовпчиків дискретного розподілу, так і площа під графіком неперервного розподілу, обов’язково дорівнюють одиниці – це є повна ймовірність того, що що-небудь станеться. Імовірність, що величина потрапить у певний інтервал – це площа під графіком саме над цим відрізком горизонтальної вісі.

Дуже цікаво, що розподіли неперервних величин часто мають “гілки”, які продовжуються до нескінченності. На рисунку вище наведено так званий норма́льний розпо́діл, або розпо́діл Га́уса (він вже з’являвся на сторінках “Моєї науки”). Це типовий приклад: випадкова величина, в принципі, може набути будь-якого дійсного значення, але найбільшою є ймовірність того, що вона буде поблизу свого математичного очікування на відстані від нього не більше кількох ширин. На цьому графіку середнім значенням є нуль (хоча взагалі воно може бути довільним), а ширину розподілу позначено грецькою літерою σ – сігма. Видно, що на відстані не більше двох сігма від середнього величина буде з імовірністю понад 95%. 

Цікаво, що попри наявність нескінченних “гілок”, площа під цим графіком скінченна й дорівнює одиниці, як має бути для розподілу густини ймовірності. Ось такі бувають математичні дива! Взагалі, вивчення нескінченних речей в математиці дарує й більш карколомні речі, серед яких є фракта́ли з нецілою кількістю геометричних вимірів та дивні функції Діріхле́ й Діра́ка. Думаю, знайомство з такими математичними дивами не гірше фентезі. Та попри свою незвичайність та ідеалістичність математичні дива все ж знаходять застосування в реальному світі.

Похибки

За допомогою розподілів можна описувати не тільки випадкові величини, але й ті, які насправді мають якесь одне конкретне значення, але ми його не знаємо. Наші знання про неперервні величини, отримані з результатів вимірювань, також описують за допомогою розподілів густини ймовірності. Найчастіше використовують якраз норма́льний розпо́діл, що я навів на другому рисунку. Він використовується дуже часто для оцінки похибок вимірювань у багатьох галузях від фізики до соціології.

Якщо зробивши вимірювання ми припускаємо, що величина скоріш за все має певне значення, але не точно, то скоріш за результат буде описаний двома параметрами розподілу Га́уса: положення максимуму та ширину. Наступним кроком буде вибір ймовірності помилитися, достатньо малої, щоб нас вона влаштувала. Нуль – не пропонувати, бо це неможливо. Якщо ймовірність помилитися в 5% нас влаштує, то як похибку можна взяти подвійну ширину розподілу (2σ). Для прикладу, що показано на графіку, можна сказати, що величина, вимірювання якої описує той розподіл, дорівнює 0+/-2, тобто з імовірністю понад 95% справжнє значення лежить між -2 та +2. Якщо нас влаштує ймовірність помилки не більше піввідсотка, тоді за похибку доведеться взяти потрійну σ. І так далі – чим меншої ймовірності помилки ми прагнемо, тим ширший шматок розподілу доведеться включити до похибки.

Якщо вимірювання справжнє, то його результати завжди подаються з похибкою, яка дає уявлення про точність. Звичайно, буває, що медійники можуть просто забути про похибки, створюючи сюжети про дослідження, але читача це повинно спонукати лише ознайомитися з першоджерелом. Якщо ж у рекламі нам розповідають, що їхній “унікальний засіб” допомагає “на 32.7% краще ніж звичайні”, то можна сміливо стверджувати, що цифри взято з одного дуже популярного джерела. І це ми ще не торкаємося питання про те як ця “кращість” вимірюється кількісно, а воно теж варте уваги!

Вибірка

Впроваджуючи поняття ймовірності ми вдалися до грани́чного перехо́ду, спрямувавши кількість уявних кидань гральної кості до нескінченності. В реальному світі все, що можна спостерігати, є скінченним, але іноді буває настільки великим, що стає просто неосяжним. Неможливо за один підхід вивчити кожну піщинку на пляжі, виміряти енергію кожної молекули води у склянці, чи скласти детальний психологічний портрет кожного українця. Однак в нагоді стає зако́н вели́ких чи́сел, що дозволяє ототожнити розповсюдженість явища в надвели́кій сукупності об’єктів з імовірністю його появи. Звісно, деяка відмінність буде, але нею можна знехтувати. Вся ця величезна множина об’єктів, яку досліджують, називається генера́льною суку́пністю. Коли в нас немає можливості дослідити (а іноді навіть просто порахувати) кожний об’єкт з неї, тоді можна зробити оцінку характеристик, проаналізувавши якусь кількість випадково відібраних з неї об’єктів (ви́бірку), достатньо маленьку, щоб нам було під силу її проаналізувати, та достатньо велику, щоб можна було по ній зробити якісь висновки. Відповідь на перше питання визначається часом потрібним для аналізу та ресурсами, які треба вкласти (йдеться не тільки про гроші, оскільки бувають речі настільки гігантські, що виконати їх технологічно неможливо). А про відповідь на друге – як за розміром вибірки оцінити точність висновків – ми зараз поговоримо.

Приклад: маємо мішок зерна одного сорту, треба дізнатися середню масу зернини. Можна випадково обрати якусь кількість зернинок і зважити їх. Припускаючи, що маса зернинки в мішку має нормальний розподіл (це ж один сорт), можна оцінити його параметри, порахувавши сере́днє арифмети́чне від тих мас, що ми назважували. Вони не будуть однакові, і наша модель з нормальним розподілом це передбачає. Для оцінки ширини нормального розподілу, який ми припускаємо, нам стане в нагоді дисперсія, котру теж можна порахувати, хоча й за дещо складнішою формулою. Математики довели: що більшим є розмір вибірки (за умови, що розподіл дійсно нормальний), тим точнішими є оцінки параметрів розподілу за допомогою середнього та дисперсії. До речі, це теж граничний перехід. 

Маса зернини – це величина неперервна. Буває, доводиться досліджувати дискретні випадкові величини ( наприклад, кількість відвідувачів закладу за день). Тоді треба використовувати розпо́діл Пуассо́на. В нього є лише один параметр – середнє значення, а ширина залежить від нього. Найпростіша (але й найгрубіша) її оцінка – це квадратний корінь з середнього. Для великих середніх значень вона точніша (знову граничний перехід), а для малих – гірша, та ще й сам розподіл перестає бути симетричним:

Рис. 3. Розпякий потрібен для ниходіли Пуассона дискретного параметру k для різних значень параметру λ, який відповідає математичному очікуванню. Автор: SkbkekasВласна роботаiВихідний код цього SVG-файлу правильний.Це векторне зображення було створено з допомогою Matplotlib., CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=9447142

Коли ми зробили одне вимірювання (скажімо, порахували скільки сьогодні прийшло покупців до мазагину), тоді корінь квадратний з кількості буде також оцінкою точності оцінки середньої відвідуваності магазину. Якщо ж ми можемо повторити вимірювання багато разів, тоді ми можемо оцінити середнє (тобто математи́чне очі́кування) точніше. Точність оцінки середнього тоді можна оцінити за вже знайомими формулами диспе́рсії для ви́бірки. Нагадаю, це все діє, коли відвідуваність дійсно відбувається за розподілом Пуассона, тобто умови в усі дні однакові, а відмінність відвідування в різні дні носить суто випадковий характер. Якщо ж протягом нашого багатоденного спостереження буде велике свято, економічний кризис або ще якась подія, що вплине на відвідуваність, тоді описані тут оцінки матимуть мало сенсу.

Що таке “середнє”, та наскільки воно інформативне?

Описуючі застосування простих статистичних методів, я уточнював, що ми робимо припущення про розподіл випадкової величини. А як можна це припущення перевірити? Виявляється, розподіл можна виміряти, повторюючи дослід багато разів. Якщо випадкова величина є дискретною, тоді ймовірність для кожного значення можна оцінити як відношення кількості разів, коли воно випаде, до загальної кількості дослідів. Похибку вимірювання цієї кількості можна оцінити вищезгаданим способом, як квадратний корінь. Поміряні ймовірності з похибками можна порівнювати з теоретичними і таким чином перевіряти, наскільки теорія добре описує дійсність.

Коли ми вивчаємо розподіл неперервної величини, як у прикладі зі зважуванням зернят, тоді можна розбити можливий діапазон на інтервали, скажімо при середній масі зернини в 1.5 грама можна взяти діапазон наприклад від 0 до 3.0 грамів розбити на 30 інтервалів шириною по 0.1 грама. І для кожного інтервала можна так само оцінити ймовірність, що маса зернини потрапить саме в нього. Тоді ці ймовірності треба буде порівнювати з площею під графіком теоретичного розподілу на цих інтервалах. Приклад нормального розподілу на рисунку 2 зображено поділеним на 8 таких інтервалів і підписано, якими є ймовірності потрапляння випадкової величини в них. Цікавим є також, що крайні інтервали продовжуються до нескінченності так само, як гілки цього розподілу.

При дослідженні реальних процесів дуже часто відмінність розподілу випадкової величини від нормального (чи Пуассона, якщо величина дискретна) свідчить про наявність додаткового не випадкового фактору, що впливає на процес. В цьому відео наведено приклад того, як можна зробити таке викриття.

Буває, що розподіл не є нормальним через те, що реальність є складнішою ніж такий її опис. На приклад, якщо ми візьмемо мішок, в якому змішане зерно двох сортів, з різними середніми масами зернини, то розподіл маси буде містити два піки, схожі на нормальний розподіл. Якщо сорти сильно відрізнятимуться, тоді піки буде легко розрізнити, зробивши аналіз з використанням достатньої кількості інтервалів та вибравши достатньо велику кількість зернин. Якщо ж ми спробуємо оцінити середню масу зернини в мішку таким методом, як у попередньому розділі, то та величина не скаже нам нічого ані про перший, ані про другий сорт зерна. Сама по собі вона взагалі нічого нам не скаже про це зерно. Так само нам нічого не скажуть цифри про середній дохід населення (бо на нього впливають дуже багато чинників, далеко не всі з яких є випадковими) та багато інших “середніх”, які нам транслюють нечесні медійники з метою маніпуляції нашою думкою. 

Є жарт про трьох пацієнтів у палаті: в одного температура 40 градусів, у другого – теж 40, а в третього – 28 (вже вилікувався). Середня температура буде 36 градусів, що є дуже добрим показником, але немає жодного пацієнта, в якого була б така температура. І помилкова інтерпретація виникає саме через те, що ми нічого не знаємо про розподіл температур пацієнтів, а подання тільки середньої неявно нав’язує нам припущення, що цей розподіл – нормальний (Гаусса).

“Серед моїх знайомих ніхто за нього не голосував”

У дослідах елементарних частинок статистичні моделі використовувати дуже просто, оскільки всі частинки одного сорту цілком однакові. Якщо прискорювач надає частинкам певну однакову енергію, то нам байдуже їхнє походження – всі вони однаково добре підходять для експерименту. Але не всі речі, які вивчають люди, є настільки тотожними. Навіть зернятка в мішку можуть бути з дефектами, чи просто виростати різними через неоднорідність умов на полі. А ще коли пересипати зерно, то воно може перерозподілитися так, що в мішку воно не буде однорідно перемішаним. Отже якщо просто взяти жменьку зерна з одного місця, хоча за кількістю його буде достатньо, щоб наші формули показали високу точність розрахунків, все одно наша оцінка розподілу маси зернинок у мішку не відображатиме дійсність. Справа в тому, що вибірка зернят, що потрапить до нашої жменьки не буде репрезентативною. Щоб вибірка була доброю, треба вибирати зернини випадковим чином з усього об’єму, що є.

Досліджувати суспільство ще складніше, бо люди дуже відрізняються один від одного, а ретельно опитати одного респондента буває затратніше, аніж зважити зернину. І тоді постає питання, за яким принципом обрати групу піддослідних, щоб за нею можна було достовірно судити про суспільство в цілому чи хоча б про якусь його частину. З питаннями про те, як соціологи формують репрезентативні вибірки для своїх досліджень, краще звернутися до них самих. Однак очевидним є те, що якщо ви візьмете всіх своїх френдів у соцмережах, навіть якщо з них можна зібрати досить великий натовп, це не буде зрізом всього українського суспільства, наскільки багатогранною та комунікабельною людиною ви би не були. Так само якщо якийсь час опитувати всіх перехожих, яких ви зустрінете, то результати будуть чутливими і до місця (порівняйте околиці Миколаєва і Печерський район у Києві), і до часу (в робочий час до та після обіду, ввечері, вночі, під ранок, коли тільки молодь повертається з вечірок, тощо)3. З огляду на все це, вважати, що чогось в суспільстві майже немає, бо ви цього не бачите, як мінімум безпідставно.

І що з цього?

Дуже часто нам наводять якісь незрозумілі цифри, вдаючи справжні дослідження, але насправді лише хочуть маніпулювати нашою думкою. Звісно, можна просто не вірити геть нікому, але єдине до чого може спонукати людину така цинічна позиція – це бездіяльність. А цілком може бути так, що саме бездіяльна людина маніпуляторам і потрібна. Бездіяльна та необізнана – дуже зручний об’єкт внутрішньої політики! (Хоча активні невігласи теж можуть стати їм в нагоді). Насправді, краще було би вивчити найпростіші способи брехні в цифрах і розпізнавати їх. А також варто частіше задавати собі питання про те, якою  може бути дійсність, та як це можна перевірити. А способи перевірки вже давно існують.

Примітки

  1. Словом “відношення” в математиці називають результат ділення: відношення a до b це a/b.
  2. Коли я вивчав математику у вищому навчальному закладі (в 2002-2007 роках), то викладачі вживали в цьому контексті слово “прямує”. Натомість, в сучасних текстах з математики в інтернеті зустрічаю замість нього слово “прагне”.
  3. Розповсюдженим випадком, коли дослідники отримують нерепрезентативну вибірку є так зване упередження виживання, яке вперше викрили та описали під час Другої світової війни, коли аналізували пошкодження літаків, що повертались із завдань. Справа в тому, що слідів пошкодження двигунів на літаках не було не тому, що туди не поцілювали, а тому, що ці літаки вже не долітали до бази. Сьогодні, забуваючи про цю помилку, нам ретранслюють багато “історій успіху” з підтекстом, що треба копіювати звички видатних людей. Натомість важливіше буває саме уникнути розповсюджених помилок, що вбивають можливість успіху в зародку. А про них ми з “історій успіху” не дізнаємося.

Джерело титульного зображення: pixabay.com

Обговорення

Напишіть відгук

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *