Р-хакінг

Матеріал з wiki.vnu.edu.ua
Перейти до навігації Перейти до пошуку

Стандартна ситуація для науковця – дані оброблені, статистика обрахована і прогнозований ефект ніби добре виражений, але рівень його достовірності p трошки не дотягує до бажаного 0.05, а становить 0.06. Мабуть, припустимо знехтувати однією сотою і вказати у статті/дисертації омріяні 0.05, або просто вважати ефект достовірним при 0.06. Інша ситуація – в серії дослідів А p становить 0.24, в серії дослідів B0.17, в серії дослідів C0.4, в серії дослідів D0.03. Отже, дослідник обирає для звіту лише серію дослідів D і нехтує іншими серіями.

Ще один випадок – після обробки даних та статаналізу, виявилося, що p=0.08. Але даних ніби небагато, тож можна їх ще добрати, після чого виявляється, що p=0.04 – чого так добивався дослідник. Що є спільним для цих трьох випадків? В усіх випадках відбулася маніпуляція даними або статистичними критеріями для того, щоб «підігнати» результати під необхідний рівень статистичних показників. Подібні способи маніпуляції об’єднують у єдине явище під назвою p-хакінг.

Тема p-хакінгу зараз є однією з центральних тем в науці у зв’язку із дуже низьким рівнем відтворюваності наукових результатів (менше 30% у деяких провідних наукових галузях).

У 2016 році найбільш вагомий науковий журнал Nature опублікував опитування 1500 вчених, які зазначали низький рівень відтворюваності опублікованих досліджень, після чого у світовій науці відкрито заговорили про кризу відтворюваності. І саме p-хакінг є однією з основних причин, чого результати дослідження одного автора відрізняються від результатів дослідження за тою ж самою методикою іншого автора. Наукове товариство активно закликає використовувати підходи, які запобігають маніпуляціям із даними та статистичними критеріями. У наведених прикладах такі підходи будуть наступними. В першому випадку ефект дійсно може бути достовірним і при p>0.05, але значення p бажано розрахувати ще до проведення експерименту (т.з. «аналіз потужності») і зазначати ці розрахунки в публікаціях. В другому випадку виникнення низького значення p вже саме по собі може бути випадковим – якщо ми беремо декілька серій, не дивно, що в якійсь з серій цей рівень випадковим чином є меншим за 0.05. Для усунення подібної ситуації використовуються методи для множинних порівнянь, зокрема коригується рівень достовірності – в менший бік (наприклад, за допомогою поправки Бонферроні).

Нарешті, в третьому випадку автор має заздалегідь визначити, при якій кількості даних має проявитися ефект і опублікувати у відкритому доступі очікувану величину ефекту при очікуваній кількості даних.