home   |   А-Я   |   A-Z   |   меню


Научные выводы и статистические ритуалы

Герд Гигеренцер

Психолог; Центр адаптивного поведения и познания Института развития человека имени Макса Планка, Берлин; автор книги Risk Savvy: How to Make Good Decisions[102].

В молодости у Готфрида Вильгельма Лейбница была прекрасная мечта: открыть систему исчисления, позволяющую изобразить любую отдельно взятую идею в мире в виде символов. Подобное универсальное исчисление могло бы положить конец всем научным дебатам. К примеру, любое эмоционально накаленное обсуждение в рамках Edge.org можно было бы легко завершить при помощи бесстрастных точных расчетов. Лейбниц с большим оптимизмом предполагал, что разработать подобную систему исчисления небольшая группа людей могла бы всего за 5 лет.

Однако до сих пор никому, включая и самого Лейбница, так и не удалось найти этот Священный Грааль.

Тем не менее мечта Лейбница жива и даже процветает в области социальных наук и неврологии. Поскольку нам так и не удалось найти главный объект этой мечты, на его место приходят объекты-заменители. В некоторых областях это множественная регрессия, в других – байесовская статистика. Однако подлинным чемпионом считается так называемый «нулевой ритуал»:


1. Сформулируйте нулевую гипотезу «отсутствия разницы в среднем» или «нулевой корреляции». Не уточняйте предсказания своих собственных исследовательских гипотез.

2. Используйте 5-процентную погрешность как условие для отказа от нулевой гипотезы. Если результат окажется статистически значимым, примите свою исследовательскую гипотезу как верную. Сформулируйте результат в виде P < 0,05, P < 0,01 или P < 0,001, в зависимости от того, к какому условию оказывается ближе полученное вами P-значение.

3. Всегда используйте эту процедуру.


Мы не должны ни на минуту верить, что эта процедура имеет что-то общее с корректной статистикой. Сэр Рональд Фишер, которому совершенно неверно приписывается этот метод, на самом деле писал, что исследователям нельзя использовать один и тот же уровень статистической значимости от эксперимента к эксперименту. Узнав о том, как этот метод применяется в наши дни, знаменитые статистики Ежи Нейман и Эгон Пирсон наверняка перевернулись бы в своих гробах. Приверженцы байесовской статистики также с подозрением относятся к P-значениям.

Однако стоит вам открыть любой журнал по психологии, бизнесу или нейробиологии, и вы наверняка увидите на его страницах массу примеров P-значений. Вот лишь несколько иллюстраций. В 2012 году среднее количество P-значений, приведенных в Academy of Management Journal, главном прикладном журнале в области управления, составляло в среднем 116 на статью (в диапазоне от 19 до 536)! Вы можете подумать, что такова специфическая особенность науки менеджмента. Тогда скажу, что 89 % всех поведенческих, нейропсихологических и медицинских исследований с участием добровольцев, результаты которых были опубликованы в 2011 году в журнале Nature, сообщили лишь о P-значениях – и даже не рассматривали такие понятия, как величина эффекта, доверительные интервалы или максимальное правдоподобие.

Ритуал представляет собой коллективную или индивидуальную церемонию, состоящую из действий, совершаемых в заранее предписанном порядке. Обычно он включает в себя некие священные числа или цвета, нежелание подумать о том, почему вы вообще совершаете те или иные действия, а также страх наказания за то, что вы перестанете их совершать. И все эти свойства в полной мере присутствуют в нулевом ритуале.

Слова «5 процентов» тоже считаются священными, поскольку предполагается, что именно эта величина позволяет нам увидеть разницу между реальным эффектом и случайным шумом. В ходе исследований в области функциональной магниторезонансной томографии числа заменяются цветами, и мозг на мониторе прибора расцвечивается всеми красками.

Масштаб распространения этой бредовой идеи поражает. Если бы психиатры хотя бы немного уважали статистику, то наверняка включили эту аберрацию в «Руководство по диагностике и статистическому учету психических расстройств». Исследования, проведенные в США, Великобритании и Германии, показывают, что большинство исследователей вообще не понимают (или не хотят понимать), что такое P-значение. Они путают его с вероятностью гипотезы или с каким-то другим обманчивым понятием – таким как вероятность репликации данных. В ведущих научных журналах можно встретить потрясающие примеры подобных ошибок. К примеру, для того чтобы выяснить, различаются ли между собой два средних значения, мы должны протестировать степень их различия. Однако при этом не следует сравнивать каждое из этих средних значений с какой-то общей точкой отсчета (например, вот так: «Нейронная активность повысилась у испытуемых, прошедших обучение (Р < 0,05), но не в контрольной группе (Р > 0,05)». В 2011 году в Nature Neuroscience был опубликован анализ неврологических статей в журналах Science, Nature, Nature Neuroscience, Neuron и The Journal of Neuroscience. И если в 78 статьях со статистикой все было в порядке, то в 79 были описаны некорректные процедуры.

Отказ от следования ритуалу может вызывать немалую тревогу, даже когда в этом ритуале нет особого смысла. В одном исследовании (имена авторов в данном случае не имеют значения) пользователей интернета спрашивали, есть ли разница между героизмом и альтруизмом. Подавляющее большинство респондентов (2347 человек, 97,5 %) ответили «да»; лишь 58 сказали «нет». Что же сделали авторы с этой информацией? Они рассчитали распределение хи-квадрат, вычислили, что c 2(1) = 2178,60, что P < 0,0001, и пришли к поразительному выводу, что на самом деле «нет» сказало больше людей, чем «да».

Один из признаков обсессивно-компульсивного расстройства – ритуал компульсивного мытья рук, даже если в этой процедуре нет никакой необходимости. Аналогичным образом исследователи, придерживающиеся нулевого ритуала, постоянно делают статистические выводы, даже в ситуациях, когда это не нужно, – например, когда у нас нет случайной выборки из общей совокупности или когда мы в принципе не дали никакого определения этой совокупности. В таких случаях мы вообще не можем применять статистическую модель с участием случайной выборки из общей совокупности и вместо нее используется описательная статистика. Поэтому даже если вам удается рассчитать статистически значимое Р-значение, совершенно неясно, о какой общей совокупности идет речь.

Проблема состоит не в статистике, а в ее ошибочном использовании как автоматической машины для создания выводов.

И наконец, подобно тому как обсессивно-компульсивное расстройство и бесконечное мытье рук могут ухудшать качество жизни, стремление рассчитывать статистически значимые P-значения может подрывать качество исследований. Это выражается следующим образом.

Поиск статистически значимых теорий заменяется поиском значимых Р-значений. Такая подмена цели приводит к появлению сомнительных исследовательских практик: избирательности выводов, когда сообщается лишь о случаях, когда результаты «сработали», или исключению некоторых данных после изучения их влияния на результаты. Из примерно 2 тысяч психологов, принявших участие в исследовании, проведенном в 2012 году журналом Psychological Science, свыше 90 % признались в том, что хотя бы раз применяли одну или несколько сомнительных исследовательских практик. Столь существенный масштаб подмены, направленной на создание статистически значимых P-значений, оказывается более вредным для прогресса, чем редкие случаи откровенного мошенничества.

Одним из этих вредных результатов можно считать то, что вокруг нас бушует настоящий потоп опубликованных, однако невоспроизводимых результатов. Генетические и медицинские исследования на основе Больших данных постоянно сталкиваются с подобной проблемой, когда кто-то безуспешно пытается повторить опубликованные результаты.

Я не хочу выплескивать вместе с водой ребенка: статистика предлагает очень полезный инструментарий для исследователей. Однако пришло время избавиться от статистических ритуалов, приводящих к автоматическим и бессмысленным выводам. Ученым следует изучать ритуалы, а не следовать им.


Статистическая значимость Чарльз Сейфе | Эта идея должна умереть. Научные теории, которые блокируют прогресс | Сила статистики Эммануэль Дерман



Loading...