home   |   А-Я   |   A-Z   |   меню


Статистическая значимость

Чарльз Сейфе

Научный журналист и писатель; профессор журналистики, Нью-Йоркский университет; автор книг Virtual Unreality («Виртуальная нереальность») и Zero: The Biography of a Dangerous Idea[101].

Понятие статистической значимости – настоящий подарок для посредственных, доверчивых, нечестных и полностью некомпетентных людей. Это понятие превращает бессмысленный результат в нечто, заслуживающее публикации, а потерю времени и усилий – в топливо для продвижения научных карьер. Статистическая значимость была придумана, чтобы помочь исследователям отличить реальный эффект от статистической случайности, однако превратилась в количественное оправдание, позволяющее облечь полную бессмыслицу в мантию респектабельности. И в этом состоит единственная важная причина, по которой основная масса научной и медицинской литературы не стоит бумаги, на которой она напечатана.

Если правильно его использовать, то показатель статистической значимости позволяет избавиться от капризов случайности – ни больше, ни меньше. К примеру, предположим, что вы тестируете эффективность лекарственного препарата. Даже если его состав химически совершенно инертен, имеются немалые шансы (около 50 %) на то, что пациенты будут лучше реагировать на ваше (мнимое) лекарство, чем на плацебо. Иными словами, чистая случайность может придать вашему лекарству кажущуюся эффективность. Однако чем сильнее выявляется различие между лекарством и плацебо, тем менее вероятно, что за результат отвечает одна лишь случайность. «Статистически значимым» результатом может считаться результат, превышающий определенную погрешность. В большинстве журналов в области социальных наук и медицины наблюдение обычно считается статистически значимым, если вероятность того, что наблюдаемый эффект случаен, составляет менее 5 %. В мире физики погрешность обычно оказывается ниже и часто составляет 0,3 % («правило трех сигм», 3) или даже 0,00003 % (три десятитысячных процента, «правило пяти сигм», 5). Однако суть остается прежней: если ваш результат заметно выше этого порога, он получает весомый ярлык «статистически значимого».

Однако чаще всего этот термин используется неправильно. Если вы посмотрите на типичную научную работу, опубликованную в рецензируемых журналах, то увидите, что тестирование на статистическую значимость проводится не для одного наблюдения, а для десятков или даже сотен. Исследователь, изучающий болеутоляющее средство для страдающих от артрита, рассматривает данные, позволяющие последовательно отвечать на один вопрос за другим: помогает ли лекарство уменьшить боль у пациента? помогает ли оно пациенту с болью в колене? с болью в спине? с болью в локте? с сильной болью? с умеренной болью? с болью в степени между умеренной и сильной? помогает ли оно пациенту расширить диапазон доступных движений? качество жизни?

Каждый из этих вопросов проверяется с точки зрения статистической значимости и обычно сравнивается со стандартным для отрасли пятипроцентным правилом. Иными словами, существует вероятность 5 % – то есть один шанс из 20, – что бесполезный препарат будет казаться эффективным исключительно благодаря случайности.

Но попробуйте провести тестирование по 10 вопросам – и шанс, что случайность исказит ваш результат при ответе на 1 или несколько из этих вопросов, тут же возрастет до 40 %. Но в типичной научной работе задается больше 10 вопросов, а иногда и намного больше. Вы можете скорректировать эту «проблему множественных сравнений» с помощью математических инструментов (хотя это и нельзя считать общепринятым методом). Вы также можете попробовать избавиться от этих нежелательных эффектов, приняв решение ответить всего на 1 главный вопрос (хотя на практике такие «первичные результаты» оказываются на удивление пластичными). Однако даже эти корректировки часто не учитывают влияние множества эффектов, способных негативно сказаться на расчетах исследователя, – подобно тому как незначительные изменения в классификации данных могут повлиять на исходный результат: «острая» боль – это 7 баллов по 10-балльной шкале? Или 8 и выше?.. Иногда подобные вопросы упускаются из виду; иногда они сознательно игнорируются или становятся объектом манипуляций.

Даже в лучшем случае, когда статистическая значимость рассчитывается самым правильным образом, она способна сказать вам не так уж много. Разумеется, маловероятно, что нужный эффект достигается лишь благодаря стечению случайных факторов. Однако это соображение ничего не говорит нам о том, насколько правильным был протокол проведения эксперимента; насколько точно были откалиброваны измерительные приборы; не было ли ошибок в компьютерной программе; в достаточной ли степени экспериментатор замаскировал данные, чтобы предотвратить предвзятость при их анализе; понимали ли ученые все возможные источники ложных сигналов; было ли надлежащим образом простерилизовано все вспомогательное оборудование; и так далее. Когда эксперимент оказывается неудачным, скорее всего, ответственность лежит не на случайности – точнее, не на статистической случайности, а на старой доброй ошибке исследователя.

Когда физики ЦЕРНа сообщили, что им удалось поймать нейтрино, двигающиеся быстрее скорости света, даже порога статистической значимости на уровне 6 сигм (и тщательной проверки на наличие ошибок) оказалось недостаточно для того, чтобы убедить физическое сообщество в том, что команда ЦЕРНа нигде не ошиблась. Ведь полученный результат противоречил не только физическим законам, но и результатам наблюдения за нейтрино, рождающимися при взрыве сверхновых звезд. И вполне естественно, что через несколько месяцев кому-то удалось выявить неточность в расчетах (в общем и целом незначительную), которая позволила опровергнуть заключение команды.

Подобные вещи происходят в научном мире на удивление часто. Управление по контролю за продуктами и лекарствами США каждый год инспектирует несколько сотен клинических лабораторий. Примерно в 5 % случаев делается вывод о том, что та или иная лаборатория использует в своей работе «крайне сомнительные условия и практики» и полученная в этой лаборатории информация не может считаться надежной.

Зачастую такие практики включают в себя откровенное мошенничество. Любой инспектор способен сразу заметить подобное, однако ему сложно представить, что реальное количество ошибок в лабораториях может оказаться в несколько раз выше того, что он видит. Что толку в том, чтобы называть результат статистически значимым с погрешностью 5 %, 0,3 % или даже 0,00003 %, если вероятность того, что данные существенно искажены ошибками в лаборатории, составляет 10 %, 25 % или даже еще выше? В условиях, когда возможны такие ошибки (не говоря уже о сознательном мошенничестве), даже самые железобетонные выводы, основанные на статистической значимости, теряют любой смысл.

Тем не менее, несмотря на то что статистика не всегда выдерживает проверку практикой, ученые зачастую пытаются использовать понятие статистической значимости как универсальный и простой способ определения того, заслуживает ли то или иное наблюдение доверия, а выводы – публикации. Из-за этого рецензируемая литература замусорена «статистически значимыми» абсурдными результатами, которые невозможно повторить и в которые невозможно поверить даже при самом богатом воображении.

Концепция «статистической значимости» стала своего рода «количественным костылем» качественного по своей сути процесса определения правильности выводов. Без нее науке станет намного лучше.



Новые идеи всегда приходят на смену старым Джаред Даймонд | Эта идея должна умереть. Научные теории, которые блокируют прогресс | Научные выводы и статистические ритуалы Герд Гигеренцер



Loading...