home   |   А-Я   |   A-Z   |   меню


Статистическая независимость

Барт Коско

Профессор кафедры электротехники, Университет Южной Калифорнии; автор книги Noise («Шум»).

Науке пришло время отказаться от фантазий, связанных со статистической независимостью.

Мир в огромной степени объединяется причинно-следственными связями. Достаточно вспомнить, что одна лишь гравитация определенным образом связывает все объекты, обладающие массой. Утверждение, что статистическая корреляция еще не подразумевает каузальности, принято считать трюизмом. Однако математический факт состоит в том, что статистическая независимость не предполагает вообще никакой корреляции. Тем не менее множество событий достаточно часто коррелируют друг с другом. Главный принцип большинства алгоритмов Больших данных заключается в том, чтобы выявить эту корреляцию в е

Статистическая независимость лежит также в основе большинства современных техник статистической выборки. Порой она оказывается частью самого определения «случайная выборка». Именно на нее опираются доверительные интервалы старой школы, использующиеся в опросах на политические темы и в некоторых медицинских исследованиях. Она даже лежит в основе моделируемых наборов данных, которые все чаще приходят на смену этим старомодным техникам.

Белый шум – вот на что похожа звуковая картина статистической независимости. Шипение, хлопки и хрипы, характерные для подлинного белого шума, статистически независимы друг от друга. И в этом смысле неважно, насколько образцы шума отстоят друг от друга во времени. Это означает лишь то, что частотный спектр белого шума является постоянно плоским. В реальности такой процесс невозможен, поскольку он потребовал бы бесконечной энергии. Однако это не помешало целым поколениям ученых и инженеров исходить из предположения, что белый шум загрязняет сигналы и коммуникации.

Реальные образцы шума не являются независимыми. В какой-то степени они коррелируют между собой. Даже тепловые помехи, затрудняющие работу электронных схем и радаров, имеют лишь условно плоский частотный спектр и ограничиваются лишь частью спектра. У реального шума нет ни плоского спектра, ни бесконечной энергии. Поэтому на самом деле «белый» шум может быть метафорически «окрашен» в розовый, коричневый или какой-то иной цвет, в зависимости от степени корреляции между его образцами. Реальный шум не является и не может являться белым.

Возникающая здесь проблема заключается в том, что для оценки статистической независимости существует не так уж много тестов. Большинство из них в лучшем случае говорят нам, являются ли две переменные (а не сами данные) независимыми. И большинству ученых было бы нелегко даже просто перечислить эти тесты. Поэтому наиболее распространенная практика заключается в том, чтобы предположить, что взятые для изучения события независимы. Допустим, что некие данные «белые». Представьте, что эти данные не только взяты не из одного распределения вероятностей, но и статистически независимы. Ученые легко оправдывают такую позицию тем, что так поступают почти все и про это написано в учебниках. Подобное предположение может считаться одним из самых широко распространенных примеров группового мышления в мире науки.

Причина, по которой мы так часто предполагаем наличие статистической независимости, совсем не связана с реальным положением вещей. Мы ожидаем статистической независимости просто потому, что так удобнее – она упрощает занятия математикой. Она делает неразрешимое разрешимым. Статистическая независимость разделяет сложную вероятность на произведения индивидуальных вероятностей (а затем мы часто используем логарифм для превращения произведения вероятностей в сумму, поскольку нам всегда проще работать с суммами, чем с произведениями). Кроме того, нам проще научить начинающего азартного игрока тому, что последовательные подбрасывания монетки независимы друг от друга, чем провести серию достаточно масштабных экспериментов с условными вероятностями, необходимых для фактического подтверждения этого примечательного результата. Такой подход продолжает существовать, поскольку в целом сложная или суммарная вероятность всегда представляет собой произведение условных вероятностей (это гарантируется так называемым правилом умножения). Независимость сужает условные вероятности до безусловных. Исключение обусловленности исключает и статистическую зависимость.

Русский математик Андрей Марков совершил первый серьезный прорыв в области независимости или «белизны», когда занимался изучением событий, статистическим образом зависящих лишь от непосредственного прошлого. Это произошло более 100 лет назад. Мы до сих пор продолжаем разбираться с математикой цепей Маркова и находить в ней немало сюрпризов. Так, поисковые алгоритмы Google в значительной части основаны на поиске собственного вектора равновесия для конечной цепи Маркова. Модель поиска предполагает, что пользователь интернета случайным образом перескакивает с одной веб-страницы на другую, наподобие лягушки, скачущей с одного листа кувшинки на другой. Эти прыжки и скачки не являются статистически независимыми. Однако они являются вероятностными. Выбор следующей веб-страницы зависит от страницы, на которую вы смотрите в настоящий момент. В реальности путешествие по Сети может учитывать вероятностные зависимости, восходящие к нескольким ранее посещенным веб-сайтам. И можно быть уверенным в том, что человеческое мышление не представляет собой процесса Маркова. При этом независимость от одношаговой или даже двухшаговой закономерности Маркова обеспечила нам возможность моделирования разнообразных потоков данных, от молекулярной диффузии до синхронного перевода.

Для того чтобы продвинуться дальше простой модели Маркова, в которой будущее зависит лишь от настоящего, а не от прошлого, придется проделать большую работу. Однако для этой работы у нас уже есть достаточно мощные компьютеры. Кроме того, мотивированные теоретики наверняка дадут нам множество новых идей. Поэтому отказ от «костыля» статистической независимости способен подстегнуть получение еще большего количества подобных результатов.

Науке необходимо серьезнее относиться к своему любимому ответу на множество вопросов – «это зависит от множества факторов».


Стандартное отклонение Нассим Николас Талеб | Эта идея должна умереть. Научные теории, которые блокируют прогресс | Определенность. Абсолютная истина. Точность Ричард Сол Вурман



Loading...