home   |   А-Я   |   A-Z   |   меню


Большие данные

Гэри Маркус

Ученый-когнитивист, Университет Нью-Йорка. Автор книги Guitar Zero: The New Musician and the Science of Learning («Гитара с нуля: новый музыкант и наука обучения»).

Нет, я не призываю буквально перестать верить в пользу Больших данных или перестать накапливать их. Но нам нужно прекратить думать, что Большие данные творят чудеса. Большой объем тщательно собранной информации будет полезен в любой сфере. Но многие люди, даже ученые, полагаются на данные больше, чем следовало бы. Иногда кажется, что половина всех разговоров о понимании науки сегодня, от физики до нейронаук, вращается вокруг Больших данных и связанных с ними инструментов, таких как «понижение размерности», «нейронная сеть», «алгоритмы машинного обучения» и «визуализация информации».

Несомненно, Большие данные – главная фишка настоящего момента. За 39 минут до того, как я сел писать эту статью, сервис Google News (управляемый Большими данными) сообщил, что Гордон Мур (в честь которого назван закон Мура)«внес большой вклад в Большие данные» (Gave Big to Big Data). Массачусетский технологический институт запустил онлайн-курс по Большим данным (44 минуты назад), Большие Данные были признаны Стратегией года для бизнесов. За несколько часов до этого в журнале Forbes вышла статья о Больших данных. На запрос «большие+данные+наука» выдается 163000 ссылок.

Но наука все еще периодически возвращается, на фундаментальном уровне, к поиску законов, которые описывают нашу Вселенную. А в чем Большие данные не слишком преуспели, так это в формулировании законов. Большие данные превосходно выявляют корреляции. Чем больше ваш набор данных, тем с большей вероятностью будут выявлены взаимосвязи, даже сложные, включающие множество переменных. Но корреляции никогда не выявляли причин и никогда не смогут этого сделать. Все данные со всего мира сами по себе не скажут вам, вызывает ли курение рак легких. Чтобы действительно понять взаимосвязь между курением и раком, вам нужно провести эксперименты и понять, как работают канцерогены, как происходит онкогенез и репликация ДНК. Ежегодное внесение данных каждого курильщика и некурящего на планете в базу данных с описанием всех подробностей их курения, места проживания, продолжительности жизни и причин смерти, вне зависимости от занимаемых этой информацией терабайт, не поможет в понимании сложного биологического процесса, лежащего в основе заболевания.

И если меня слегка тревожит то, как сильно полагается на Большие данные мир бизнеса, то гораздо больше меня волнует, что ученые делают то же самое. Некоторые направления неврологии опираются на убежденность в том, что ответы придут сами – надо просто собрать достаточно данных.

Этого не произойдет. Если у нас есть сильная гипотеза, ее можно протестировать при помощи Больших данных. Но не Большие данные должны быть нашим исходным пунктом. К ним нужно обращаться лишь тогда, когда мы уже понимаем, что именно надо искать.


Остерегайтесь самонадеянности! Не отказывайтесь ни от чего! | Эта идея должна умереть. Научные теории, которые блокируют прогресс | Стратиграфическая колонка Кристин Финн



Loading...