Дата-майнинг делает научные открытия

Интересная статья опубликована в журнале New Scientist о том, как дата-майнинг применяется для анализа большого объёма научной информации. Цель — поиск ценной информации в разрозненных научных статьях. Эти закономерности люди, вероятно, не способны обнаружить собственными силами, без автоматической обработки. Это неудивительно, ведь объём опубликованных научных документов в интернете только на английском языке уже превысил 100 миллионов документов. Это огромный информационный шум, из которого практически невозможно извлечь полезную информацию. То есть, невозможно извлечь человеческим умом.

http://hsto.org/files/eb6/9cd/682/eb69cd6829ff45c79ab59ce7bb4d712a.jpg

Понятно, что без дата-майнинга в современной науке нельзя. Скажем, петабайты информации с Большого адронного коллайдера обрабатывают месяцами/годами, чтобы определить наличие или отсутствие эффектов, предполагаемых той или иной теорией. Но здесь речь идёт о более «тонком» анализе научных результатов от разных авторов для поиска скрытых закономерностей, совпадений.

Например, калифорнийский суперкомпьютер под названием KnIT постоянно работает над такими задачами. Он анализирует 50 000 научных статей в час. Скажем, он специально анализировал всю информацию, связанную с протеином под названием p53 и искал все данные об энзимах, которые взаимодействуют с ним, они называются киназы.

Белок p53 очень важен и считается «охранником генома», он подавляет возникновение раковых опухолей в организме. Суперкомпьютер искал в научных статьях все упоминания, которые могут указывать на наличие новых неоткрытых киназ для белка p53. В качестве тестового задания он проанализировал научные работы до 2003 года — и нашёл 7 киназ, которые действительно были открыты в течение последующих 10 лет. То есть система подтвердила, что она может делать настоящие научные открытия. Кроме того, она нашла ещё 2 киназы, до сих пор неизвестных науке. Первоначальные лабораторные эксперименты подтвердили справедливость предположений, сделанных суперкомпьютером (хотя группа учёных хочет повторить опыты для гарантии).

Разработчики KnIT из IBM и медицинского колледжа Бейлора недавно представили доклад на эту тему на Конференции по обнаружению знаний и дата-майнингу в Нью-Йорке. Их главный тезис состоит в том, что люди-учёные более приспособлены для генерации новой информации, тогда как компьютеры лучше подходят для анализа всего этого огромного сгенерированного массива данных.

Конечно же, KnIT — не единственная разработка в данной области, где идут активные исследования. Например, авторы манчестерской системы Eve утверждают, что она уже нашла новое лекарство от малярии. Программа не изучала научные работы, а сама эмулировала эксперименты в этой области, пробуя разные варианты лекарств.

Читайте также: