Главная arrow Все публикации на сайте arrow Эпистемический статус цифровых данных в современных научных исследованиях
Эпистемический статус цифровых данных в современных научных исследованиях | Печать |
Автор Журавлева Е.Ю.   
21.03.2012 г.

В статье анализируется каким образом цифровые данные становятся неотъемлемой частью современной научно-исследовательской деятельности. Для этого рассматриваются не только определение, виды и объемы цифровых данных, но и производные от цифровых данных понятия «поток данных» и «поток метаданных», их влияние на структуру научного познания и продукты научной деятельности. В качестве иллюстрации в работе приведены примеры использования цифровых данных в научных проектах. Особое внимание уделено описанию «Четвертой парадигмы» и ее практическому воплощению в виде моделей, ориентированных на данные: Х-информатика, наука, ориентированная на данные, наука управления данными, наука, преобразующая огромные объемы данных. А также научно-исследовательским программам: «наука интенсивных данных» (Европа) и «вычисления и данные, дополняющие науку и технику» (США).

In this paper, an analysis of the thesis, as digital data becomes an integral part of modern scientific research. To this end, we consider not only the definition, types and volume of digital data, but the notion of "data deluge" and "metadata deluge” derived from the digital data, their influence on the structure of scientific knowledge and the products of scientific activity. As an illustration, in this article there are examples of the use of digital data in research projects. Particular attention is being paid to the "fourth paradigm" and its practical implementation in the form of data-centric models: X-informatics, data oriented science, data driver science, Petascale Science. As well as research programs: "Data intensive Science” (Europe) and “Computational and Data-Enabled Science and Engineering” (USA).

КЛЮЧЕВЫЕ СЛОВА: цифровые данные, поток данных, поток метаданных, «Третья парадигма», вычислительное мышление, «Четвертая парадигма», Х-информатика, наука, ориентированная на данные, наука управления данными, наука, преобразующая огромные объемы данных, наука интенсивных данных, «вычисления и данные, дополняющие науку и технику».

KEY WORDS: digital data, data deluge, metadata deluge, «third paradigm», computational thinking, «fourth paradigm», X-informatics, data oriented science, data driver science, Petascale Science, data intensive science, Computational and Data-Enabled Science and Engineering.

Where is the Life we have lost in living?
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?

T.S. Eliot, "Choruses from 'The Rock'"[1]

 

Цитату из Т.С. Элиота, вынесенную в эпиграф статьи, в настоящее время в связи с прогрессивным развитием информационно-коммуникационных технологий можно продолжить строкой «Где информация, которую мы потеряли в потоках данных?». Во многом благодаря тому, что первоначальный фокус современных информационно-коммуникационных технологий более всего направлен на первую часть спектра «данные-информация-знание-мудрость-предвидение[2]».

В мае 2010 г. были опубликованы результаты исследования «Десятилетие цифровой Вселенной: готовы ли Вы?», в котором оценивается общий объем цифровых данных в мире. Согласно отчету в 2009 г. объем цифровых данных вырос на 62 процента по сравнению с 2008 г. до 800 миллиардов гигабайт или 0,8 зеттабайт. Объем цифровых данных, созданных на начало 2010 г. равен 1,2 зеттабайт. К 2011 г. объем цифровых данных предполагается равным 1,8 зеттабайт. Большая часть цифрового контента не уникальна – почти 75% всего объема цифрового мира являются копиями. К 2020 г. количество данных вырастет 44-кратно, в 35 триллионов гигабайт и достигнет 35 зеттабайт[3].

Точками роста данных, как прогнозируются, будут являться все основные виды средств массовой информации и коммуникации – ТВ, радио, печать, интернет, мобильные сети. Например, в 2008 г. компанией Google зафиксирован 1 триллион уникальных URL-адресов в Интернете[4]. YouTube отмечает, что каждую минуту на сайт загружается 24 часа нового видео[5].

Для оценки масштаба объемов цифровых данных P. Уильямс составил таблицу соответствия между единицами измерения данных и привычными для человеческого восприятия объектами, переведенными в цифровую форму. К примеру, 2 килобайта занимает машинописная страница, а 5 мегабайт полное собрание сочинений У. Шекспира, 700 мегабайт это уже объем CD-ROM, 20 гигабайт занимает музыкальная коллекция произведений Бетховена. Переходя к терабайтам, петабайтам, экзабайтам появляются следующие сравнения: 2 терабайта – объем данных одной академической библиотеки США, 10 терабайт является количеством информации, которое человек накапливает за свою жизнь, 2 петабайта это объем данных всех научных библиотек США, 200 Петабайт объем всех напечатанных материалов в мире, а 5 экзабайт составляет объем всех слов, которые произносятся людьми мира[6]. Единицы измерения зеттабайт и йотабайт введены в 1991 г. К 2010 г. объем всех созданных в мире цифровых данных составляет 1,2 зеттабайт, что можно представить как стопку DVD-дисков от Земли до Луны и обратно. По поводу такой единицы как йотабайт метод аналогии уже не работает, в журнале «Экономист» есть существенное замечание о том, что йотабайт является слишком большим количеством данных для человеческого представления [Все также много 2010, 3].

Понятие «данные» является более специфическим, чем понятие «информация», но при этом во многих контекстах их используют как взаимозаменяемые. По мнению К. Боргман, понятие «данные» имеет более ограниченное число определений и одновременно являющееся субъектом многих различных толкований [Боргман 2007, 119].

Согласно определению, данные это повторно поддающиеся толкованию представления информации в формализованном виде для последующей их передачи, интерпретации или обработки [Описание модели для открытой архивной информационной системы 2002, 9]. Примеры данных включают в себя последовательности битов, таблицы чисел, оригиналы web-страниц, звуковые записи и т.п. Выделяют четыре категории данных в зависимости от их источников: данные наблюдений, вычислительные и экспериментальные данные, записи[7]. К данным наблюдения относятся данные, которые регулярно поступают в результате прямого наблюдения, например, за температурой океана, данные о мнениях избирателей накануне выборов или фотографии сверхновой звезды. Данные наблюдения связаны со специальным местом и временем или включают в себя описание множеств пространств и времен (поперечные и лонгитюдные исследования). Результаты выполнения компьютерных моделей и симуляций виртуальной реальности находят свое отражение в понятии «вычислительные данные». «Экспериментальные данные» включают в себя результаты лабораторных исследований, таких как измерение систем генных изменений, данные о протекании химических реакций, данные об испытаниях двигателей. Записи, полученные в процессе управления, ведения бизнеса, публичной и частной жизни также в свою очередь, являются данными для исследований.

Интернет стал одним из средств для сбора данных из-за его способности получить доступ к миллионам пользователей, возможности исследования массива данных и удобства технологических процедур. Данные в интернете имеют уникальные особенности и, подчеркивая эти особенности, используется понятие «интернет-данные». В целом, интернет можно рассматривать как источник новых данных, и в этом случае будет уместно ввести понятие «интернет-данные», и как новый источник для уже имеющихся данных (такие данные называются цифровыми). Л. Манович обозначает подобные понятия «рожденные цифровыми» и «оцифрованные данные»[8]. В данной статье подобное разграничение не подчеркивается, и данные разного происхождения называют цифровыми.

По степени соответствия определенному формату цифровые данные можно разделить на структурированные, полуструктурированные и неструктурированные. В структурированных данных отражаются отдельные факты предметной области (это основная форма представления данных в системах управления базами данных). Именно структурированные данные имеют наибольший интерес, так как они связаны с другими данными и представляют информационную ценность с точки зрения количества информации. Использование в научной деятельности баз данных изменяет процесс получения знаний. В современности базы данных применяются как крупномасштабное средство коммуникации исследователей и, лишь в меньшей степени в качестве инструмента познания, замечает К. Хине [Хине 2006, 269].

Полуструктурированные данные это данные, которые имеют характеристики схем и метаданных. Понятие «метаданные» многозначно, оно может означать информацию о данных, или структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими, а также данные из более общей формальной системы, описывающей заданную систему данных. Метаданные весьма значимы по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную, имеют большую ценность, поскольку это гарантирует их осмысленность.

Под неструктурированными данными понимаются произвольные по форме текстовые документы (тексты естественного языка), электронные таблицы, сообщения электронной почты, графика, музыка, видео и т.д. Эта форма представления данных широко используется в виде отклика предоставляемому пользователю поисковыми системами. По современным оценкам более 95% цифровой среды состоит из неструктурированных данных. Многие исследователи работают с неструктурированными и слабо структурированными данными, совокупность которых называют пространствами данных.

Г. Эрбах считает, что подход, ориентированный на данные, имеет специальный статус из-за первенства данных в научных исследованиях по причине того, что анализ, интерпретация, моделирование и понимание множества наблюдаемых фактов и составляет большую часть научной деятельности. Комплексы научных данных могут принимать различные формы для многообразных областей исследования: потоки данных, полученные от научных инструментов (телескопы, сейсмографы, спутники наблюдения за Землей, ускорителей, андронных коллайдеров); измерение физиологических функций, таких как FMRI сканирование мозга и движения глаз; геоданные; социально-экономические данные, такие как ВВП, данные и индексы фондового и валютного рынка, статистика занятости, данные обследований; данные о взаимодействиях людей (аудио/видео записи); текст и аудиовизуальные данные [Эрбах 2006].

Можно выделить, по крайней мере, шесть научных направлений, которые лидируют в сфере накопления научных данных, причем пять из них относятся к естественно-научным дисциплинам.

В астрономии или точнее в астроинформатике, как предлагает называть дисциплину К. Борн, самая крупная база данных составляет около 10 терабайт.[9]. К примеру, Виртуальная обсерватория астрономических данных на разных длинах волн, расположенная в США и в Европе[10] только одной из стран сохраняет 500 терабайт в год.

В биоинформатике цифровые данные представляют собой сложную совокупность из числовых, текстовых и графических данных. Например, общая База данных белковых структур 3D (PDB) составляет порядка гигабайта. Современный размер базы SWISS-PROT[11] составляет порядка 100 гигабайт, а требования хранения данных в Базе GeneExpression по прогнозам будет составлять 1 петабайт в год.

Ученые прогнозируют резкое увеличение данных в эко-информатике в течение ближайших нескольких лет. Например, объем накопленной информации Центра космических полетов Годдарда[12] составлял к 2005 г. 1,5 петабайта, а НАСА[13] к 2007 г. – 15 петабайт. Европейское космическое агентство[14] генерирует около 100 гигабайт данных в день. 

Общество физиков по изучению элементарных частиц планирует серию экспериментов, которые нужно выполнять на Большом адронном коллайдере[15], созданном в CERN (Женева). К эксперименту на LHC привлечены свыше 100 учреждений и свыше 1000 физиков из Европы, США и Японии. В ходе ряда экспериментов обширная сумма сгенерированных данных (10 петабайт в год) должна быть переработана и распространена для дальнейшего анализа всеми участниками консорциума[16]. В ходе исполнения научного проекта BaBar Experiment[17] генерируется 350 терабайт цифровых данных в день. К 2015 г. в атомной и ядерной физике будет использоваться 1 экзабайт данных.

С введением электронных записей пациентов и развития методов получения медицинских изображений, объем медицинской и медико-санитарной информации, хранящийся в цифровой форме также значительно возрастает. К примеру, общая база радиологических изображений для США медицинской компании InSiteOne[18], занимающейся хранением медицинских изображений превышает 420 млн. человек и возрастает на 12% в год. Каждое изображение, как правило, представляют собой множество мегабайт цифровых данных и должно храниться в архиве в течение как минимум 5 лет. Крупномасштабные исследования в области семантической интеграции неоднородных данных на основе использования грид-технологий выполняются в проектах Biomedical Informatics Grid (caBIG), Cardiovascular Research Grid (CVRG), Biomedical Informatics Research Network (BIRN).

В настоящее время осуществляется несколько высокотехнологических проектов по использованию интернет-данных в социальных науках. К примеру, проект Австралийского национального университета «Виртуальная обсерватория по изучению онлайновых сетей»[19] под руководством Р. Акланда создан как научно-исследовательская лаборатория для исследований в области социальных наук на основе интернет. Проект основан Институтом австралийских демографических и социальных исследований австралийского Национального университета с целью расширения сферы социальных наук посредством новых эмпирических исследований в онлайновых сетях.

В 2005 г. команда исследователей из Корнелльского университета под руководством М. Mейси получила грант от Национального научного фонда США в размере 2 млн. долларов для развития сфер применения веб-инструментов в социальных научных исследованиях. Проект является частью международного проекта «Подключение: социальные науки в эпоху сетей (2005–2008 гг.)»[20]. Института Корнелла по социальным наукам. Команда проекта в рамках лаборатории разработала киберинструменты для извлечения и анализа информации из огромной коллекции данных. Источником данных для проектов стал интернет-архив[21], разработанный Б. Кале в 1996 г. (Сан-Франциско) и включающий в себя 40 миллиардов веб-страниц, состоящих из текстов, аудио, видео и программного обеспечения. Некоммерческий интернет-архив собирался каждые два месяца в течение 10 лет с 1996 по 2005 гг. На одном из первых этапов работы в 2007 г. корнельской команде было передано 30% или 200 терабайт данных. Архив представляет собой подробный отчет о событиях и социальной динамике за период 1996 по 2005 г. В рамках проекта можно скопировать и перенастроить большую часть этого массива данных как реляционную базу данных, которая может быть использована для исследований в области социальных и информационных сетей. М. Mейси считает, что «сетевые взаимодействия оставляют цифровые следы, что создает беспрецедентную возможность для исследования социальной жизни на реляционном уровне». Все это должно способствовать исследованиям в социальном анализе сетей и в разработке дополнительных инструментов для дальнейших исследований приложений социальных наук[22].

Таким образом, современная наука становится все более зависимой от генерации и повторного использования огромных массивов данных. Анализ приведенных цифр показывает, что массив мультидисциплинарных данных растет быстрыми темпами и в беспрецедентных масштабах, а существующий «поток данных» может стать неотъемлемым компонентом современной научной инфраструктуры производства знания. На фоне этого растущего энтузиазма не нужно забывать многочисленные проблемы, которые угрожают качеству цифровых данных, их связности, полезности и способам хранения. Работа с цифровыми данными потребует мобилизации ученых для их экспертизы. В данном случае могут возникнуть проблемы в режимах управления системами данных и их продуктами, в контроле качеством цифровых данных и в вопросах авторского права. Особое внимание необходимо уделить моделям данных, которые находятся в ускоренном изменении из-за огромных объемов данных[23]. Это особенно заметно в таких областях, как медико-биологические исследования, где огромные базы данных являются объектом для распределенного анализа. Передача, обработка и хранение огромного объема интернет-данных потребует построения новых научных моделей взамен традиционным.

Ученым необходимы распределенные источники разнообразных типов данных и ресурсов, чтобы анализировать или представлять себе путь исследования. А для этого данные из широкого ряда новых источников должны быть записаны как метаданные, заархивированы и сохранены, чтобы как данные, так и программы могли использоваться и воспроизводиться в будущем. В этой связи Т. Хей и А. Трефэзен [Хей, Трефэзен 2003] рассуждают о создании специального программного обеспечения (Middleware), которое будет посредником между цифровыми данными и технологиями их обработки[24].

Итак, можно сказать, что ландшафт научных данных быстро увеличивается в масштабах и сложности. В настоящее время сотни тысяч новых объектов находятся в цифровых хранилищах и в Интернете, создавая благоприятную возможность для исследовательского процесса не только в науке, но и в медицине, образовании, культуре и управлении.

В связи с тем, что на различных этапах современных исследований образуется огромное количество данных, совместно с понятием «данные» Т. Хей и А. Трефэзен вводят понятие «поток данных» [Хей, Трефэзен 2003]. Понятие «поток данных» возникло в науке одновременно с развитием высокотехнологичных инструментальных исследований в астрономии, молекулярной биологии, экологии, ядерной и атомной физике, химии, медицине социальных и гуманитарных науках и в настоящее время все больше распространяется в другие сферы.

Дж. Майерс считает, что при автоматизации процессов хранения и обработки потоков данных необратимо образуется «поток метаданных». Обеспечение развития системы сохранности данных, их хранения является чрезвычайно трудоемким. Если в ближайшее время возникнет поток метаданных, то он глубоко повлияет на роль инфраструктуры хранения данных[25].

К. Андерсон [Андерсон 2008] высказал весьма категоричную мысль о том, что наука больше не нуждается в теориях, моделях, методологиях, онтологиях, «научный метод» анализа «потока данных» может заменить все выше перечисленное. Для современного производства научного знания необходимо и достаточно качественного алгоритма обработки данных и применение метода корреляции к массиву данных. Заявленная мысль является во многом спорной, но в ней есть момент истины, например, проект по производству высокоэффективного реактивного турбинного двигателя инженерами из General Electric и Политехнического института Rensselaer при использовании генетического алгоритма был разработан за два дня, а по традиционной технологии этот процесс занял бы до пяти лет. В этом случае уместно вспомнить высказывание А. Реньи, согласно которому «математик является машиной для превращения кофе в теоремы, а ученый, возможно, является машиной для превращения данных в понимание», дополнив его тем, что само понимание научного объекта исследования чаще всего выражается в теориях, моделях и методологиях. Также во многих дисциплинах требуется качественная теоретическая база, позволяющая проводить экспериментальные исследования и составлять прогнозы, т.е. вначале выстраивается теоретическая модель исследуемого объекта, под которую осуществляется сбор данных.

Оценивая масштабы научных данных и технологии работы с ними, закономерно возникает вопрос: могут ли влиять потоки данных и метаданных не только на структуру производства современного знания, но и на возникновение новых моделей научного познания и, в целом, на методологию науки?

А. Сзалай и Дж. Грей предложили рассматривать эволюцию научных методов в контексте их соотношения с объемами данных и ориентировочно разделили историю науки на четыре периода по объему используемых данных [Сзалай, Грей 2006]. Первый период начался две с половиной тысячи лет назад, когда данных было совсем мало и наука была эмпирической. В античные времена наука ограничивалась описанием наблюдаемых феноменов и логическими выводами, сделанными на основе наблюдений. Второй период охарактеризовался появлением большего количества данных, в связи с чем появилась возможность для создания теорий, использующих в качестве доказательств те или иные аналитические модели. Затем наука стала вычислительной; компьютеры позволили использовать методы численного моделирования, что ознаменовало появление третьего периода или третьей парадигмы, которая начала распространяться в последние 60 лет.

Четвертому периоду свойственна возможность обработки огромных объемов экспериментальных данных, появление новых научных методов, основанных на их анализе и доминирование синтезирующих теорий. Данные содержат в себе много полезной информации, но их анализ невозможен ни в каком другом виде, кроме как автоматизированного. Согласно прогнозу через десять лет, ориентировочно в 2020 г., наука вступит в свой четвертый этап развития. В результате, эволюцию научных исследований, и каждой дисциплины, в частности, под влиянием ИКТ авторы книги «Четвертая парадигма» разделяют на две ветви – Вычислительная-Х и Х-информатика, где под переменной Х можно обозначить любую научную дисциплину и спрогнозировать ее развитие [Четвертая парадигма 2009].

Например, в современной экологии существует два вида экологии: вычислительная экология и эко-информатика, с возможностями сохранения и анализа экологической информации. Подобное происходит и с биологией, в которой одновременно выделяется вычислительная биология, возможности которой заключены в симуляции работы биологической системы в режиме настоящего времени и биоинформатика, целью которой является сбор и анализ информации полученных в результате множества различных экспериментов.

В химии за последние 60 лет появилась вычислительная химия и за последние 40 лет начиная с 1998 г. хемоинформатика. Вычислительная химия использует результаты классической и квантовой теоретической химии, реализованные в виде эффективных компьютерных программ, осуществляющих компьютерный эксперимент и компьютерное моделирование для вычисления свойств и определения структуры молекулярных систем. Хемоинформатика это научная дисциплина, изучающая применение методов информатики для решения химических проблем.

Прослеживается подобное разделение дисциплин и в гуманитарной науке: вычислительные гуманитарные науки и гуманитарная информатика, которая в последнее время все чаще называется цифровыми гуманитарными науками. Центральной темой «гуманитарных вычислений» как дисциплины должна стать трансформация культурных артефактов и гуманистических подходов в «легко поддающееся вычислительной обработке данные». У. Маккарти подчеркивает роль сферы «гуманитарных вычислений» не в качестве технологического придатка гуманитарной науки, а как еще одного способа получения знаний и эпистемической практики гуманитарных наук [Маккарти 2005, 288].

«Цифровые гуманитарные науки» являются собирательным термином для широкой сферы практик по созданию, применению и интерпретации новых цифровых и информационно-коммуникационных технологий в гуманитарных науках. Эти практики не ограничиваются традиционными гуманитарными сферами, а воздействуют на многие дисциплины, включающие в себя в совокупности историю, антропологию, искусство и архитектуру, информационные науки, кино и медиаисследования, археологию, географию и социальные науки.

Уникальные перемены современности можно обозначить в виде трека «Через Вычислительную-Х к Х-информатике», или, иными словами, через технологии симуляции (моделирования) к технологиям баз данных. А. Китамото рассмотрел эти два подхода следующим образом: Х-информатика это исследование, отвечающее на вопрос «Что это?», а Вычислительная-Х является исследованием, отвечающим на вопрос «Как это может быть?»[26].

Интересно заметить, что Третья (вычислительная) парадигма нашла свое отражение не только в создании новых субдисциплин, вычислительных методов и технологий, но и в разновидности мышления, названного соответственно. Термин «вычислительное мышление» предложен Дж. Уин в 2006 г. [Уин 2006, 33] и успешно распространяется в науке, образовании, культуре и повседневной жизни. Вычислительное мышление описывается как новый вид грамотности, сродни математической или культурной грамотности. Эта эпистемологическая ориентация совместима с вычислительными методами организации и обработки данных и направлена к парадоксу машинного интеллекта – познание каких задач лучше поручать компьютерам, а каких людям.

Вычислительное мышление – мыслительный процесс, включающий в себя формулировку проблем и их разрешений, с тем чтобы решения были представлены в форме, которая может быть эффективно осуществляться при посредничестве информационного технологического процесса. Освоение учеными и инженерами вычислительного мышления представляет несколько ключевых, по мнению Дж. Уин, возможностей, среди которых применение новых вычислительных методов к научным проблемам, «переформатирование» проблем для соответствия вычислительным стратегиям, поиск новых «наук» посредством анализа огромного массива данных, формулировка новых вопросов, которые не были придуманы или возможны из-за масштаба, просто решаемые вычислительно, объяснение проблем и решений в «вычислительных терминах» [Уин 2006, 34].

Г. Китагава подчеркивает, что Вычислительная-Х и Х-информатика отражают вновь созданные индуктивные и дедуктивные методы кибервозможностей, в то время как теоретическая и экспериментальная наука опирается на опыт и знание исследователя [Китагава 2010, 211].

Научный поиск, ориентированный на данные иногда описывают как новую науку Х-информатику, создание которой соответствует четвертому периоду или Четвертой парадигме. А информатика в данном контексте описывается как дисциплина, в рамках которой осуществляется поиск, описание, доступ, интеграция, добыча и анализ разнообразных источников данных для научного поиска.

Необходимо отметить то, что существует научная модель, которая синтезирует основные идеи Третьей и Четвертой парадигмы. Новое научное направление, целью возникновения которого стали вычисления над данными большого объема, получило название Data-Intensive Computing. Проблемное поле Data-Intensive Computing включает в себя две области: управление и обработка экспоненциально возрастающими объемами данных, поступающих в реальном времени в виде потоков данных от приборов, или генерирующихся в ходе имитационного моделирования; и сокращение времени анализа данных для возможности своевременного принятия решений исследователями.

Модели науки, которые воплощают основные положения Четвертой парадигмы, кроме Х-информатики имеют несколько названий: наука, ориентированная на данные, наука управления данными и наука, преобразующая огромные объемы данных.

По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники[27] [Смит 2006, 163]. В пределах научной сферы, наука, ориентированная на данные, становится признанной научной дисциплиной, одним из подтверждением этого является факт, что в настоящее время наука, ориентированная на данные изучается студентами. В университете Мейсона (США) с весны 2008 г. осуществляется набор на новую учебную образовательную программу в области вычислений и науки данных.

Наука, ориентированная на данные, это научная методология или, в частности, методология кибервозможностей, поддерживающая технологии использования огромных массивов данных [Китагава 2010, 211].

Наука о данных включает в себя исследование процессов добычи данных, их анализа, метаданных, быстрого поиска, архивирования, обмена, поиск неожиданных знаний и отношений данных, визуализацию в двух и трех измерениях, включая движение, управление данными, а также права интеллектуальной собственности и другие правовые вопросы [Смит 2006, 163].

Но в качестве исследовательской методологии науке, ориентированной на данные для повышения эпистемического статуса, требуется тщательное осмысление по сравнению с более разработанными научными подходами экспериментирования, теоретического моделирования и симуляции.

Наука управления данными возникла как новая модель, которая позволяет исследователям перейти от экспериментальных, теоретических и вычислительных сетей к новой парадигме для научного поиска, основанного на масштабных Грид-сетях[28]. Наука управления данными состоит из трех основных сфер: добыча, хранение и анализ данных. Данные поступают во всех размерах и видах, сопровождая огромные интернациональные эксперименты, междисциплинарные и однопрофильные лаборатории и индивидуальные исследования.

Наука, преобразующая огромные объемы данных, реализует возможности, которые окажут влияние на все научные и технические приложения. Возрастающий объем цифровых данных и изменение структуры их использования начинают играть все более значимую роль в современном научном познании. Одной из задач создания Petascale Science является организация эффективного доступа к общим цифровым научным данным и к современным информационным инструментам, которые позволяют осуществлять хранение, поиск, визуализацию и высокий уровень анализа данных.

Четвертая парадигма существует не как единственная альтернатива описания развития событий. В научно-исследовательской программе «Электронная наука» (e-Science, страны Европы) в рамках подхода, ориентированного на данные, развивается модель «наука интенсивных данных». В «науке интенсивных данных» используется подход «управления данными», в котором информация образуется посредством данных, как противопоставление более традиционному подходу «управление знаниями», который проверяет систему гипотез, рассчитанную посредством данных [Ньюмен 2003, 68].

Одним из четырех компонентов национальной стратегии США, названной как «Киберинфраструктура для науки и техники XXI в.[29]» (CIF21) является наука, расширенная возможностями обработки данных. В свою очередь наука, расширенная возможностями обработки данных, выстраивается из трех элементов: услуги по обработке данных, анализ данных и наука интенсивных данных.

«Киберинфраструктура для науки и техники XXI в.» создает существенные основания для программы исследований «Вычисления и данные, дополняющие науку и технику» (CDS&E), которая осуществляется как в дисциплинарных, так в междисциплинарных исследовательских средах. Программа исследований «Вычисления и данные, дополняющие науку и технику» 2010 г. соотносится с дисциплинарными программами в других подразделениях и офисах Национального научного фонда США. Данная программа позиционируется специалистами как особая интеллектуальная и технологическая дисциплина, находящаяся на пересечении математики, статистики, компьютерных наук и технических дисциплин. Это открывает путь по созданию и использованию вычислительных методов, методов анализа данных и управления системами расширяющих научный поиск и инженерные инновации[30].

Итак, в современной науке существуют подходы, парадигма, модели, ориентированные на цифровые данные. Цифровые данные являются не только результатом исследований в одной науке, представленные в виде баз данных, банков данных, электронных коллекций, цифровых документов и изображений, многомерных цифровых массивов и т.д., но и «материалом» для проведения изысканий в других дисциплинах. Вследствие синтеза «старых» и «новых» данных могут возникнуть новые возможности в конструировании объекта научного исследования. Огромный по масштабу поток цифровых данных создает потенциал для решения «старых» методологических проблем с помощью «новых» подходов в поле различных дисциплин: астрономии, биоинформатики, экологических наук, ядерной и атомной физики, медицине, социальных и гуманитарных науках. До недавнего времени данные являлись лишь (статичными) продуктами научных исследований, но в настоящее время они не только «капитал» ученого, промежуточный результат его исследования, но и движущая сила для создания научных продуктов другого уровня (динамичных) таких как интернет-сервисы, сетевые научные инструменты и модели.

Возрастающий объем цифровых данных и изменение структуры их использования начинают играть более значимую роль в современном научном познании. Научно-исследовательскую деятельность в настоящее время все больше следует рассматривать в прямой зависимости от эффективного доступа к общим цифровым научным данным и к современным информационным инструментам, которые позволяют осуществлять хранение, поиск, визуализацию и высокий уровень анализа данных.

Литература

Андерсон 2008 Anderson C. The end of theory: The data deluge makes the scientific method obsolete // Wired. 2008. Vol. 16 (7). P. 108–109.

Боргман 2007 Borgman C.L. Scholarship in the Digital Age: Information, Infrastructure, and the Internet. Cambridge, MA: MIT Press, 2007.

Все также много 2010 – All too much // The Economist – A Special Report on Managing Information. 2010. P. 3.

Китагава 2010 Kitagawa G. Data Centric Science for Information Society / Econophysics Approaches to Large-Scale Business Data and Financial Crisis: Proceedings of Tokyo Tech-Hitotsubashi Interdisciplinary Conference + APFA7. Takayasu H. (Editor), Takayasu M. (Editor), Watanabe T. (Editor). Springer, 2010.

Ньюмен 2003 Newman H.B., Ellisman M.H., Orcutt J.A. Data-intensive e-science frontier research // Communications of the ACM 46. 2003. №11. P. 68–77.

Маккарти 2005 – McCarty W. Humanities Computing. London, New-York: Palgrave, 2005.

Описание модели для открытой архивной информационной системы 2002 Reference Model for an Open Archival Information System. Recommendation for Space Data System Standards. Washington: Consultative Committee for Space Data Systems Secretariat, Program Integration Division (Code M-3), National Aeronautics and Space Administration, 2002.

Сзалай, Грей 2006 Szalay A., Gray J. 2020 Computing: Science in an exponential world // Nature. 2006. Vol. 440. P. 413–414.

Смит 2006 – Smith F.J. Data Science as an Academic Discipline // Data Science. 2006. № 5. P. 163-164.

Хей, Трефэзен 2003 Hey A., Trefethen A. The data deluge: An e-Science perspective / F. Berman, G.C. Fox, & A. Hey (Eds.). Grid computing: Making the global infrastructure a reality. Chichester: Wiley. 2003. P. 809–824.

Хине 2006 Hine C. Databases as scientific instruments and their role in the ordering of scientific work // Social Studies of Science. 2006. №36 (2). P. 269298.

Четвертая парадигма 2009 The fourth paradigm: data-intensive scientific discovery. Edited by T. Hey, S. Tansley, K. Tolle. Redmond, Washington: Microsoft Research. 2009.

Уин 2006 – Wing J.M. Computational Thinking // Communications of the ACM, CACM. 2006. Vol. 49. No. 3. P. 33–35.

Эрбах 2006 Erbach G. Data-centric view in e-Science information systems // Data Science Journal. 2006. Vol. 5. P. 219222.



Примечания

[1] Где жизнь, которую мы потеряли в существовании? 
   Где мудрость, которую мы потеряли в море знании? 
   Где знания, которые мы потеряли в потоке информации? 

Т. С. Элиот(18881965), Рок (1934).

[2] Данную цепочку ввел Т. Розак в 1986 г. в своем труде «The Cult of Information: The Folklore of Computers and the True Art of Thinking».

[3] Gantz J., Reinsel D. The Digital Universe Decade – Are You Ready? May 2010 http://www.emc.com/digital_universe

[4] We knew web was big, http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html

[5] YouTube, http://en.wikipedia.org/wiki/YouTube

[7] Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century. National Science Board. 2005 http://www.nsf.gov/pubs/2005/nsb0540/ 

[8] Manovich L. Cultural Analytics. Software Studies Initiative, University of California, San Diego. 2009 http://lab.softwarestudies.com/2008/09/cultural-analytics.html

[9] Borne K. D. Astroinformatics: The New Science Paradigm for Astronomy Research and Education. Microsoft Science Workshop at RENCI 2007.

[10] NVO, http://www.nvo.org; AVO, htpp://www.eso.org/avo; AstroGrid, http://www.astrogrid.ac.uk

[12] Goddard Space Flight Center, GSFC, http://www.nasa.gov/centers/goddard/home/index.html

[13] NASA’s Earth Observing System Data and Information System, http://eospso.gsfc.nasa.gov/

[14] European Space Agency (ESA), http://www.esa.int/esaCP/index.html

[15] Large Hadron Collider, LHC, http://lhcgrid.web.cern.ch/LHCgrid

[16] GridPP: http://www.gridpp.ac.uk/, Griphyn: http://www.griphyn.org/, The Particle Physics DataGrid: http://www.ppdg.net/

[18] InSiteOne, http:// www.Insiteone.com

[19] Virtual Observatory for the Study of Online Networks, VOSON, http://voson.anu.edu.au

[20] Getting Connected: Social Science in the Age of Networks, http://www.socialsciences.cornell.edu/

[21] Internet Archive, www.archive.org

[22] Aloi D. Internet data streaming into Cornell will provide new insights into social networks. 2005 http://www.news.cornell.edu/stories/May06/ISS.networktheme.dea.html

[23] Schneider M. From TeraGrid to Clouds: Reed Opens TeraGrid '08 http://www.teragrid.org/news/news08/reed.html

[24] В качестве примера такого типа программного обеспечения выделяют сервисы SRB, The Storage Resource Broker, http://www.npaci.edu/DICE/SRB и Globus middleware, Globus project, http://www.globus.org

[25] Myers J. D. The Coming Metadata Deluge. Whitepaper for the NSF-sponsored New Collaborative Relationships: The Role of Academic Libraries in the Digital Data Universe Workshop. http://www.arl.org/bm~doc/metadata.pdf

[27] CODATA (Committee on Data for Science and Technology) http://www.codata.org/

[28] Распределенные вычисления (grid computing) называют также сетевыми, коллективными, параллельными вычислениями, или «решетками» вычислительных ресурсов. Идея распределенных вычислений родилась по аналогии с универсальной концепцией электрических сетей. Более полувека назад было отмечено, что для повышения устойчивости работы энергетических систем, генерирующие электрический ток машины следует подключать параллельно; кроме того, за счет параллельной работы удавалось и повысить производительность систем в целом. Если вместо электричества подставить вычислительные ресурсы, как раз и получится концепция распределенных вычислений. Концепция GRID подразумевает разработку универсального пользовательского интерфейса к распределенным ресурсам из любой точки планеты. Технологии распределенных вычислений охватывают практически весь мир и включают в себя около пятидесяти тысяч процессоров, связанных высокоскоростными (от 1 Гбит/с) каналами и имеют общее дисковое пространство объемом более 10 петабайт.

[29]Cyberinfrastructure Framework for 21st Century Science And Engineering (CIF21) http://www.sura.org/news/2011/DevS05.pdf

[30] Computational and Data-Enabled Science and Engineering (CDS&E) 2010 http://www.nsf.gov/mps/cds-e/

 
« Пред.   След. »