AstronetSAI

Сервисно-Ориентированная Архитектура Современной Астрономии

Олег Бартунов, научный сотрудник, ГАИШ МГУ

Гранты РФФИ: 96-07-89395-в, 99-07-90069-в, 02-07-90222-в, 05-07-90225-в

Проект посвящен анализу проблем в информационной инфраструктуре современной науки и поиску путей их преодоления.

Повсеместное распространение интернет, ускорение и унификация доступа к информации и т.п. привело к формулированию концепции киберобщества (информационного общества) как реалистичного сценария постиндустриального общества - новой исторической фазы развития цивилизации, в которой главными продуктами производства являются информация и знания. Большинство исследований этого общества носят социологический характер, однако, одновременно ведутся практические разработки базовых элементов и технологий, необходимых для его возникновения. В США объявлена поддержанная NSF программа CDI (The Cyber-enabled Discovery and Innovation initiative) , сформирован гражданский комитет по проблемам киберобщества.

Составной частью информационного общества является так называемая e-Science - синтез науки и информатики, наступающий когда роль информации и ее обработки в научных исследованиях становится превалирующей. Переход на e-стадию (информационную стадию) развития - реальная ситуация, затронувшая на сегодняшний день ряд естественных наук, оперирующих огромными объемами информации: физика (в первую очередь исследование элементарных частиц и физика высоких энергий), геофизика и геология, астрономия, биология, экономика, медицина. (Другие науки еще не достигли, но неизбежно придут к этому состоянию.)

Причины "информационного взрыва" в астрономии обусловлены следующими факторами:

  • Астрономия стала всеволновой. Начиная с 70-х годов прошлого века наблюдения астрономических объектов ведутся не только в видимом свете, как раньше, а во всем диапазоне электромагнитного спектра, также регистрируются другие виды частиц и сигналов.
  • Астрономические данные хранятся бесконечно долго. Так как данные астрономических наблюдений привязываются к конкретным объектам, то их необходимо хранить пока эти объекты существуют. Времена эволюции астрономических объектов очень велики, в обыденном смысле с хорошей точностью могут считаться бесконечными. На сегодня существуют объекты, для которых существуют более чем столетние ряды наблюдений: Солнце, яркие переменные звезды. Для первого открытого двойного радиопульсара PSR1913+16 имеется почти непрерывный ряд наблюдений длиной в 33 года (на этих данных "защищены" 2 Нобелевские Премии). Для большинства достаточно ярких объектов история их наблюдений в различных диапазонах электромагнитного спектра составляет 10-15-20 лет, основываясь на данных многочисленных обзоров неба.
  • Астрономия снова стала широкопольной. До конца XIX века наблюдения велись визуальным способом и давали информацию об отдельных объектах: одно наблюдение - один объект. Ситуация изменилась с появлением фотографии, на фотопластинках одновременно фиксировалось большое количество объектов. Ценность этой информации была ясна с самого начала, астрономические фотопластинки, заснятые с последней четверти XIX до конца XX века, хранятся в так называемых "стеклянных библиотеках" (сейчас ведутся работы по их переводу в электронный вид - сканированию - см. проект 05-02-16688). Во второй половине прошлого века широкопольную астрофотографию потеснили гораздо более точные электронные методы фотометрии (ФЭУ. фотоэлементы, ЭОП, фотодиоды и пр.), в которых, однако, одновременно можно было наблюдать только один объект (или небольшое количество объектов). Возвращение к "широкопольности" произошло после появления ПЗС-матриц большого размера. Сегодня одно наблюдение, длящееся от нескольких секунд до нескольких минут, дает от нескольких мегабайт до нескольких гигабайт информации.
  • Политика доступа к информации. Данные всех космических и наземных экспериментов NASA, ESA и частично ESO становятся публично доступными спустя 1 год после их получения. В течение уже 10 лет КТБТ (Комитет по Тематике Больших Телескопов - занимается распределением наблюдательного времени на крупнейших оптических инструментах России) требует открытия данных через 2 года после их получения.
  • Этому же способствует так называемая "Early Science"("Быстрая наука"): необходимость исследовать и публиковать полученные данные в строго определенный срок для того, чтобы успеть подготовить и подать успешную заявку на следующий цикл исследований. Это приводит к предельной интенсификации изучения полученных данных, но, одновременно, делает его существенно более поверхностным.

Доступ к информации осложнен тем, что результаты наблюдений хранятся в неоднородных распределенных архивах. Разнородность архивов определяется тем, что они создавались независимо и были ориентированы на различные эксперименты со своими целями. Распределенность информации связана со следующими причинами:

  • На сегодняшний день нет (а скорее всего, не будет и в будущем) технических возможностей содержать всю астрономическую информацию в одном хранилище из-за слишком больших объемов информации.
  • Создание нескольких копий информации в различных местах повышает надежность хранения информации.
  • Распределенное хранение и наличие копий снижает нагрузку на сеть и повышает скорость доступа к информации.
  • Необходимость обработки данных определенного эксперимента требует их локализации на достаточно длинный срок для быстрого доступа.
  • В некоторых случаях распределенное хранение информации возникает по "физическим" причинам: Например, в эксперименте SNAP (орбитальный телескоп) большой поток информации и отсутствие существенных объемов памяти на борту обсерватории приводит к построению распределенной системы центров по приему и дальнейшему хранению данных

Кроме того, астрономы стали работать с бОльшим количеством объектов, что делает интерактивную работу с хранилищами данных крайне неэффективной. Необходимость взаимодействия со многими хранилищами данных (географически удаленные центры данных, разные каталоги) делает интерактивную работу практически невозможной.

Таким образом, на примере астрономии видна необходимость новых методов научных исследований и новой информационной инфраструктуры, способной обеспечить унифицированный доступ к разнородным и распределенным очень большим хранилищам слабо-структурированной информации. При этом, на первый план выступают методы, основанные на программном, неинтерактивном доступе к информации, способные перерабатывать огромные её объемы. Другими словами, непосредственный доступ ученого к данным заменяется на взаимодействие программ - программы, работающей от лица ученого и программы, которая предоставляет сервисы доступа к данным.

Одним из наиболее перспективных направлений развития информационной инфраструктуры науки на данном этапе, обеспечивающий такое взаимодействие, считается переход к сервисно-ориентированной архитектуре (SOA), которая является естественным результатом эволюции архитектур компьютерных вычислений, таких как монолитные и однопользовательские программы, клиент-серверной архитектуры, архитектур с общей шиной CORBA, COM/DCOM, JAVA/RMI. Не отрицая традиционные методы, она предлагает возможность программного доступа к данным, обеспечивая открытые стандарты на протоколы передачи и форматы данных, использование семантической информации, описание и обнаружение ресурсов.

В астрономии сервисно-ориентированная архитектура получила название Виртуальной Обсерватории. Международный Альянс Национальных Виртуальных Обсерваторий (http://www.ivoa.net) координирует деятельность национальных ВО и занимается разработкой стандартов и протоколов, специфических для астрономии. Основной задачей Виртуальной Обсерватории является обеспечение астронома данными независимо от способа и места их хранения, а также инструментами для поиска закономерностей и анализа данных. Таким образом, Виртуальная Обсерватория предоставит астроному уникальное средство исследования космоса - Всемирный Телескоп, который будет доставлять данные независимо от погодных условий !

Однако, подобное счастливое будущее зависит от решения вполне практических задач, таких как построение шкалируемой инфраструктуры астрономических центров данных, способных хранить терабайты, а обозримом будущем и петабайты данных, организация программного доступа к ним, создание хранилища метаданных, способного решать сложные задачи информационного поиска.

Для российской астрономии, которая после распада Советского Союза потеряла почти все наблюдательные базы, задача интеграции в мировое астрономическое сообщество жизненно важна, так как практически все существующие центры данных ориентируются на новую технологию, а новые проекты полностью ориентированы на новые стандарты описания, хранения и доступа к данным. Поэтому доступ к данным очень скоро превратится в то узкое место, которое будет мешать научным исследованиям. При этом проблема будет не в качестве каналов связи, не в доступности архивов, а в совместимости информационной инфраструктуры российской науки и международного сообщества. Новые российские проекты необходимо с самого начала ориентировать на такую совместимость.

Осознавая необходимость развития информационных технологий в астрономии, в ГАИШ МГУ еще в 90-х была создана рабочая группа "Информационные технологии в астрономии" под руководством Бартунова О.С., которая занималась как практическими задачами организации информационных сервисов, интернет технологий, так и разработкой программных компонент информационной архитектуры, таких как очень большие базы данных, расширяемость баз данных, методы работы со слабоструктурированными данными, технологии высоконагруженных информационных систем с общей шиной, тематические поисковые машины, организация распределенной электронной редакции, средства обеспечения непрерывной разработки информационных систем, методы распространения научной информации в интернете, методы навигации в научных порталах. Многие результаты получили широкую известность среди специалистов. В частности, работы по расширяемости баз данных вошли в популярную СУБД PostgreSQL, которая используется в большом количестве научных проектов, несколько участников проекта являются ее ведущими разработчиками. Технологии высоконагруженных информационных систем нашли применение в ряде ведущих российских порталов.

Проект "Астронет (http://www.astronet.ru) ГАИШ МГУ при поддержке РФФИ ( гранты 96-07-89395-в, 99-07-90069-в, 02-07-90222-в, 05-07-90225-в ) с самого начала ставил задачи, нацеленные на исследование и применение информационных технологий в науке (астрономия), рассматривая практическое применение результатов, полученных в ходе исследований, как важнейший фактор успешности проекта. Информационные системы в естественных науках не являются частью этих наук, однако они представляют собой очень удобные (а сегодня уже и незаменимые) инструменты исследования, они являются научной инфраструктурой, без которой эффективное развитие науки сегодня уже невозможно. Вопросы научно-информационного обмена неотделимы от всего процесса развития науки в целом, они возникли и развиваются вместе с ней. Многовековая практика развития науки показала необходимость сбалансированного развития всех доступных методов научных коммуникаций, от личного общения специалистов, занимающихся одной и той же задачей, специальных семинаров, конференций и симпозиумов, включающих значительно более широкий круг специалистов, зачастую представляющих несколько смежных наук, и до таких ориентированных на значительно более широкую аудиторию форм, как написание учебников, научно-популярных книг и статей ведущими специалистами. К этим "классическим" методам обмена информацией современная информатика и, в первую очередь, интернет добавили очень и очень много. За время существования нашего проекта произошли уже описанные изменения в науке, изменились возможности интернета (бОльшие скорости, бОльшая доступность), рос наш опыт (мы многому научились, на проекте выросло поколение молодых специалистов, активно занимающихся сейчас научными и смежными вопросами). Соответственно, проект прошел несколько стадий.

1). Вначале было создано хранилище информации институтского уровня с передовыми на тот момент средствами доступа: ftp- и web-серверами, с продуманной структурой и интересным (до сих пор) содержанием.

2). Затем оно превратилось в цифровую библиотеку в связи с появлением в сети большого количества научной информации, которую требовалось уметь хранить, организовывать поиск информации.

3). Немного позже, когда в проект были введены средства для создания собственных электронных публикаций и ряд полезных интерактивных приложений (системы on-line расчетов фиксированных событий, новостные ленты, поисковая система по российским астрономическим ресурсам и пр.) проект развился в Отраслевой Астрономический Портал (который с момента своего появления и по настоящее время остается самым популярным русскоязычным астрономическим ресурсом). Портал является технологическим средством, позволяющим максимально эффективно, оперативно и квалифицированно доносить современную научную информацию до всех заинтересованных в ней читателях - ученых, инженеров, аспирантов, студентов. Его важность для астрономии определяется большим количеством новых открытий в современной астрономии, которые невозможно охватить традиционными печатными изданиями, все более узкой специализацией астрономов-профессионалов, для которых портал дает возможность ознакомиться с новостями в смежных областях.

4). И, наконец, в последние годы в рамках проекта появилась и стала интенсивно развиваться Виртуальная Обсерватория - сервисно-ориентированный источник астрономической информации, содержащий самые современные данные и каталоги и работающий по стандартам, разработанным Международным Альянсом Виртуальных Обсерваторий, в который входит и Россия. Сервер проекта http://vo.astronet.ru является крупнейшим в России и Европе центром астрономических данных, работающим по стандартам Виртуальной Обсерватории. Он входит в консорциум Российской Виртуальной Обсерватории. Проект состоит из многотерабайтного хранилища астрономических каталогов, а также ряда веб-сервисов, предоставляющих доступ к хранилищу и реализующих основные астрономические запросы. Отметим, что многие из этих каталогов в России существуют в единственном экземпляре, так как организация подобного хранилища является серьезной инженерной задачей и требует значительного финансирования и наличия квалифицированных специалистов. Поэтому организация свободного доступа к таким каталогам является очень важной для российских астрономов и первоочередной задачей нашего проекта. Кроме того, мы предоставляем полнотекстовый поиск по электронным архивам препринтов с распознаванием астрономической терминологии и номенклатуры названий астрономических объектов, и службу уточнения координат объектов на астрономических изображениях.

Сайт проекта "Астронет" входит в топ-400 всех российских сайтов (из примерно 100,000 сайтов) и в топ-20 всех научных сайтов по независимой оценке рейтинга Yandex. По результатам голосования астрономического сообщества портал ежегодно занимает первые места по номинациям "Лучший астрономический сайт" и "Лучший образовательный астрономический сайт". Ежемесячно сайт проекта посещают около 130-180 тысяч уникальных посетителей, которые читают 2-3 миллиона страниц (запросы от поисковых роботов в статистике не участвуют).

Результаты работы были опубликованы в научных статьях и представлены как на российских, так и на международных конференциях. С помощью Виртуальной Обсерватории ГАИШ в нашей Галактике были открыты два шаровых скопления с очень слабой светимостью. Разработанные технологические решения свободно доступны и используются в других проектах.

Развитие проекта предполагает

  • дальнейшее расширение хранилища данных за счет дополнительных каталогов многоволновой астрономии,
  • предоставление гибкого программного интерфейса доступа к данным, дальнейший системный анализ существующих проблем в информационной научной инфраструктуре и выработку предложений по их преодолению. Например, необходимость соблюдения принципов ведения научных исследований в современных условиях, таких как фундаментальная основа науки - принцип воспроизводимости научных результатов, что не очевидно, когда данные могут измениться в любой момент времени. Действительно, как предоставить рецензенту возможность проверки научных результатов, если данные уже поменялись или изменились условия доступа к ним. Как обеспечить аутентичность данных в условиях, когда данные не находятся в напечатанном томе, а хранятся во многих экземплярах в разных хранилищах. Как обеспечить целостность и связность данных со сложной структурой.
  • Планируется продолжить исследования алгоритмов работы с многотерабайтными базами данных. Здесь астрономическая специфика состоит в том, что практически все данные (наблюдения) характеризуются сферическими координатами, и все запросы являются пространственными, что требует специализированных эффективных алгоритмов.
  • Помимо атрибутного поиска в базах данных, большое значение приобретает поиск по документам, так как много данных хранится в текстах и необходимо развивать алгоритмы информационного поиска с учетом астрономической специфики. За годы работы портал Астронет накопил более 30 тысяч оригинальных документов, прошедших процедуру редактирования. Этот корпус документов является идеальным материалом для задач информационного поиска, таких как автоматическая классификация документов, поиск похожих документов, построение и использование тематических тезаурусов.
  • В связи с тем, что через несколько лет войдет в строй 2.5-метровый телескоп ГАИШ под Кисловодском, большое значение приобретает организация pipeline - конвейера обработки наблюдательных данных, чтобы данные могли как можно раньше стать доступными для научных исследований. Это включает в себя алгоритмы автоматического определения координат объектов, поиска новых объектов в изображениях, хранения и доступа к данным. Многие задачи требуют эффективного программного доступа к большим каталогам, который может быть предоставлен технологиями Виртуальной Обсерватории. Интеграция новой обсерватории во Всемирный Телескоп неминуемо требует соблюдение стандартов Виртуальной Обсерватории, что делает наши исследования востребованными в ближайшем будущем.

В заключение хочется подчеркнуть роль РФФИ в целом и 7-го отдела в частности в развитии нашего проекта и многих других, определивших уровень информационной инфраструктуры в российской науке, столь необходимый для современных научных исследований. Кроме того, многолетняя поддержка позволила вырастить целое поколение специалистов, которые сейчас определяют новые рубежи информационной инфраструктуры общества.