AstronetSAIShort

Last edit

Changed:

< общества; новой исторической фазой развития цивилизации, в которой

to

> общества - новой исторической фазы развития цивилизации, в которой

Changed:

< XX хранятся в так называемых "стеклянных библиотеках". Во второй половине прошлого века широкопольную

to

> XX века хранятся в так называемых "стеклянных библиотеках". Во второй половине прошлого века широкопольную

Changed:

< спустя 1 год после их получения. Последние 10 лет КТШТ (Комитет по
< Тематике Шестиметрового Телескопа - занимается распределением

to

> спустя 1 год после их получения. Последние 10 лет КТБТ (Комитет по
> Тематике Больших Телескопов - занимается распределением

Changed:

< принял положение об открытии данных через 2 года после их получения.

to

> требует открытия данных через 2 года после их получения.

Changed:

< наука"): требование исследовать и опубликовать полученные данные в строго

to

> наука"): необходимость исследовать и публиковать полученные данные в строго

Changed:

< * На сегодняшний день нет (и, по-видимому, на будет и в будущем)

to

> * На сегодняшний день нет (а скорее всего, не будет и в будущем)

Changed:

< "физическим причинам": Например, в эксперименте SNAP (орбитальный

to

> "физическим" причинам: Например, в эксперименте SNAP (орбитальный

Changed:

< что делает интерактивную работу с хранилищами данных крайне неэффективной. Необходимость работы с несколькими хранилищами
< данными (географически удаленные центры данных, разные каталоги)

to

> что делает интерактивную работу с хранилищами данных крайне неэффективной. Необходимость взаимодействия со многими хранилищами
> данных (географически удаленные центры данных, разные каталоги)

Changed:

< Таким образом, на примере астрономии, видна необходимость новых методов научных

to

> Таким образом, на примере астрономии видна необходимость новых методов научных

Changed:

< выработкой стандартов и протоколов, специфических для астрономии.

to

> разработкой стандартов и протоколов, специфических для астрономии.

Changed:

< а также инструментом для поиска закономерностей и анализа данных.

to

> а также инструментами для поиска закономерностей и анализа данных.

Changed:

< а новые проекта полностью ориентированы на новые стандарты описания, хранения и
< доступа к данным. Поэтому доступ к данным совсем скоро превратится в то узкое
< место, которое будет мешать научным исследованиям. При этом, проблема будет

to

> а новые проекты полностью ориентированы на новые стандарты описания, хранения и
> доступа к данным. Поэтому доступ к данным очень скоро превратится в то узкое
> место, которое будет мешать научным исследованиям. При этом проблема будет

Changed:

< исследования, они являются научной инфраструктурой, без которой эффективное

to

> исследования, однако они являются научной инфраструктурой, без которой эффективное

Changed:

< 1). Сначала это было хранилище информации институтского уровня с передовыми на

to

> 1). Вначала было создано хранилище информации институтского уровня с передовыми на

Changed:

< 2). Затем он превратился в цифровую библиотеку - в связи с появлением в сети

to

> 2). Затем оно превратилось в цифровую библиотеку - в связи с появлением в сети

Changed:

< система по российским астрономическим ресурсам и пр.) проект превратился в
< Отраслевой Астрономический Портал (который с первого года и по настоящее

to

> система по российским астрономическим ресурсам и пр.) проект развился в
> Отраслевой Астрономический Портал (который с момента его появления и по настоящее

Changed:

< позволяющего максимально эффективно, оперативно и квалифицированно

to

> позволяющим максимально эффективно, оперативно и квалифицированно

Changed:

< источник астрономической информации, содержащей самые современные данные и
< каталоги, и работающий по стандартам, разработанным Международным Альянсом
< Виртуальных Обсерваторий, в которых входит и Россия. Сервер проекта

to

> источник астрономической информации, содержащий самые современные данные и
> каталоги и работающий по стандартам, разработанным Международным Альянсом
> Виртуальных Обсерваторий, в который входит и Россия. Сервер проекта

Changed:

< астрономических данных, работающий по стандартам Виртуальной Обсерватории.

to

> астрономических данных, работающим по стандартам Виртуальной Обсерватории.

Changed:

< многотерабайтного хранилища астрономических каталогов, ряда веб-сервисов,
< предоставляющие доступ к хранилищу и реализующие основные астрономические
< запросы. Отметим, что многие каталоги существуют в единственном экземпляре

to

> многотерабайтного хранилища астрономических каталогов, а также ряда веб-сервисов,
> предоставляющих доступ к хранилищу и реализующие основные астрономические
> запросы. Отметим, что многие из этих каталогов существуют в единственном экземпляре

Changed:

< инженерной задачей и требует значительного финансирования и наличие

to

> инженерной задачей и требует значительного финансирования и наличия

Changed:

< задачей нашего проекта. Также, мы предоставляем полнотекстовый поиск по

to

> задачей нашего проекта. Кроме того, мы предоставляем полнотекстовый поиск по

Changed:

< и номенклатуры названий астрономических объектов, службу уточнения

to

> и номенклатуры названий астрономических объектов и службу уточнения

Changed:

< по независимой оценке рейтинга Yandex. По ежегодным голосованиям

to

> по независимой оценке рейтинга Yandex. По результатам голосованиям

Changed:

< конференциях как российских, так и международных. С помощью Виртуальной

to

> конференциях как на российских, так и на международных. С помощью Виртуальной

Changed:

< очень слабой светимостью. Технологические решения доступны и используются

to

> очень слабой светимостью. Разработанные технологические решения доступны и используются

Changed:

< программного интерфейса к данным, дальнейший системный анализ существующих

to

> программного интерфейса доступа к данным, дальнейший системный анализ существующих

Changed:

< информационной научной инфраструктуре и выработка предложений по их преодолению.Например, необходимость соблюдение принципов ведения научных исследований
< в современных условиях, таких как фундаментальный принцип науки -
< принцип воспроизводимости научных результатов, что не очевидно

to

> информационной научной инфраструктуре и выработку предложений по их преодолению.Например, необходимость соблюдения принципов ведения научных исследований
> в современных условиях, таких как фундаментальная основа науки -
> принцип воспроизводимости научных результатов, что не очевидно,

Changed:

< пространственными, что требует специальных эффективных алгоритмов.

to

> пространственными, что требует специализированных эффективных алгоритмов.

Changed:

< прошедшие через редакторов. Этот корпус документов
< является идеальным материалом для задач информационного поиска, таких как,

to

> прошедших процедуру редактирования. Этот корпус документов
> является идеальным материалом для задач информационного поиска, таких как

Changed:

< хранения и доступ к данным. Многие задачи требуют эффективного и программного

to

> хранения и доступа к данным. Многие задачи требуют эффективного и программного

Changed:

< В заключении хочется подчеркнуть роль РФФИ в целом, и 7-го отдела в частности в
< развитии нашего проекта и многих других, которые определили тот уровень

to

> В заключение хочется подчеркнуть роль РФФИ в целом и 7-го отдела в частности в
> развитии нашего проекта и многих других, определивших тот уровень


Сервисно-Ориентированная Архитектура Современной Астрономии

Олег Бартунов, научный сотрудник, ГАИШ МГУ

Гранты РФФИ: 96-07-89395-в, 99-07-90069-в, 02-07-90222-в, 05-07-90225-в

Проект посвящен анализу проблем в информационной инфраструктуре современной науки и поиску путей их преодоления.

Повсеместное распространение интернет, ускорение и унификация доступа к информации и т.п. привело к формулированию концепции киберобщества (информационного общества) как реалистичного сценария постиндустриального общества - новой исторической фазы развития цивилизации, в которой главными продуктами производства являются информация и знания.

Составной частью информационного общества является так называемая e-Science - синтез науки и информатики, наступающий когда роль информации и ее обработки в научных исследованиях становится превалирующей. Переход на e-стадию (информационную стадию) развития - реальная ситуация, затронувшая на сегодняшний день ряд естественных наук, оперирующих огромными объемами информации: физика (в первую очередь исследование элементарных частиц и физика высоких энергий), геофизика и геология, астрономия, биология, экономика, медицина.

Причины "информационного взрыва" в астрономии обусловлены следующими факторами:

  • Астрономия стала всеволновой. Начиная с 70-х годов прошлого века наблюдения астрономических объектов ведутся не только в видимом свете, как раньше, а во всем диапазоне электромагнитного спектра, также регистрируются другие виды частиц и сигналов.
  • Астрономические данные хранятся бесконечно долго. Так как данные астрономических наблюдений привязываются к конкретным объектам, то их необходимо хранить пока эти объекты существуют. Времена эволюции астрономических объектов очень велики, в обыденном смысле с хорошей точностью могут считаться бесконечными.
  • Астрономия снова стала широкопольной. До конца XIX века наблюдения велись визуальным способом и давали информацию об отдельных объектах: одно наблюдение - один объект. Ситуация изменилась с появлением фотографии, на фотопластинках одновременно фиксировалось большое количество объектов. Ценность этой информации была ясна с самого начала, астрономические фотопластинки, заснятые с последней четверти XIX до конца XX века хранятся в так называемых "стеклянных библиотеках". Во второй половине прошлого века широкопольную астрофотографию потеснили гораздо более точные электронные методы фотометрии в которых, однако, одновременно можно было наблюдать только один объект (или небольшое количество объектов). Возвращение к "широкопольности" произошло после появления ПЗС-матриц большого размера. Сегодня одно наблюдение, длящееся от нескольких секунд до нескольких минут, дает от нескольких мегабайт до нескольких гигабайт информации.
  • Политика доступа к информации. Данные всех космических и наземных экспериментов NASA, ESA и частично ESO становятся публично доступными спустя 1 год после их получения. Последние 10 лет КТБТ (Комитет по Тематике Больших Телескопов - занимается распределением наблюдательного времени на крупнейших оптических инструментах России) требует открытия данных через 2 года после их получения.
  • Этому же способствует так называемая "Early Science"("Быстрая наука"): необходимость исследовать и публиковать полученные данные в строго определенный срок для того, чтобы успеть подготовить и подать успешную заявку на следующий цикл исследований. Это приводит к предельной интенсификации изучения полученных данных, но, одновременно, делает его существенно более поверхностным.

Доступ к информации осложнен тем, что результаты наблюдений хранятся в неоднородных распределенных архивах. Разнородность архивов определяется тем, что они создавались независимо и были ориентированы на различные эксперименты со своими целями. Распределенность информации связана со следующими причинами:

  • На сегодняшний день нет (а скорее всего, не будет и в будущем) технических возможностей содержать всю астрономическую информацию в одном хранилище из-за слишком больших объемов информации.
  • Создание нескольких копий информации в различных местах повышает надежность хранения информации.
  • Распределенное хранение и наличие копий снижает нагрузку на сеть и повышает скорость доступа к информации.
  • Необходимость обработки данных определенного эксперимента требует их локализации на достаточно длинный срок для быстрого доступа.
  • В некоторых случаях распределенное хранение информации возникает по "физическим" причинам: Например, в эксперименте SNAP (орбитальный телескоп) большой поток информации и отсутствие существенных объемов памяти на борту обсерватории приводит к построению распределенной системы центров по приему и дальнейшему хранению данных

Кроме того, астрономы стали работать с бОльшим количеством объектов, что делает интерактивную работу с хранилищами данных крайне неэффективной. Необходимость взаимодействия со многими хранилищами данных (географически удаленные центры данных, разные каталоги) делает интерактивную работу практически невозможной.

Таким образом, на примере астрономии видна необходимость новых методов научных исследований и новой информационной инфраструктуры, способной обеспечить унифицированный доступ к разнородным и распределенным очень большим хранилищам слабо-структурированной информации. При этом, на первый план выступают методы, основанные на программном, неинтерактивном доступе к информации, способные перерабатывать огромные её объемы.

Одним из наиболее перспективных направлений развития информационной инфраструктуры науки на данном этапе считается переход к сервисно-ориентированной архитектуре, которая обеспечивает доступ к информационным системам стандартными и унифицированными средствами.

В астрономии сервисно-ориентированная архитектура получила название Виртуальной Обсерватории. Международный Альянс Национальных Виртуальных Обсерваторий (http://www.ivoa.net) координирует деятельность национальных ВО и занимается разработкой стандартов и протоколов, специфических для астрономии. Основной задачей Виртуальной Обсерватории является обеспечение астронома данными независимо от способа и места их хранения, а также инструментами для поиска закономерностей и анализа данных. Таким образом, Виртуальная Обсерватория предоставит астроному уникальное средство исследования космоса - Всемирный Телескоп, который будет доставлять данные независимо от погодных условий !

Для российской астрономии задача интеграции в мировое астрономическое сообщество жизненно важна, так как практически все существующие центры данных ориентируются на новую технологию, а новые проекты полностью ориентированы на новые стандарты описания, хранения и доступа к данным. Поэтому доступ к данным очень скоро превратится в то узкое место, которое будет мешать научным исследованиям. При этом проблема будет не в качестве каналов связи, не в доступности архивов, а в совместимости информационной инфраструктуры российской науки и международного сообщества. Новые российские проекты необходимо с самого начала ориентировать на такую совместимость.

Проект "Астронет (http://www.astronet.ru) ГАИШ МГУ при поддержке РФФИ ( гранты 96-07-89395-в, 99-07-90069-в, 02-07-90222-в, 05-07-90225-в ) с самого начала ставил задачи, нацеленные на исследование и применение информационных технологий в науке (астрономия), рассматривая практическое применение результатов, полученных в ходе исследований, как важнейший фактор успешности проекта. Информационные системы в естественных науках не являются частью этих наук, они представляют собой очень удобные (а сегодня уже незаменимые) инструменты исследования, однако они являются научной инфраструктурой, без которой эффективное развитие науки сегодня уже невозможно. Вопросы научно-информационного обмена неотделимы от всего процесса развития науки в целом, они возникли и развиваются вместе с ней. Многовековая практика развития науки показала необходимость сбалансированного развития всех доступных методов научных коммуникаций, от личного общения специалистов, занимающихся одной и той же задачей, специальных семинаров, конференций и симпозиумов, включающих значительно более широкий круг специалистов, зачастую представляющих несколько смежных наук, и до таких, ориентированных на значительно более широкую аудиторию, форм, как написание учебников и научно-популярных книг с статей ведущими специалистами. К этим "классическим" методам обмена информацией современная информатика и, в первую очередь, интернет добавили очень и очень много. За время существования нашего проекта произошли уже описанные изменения в науке, изменились возможности интернета (бОльшие скорости, бОльшая доступность), рос наш опыт (мы многому научились, на проекте выросло поколение молодых специалистов, активно занимающихся сейчас научными и смежными вопросами). Соответственно, проект прошел несколько стадий.

1). Вначала было создано хранилище информации институтского уровня с передовыми на тот момент средствами доступа: ftp- и web-серверами, с продуманной структурой и интересным (до сих пор) содержанием.

2). Затем оно превратилось в цифровую библиотеку - в связи с появлением в сети большого количества научной информации, которую требовалось уметь хранить, организовывать поиск информации.

3). Немного позже, когда в проект были введены средства для создания собственных электронных публикаций и ряд полезных интерактивных приложений (системы on-line расчетов фиксированных событий, новостные ленты, поисковая система по российским астрономическим ресурсам и пр.) проект развился в Отраслевой Астрономический Портал (который с момента его появления и по настоящее время остается самым популярным русскоязычным астрономическим ресурсом). Портал является технологическим средством, позволяющим максимально эффективно, оперативно и квалифицированно доносить современную научную информацию до всех заинтересованных в ней читателях - ученых, инженеров, аспирантов, студентов. Его важность для астрономии определяется большим количеством новых открытий в современной астрономии, которые невозможно охватить традиционными печатными изданиями, все более узкой специализацией астрономов-профессионалов, для которых портал дает возможность ознакомиться с новостями в смежных областях.

4). И, наконец, в последние годы в рамках проекта появилась и стала интенсивно развиваться Виртуальная Обсерватория - сервисно-ориентированный источник астрономической информации, содержащий самые современные данные и каталоги и работающий по стандартам, разработанным Международным Альянсом Виртуальных Обсерваторий, в который входит и Россия. Сервер проекта http://vo.astronet.ru является крупнейшим в России и Европе центром астрономических данных, работающим по стандартам Виртуальной Обсерватории. Он входит в консорциум Российская Виртуальная Обсерватория. Проект состоит из многотерабайтного хранилища астрономических каталогов, а также ряда веб-сервисов, предоставляющих доступ к хранилищу и реализующие основные астрономические запросы. Отметим, что многие из этих каталогов существуют в единственном экземпляре в России, так как организация подобного хранилища является серьезной инженерной задачей и требует значительного финансирования и наличия квалифицированных специалистов. Поэтому организация свободного доступа к таким каталогам является очень важным для российских астрономов и первоочередной задачей нашего проекта. Кроме того, мы предоставляем полнотекстовый поиск по электронным архивам препринтов с распознаванием астрономической терминологии и номенклатуры названий астрономических объектов и службу уточнения координат объектов на астрономических изображениях.

Сайт проекта "Астронет" входит в топ-400 всех российских сайтов (из примерно 100,000 сайтов) и в топ-20 всех научных сайтов по независимой оценке рейтинга Yandex. По результатам голосованиям астрономического сообщества сайт ежегодно занимает первые места по номинациям "Лучший астрономический сайт" и "Лучший образовательный астрономический сайт". Ежемесячно сайт проекта посещают около 130-180 тысяч уникальных посетителей, которые читают 2-3 миллиона страниц (запросы от поисковых роботов в статистике не участвуют).

Результаты работы были опубликованы в научных статьях и представлены на конференциях как на российских, так и на международных. С помощью Виртуальной Обсерватории ГАИШ в нашей Галактике были открыты два шаровых скопления с очень слабой светимостью. Разработанные технологические решения доступны и используются в других проектах.

Развитие проекта предполагает

  • дальнейшее расширение хранилища данных за счет дополнительных каталогов многоволновой астрономии,
  • предоставление гибкого программного интерфейса доступа к данным, дальнейший системный анализ существующих проблем в информационной научной инфраструктуре и выработку предложений по их преодолению.Например, необходимость соблюдения принципов ведения научных исследований в современных условиях, таких как фундаментальная основа науки - принцип воспроизводимости научных результатов, что не очевидно, когда данные могут измениться в любой момент времени. Действительно, как предоставить рецензенту возможность проверки научных результатов, если данные уже поменялись или изменились условия доступа к ним. Как обеспечить аутентичность данных в условиях, когда данные не находятся в напечатанном томе, а хранятся во многих экземплярах в разных хранилищах. Как обеспечить целостность и связность данных со сложной структурой.
  • Планируется продолжить исследования алгоритмов работы с многотерабайтными базами данных. Здесь астрономическая специфика состоит в том, что практически все данные (наблюдения) имеют сферические координаты и все запросы являются пространственными, что требует специализированных эффективных алгоритмов.
  • Помимо атрибутного поиска в базах данных, большое значение приобретает поиск по документам, так как много данных хранится в текстах и необходимо развивать алгоритмы информационного поиска с учетом астрономической специфики. За годы работы портал Астронет накопил более 30 тысяч оригинальных документов, прошедших процедуру редактирования. Этот корпус документов является идеальным материалом для задач информационного поиска, таких как автоматическая классификация документов, поиск похожих документов, построение и использование тематических тезаурусов.
  • В связи с тем, что через несколько лет войдет в строй 2.5-метровый телескоп ГАИШ под Кисловодском, большое значение приобретает организация pipeline - конвейера обработки наблюдательных данных, чтобы данные могли как можно раньше стать доступными для научных исследований. Это включает в себя алгоритмы автоматического определения координат объектов, поиска новых объектов в изображениях, хранения и доступа к данным. Многие задачи требуют эффективного и программного доступа к большим каталогам, который может быть предоставлен технологиями Виртуальной Обсерватории. Интеграция новой обсерватории во Всемирный Телескоп неминуемо требует соблюдение стандартов Виртуальной Обсерватории, что делает наши исследования востребованными в ближайшем будущем.

В заключение хочется подчеркнуть роль РФФИ в целом и 7-го отдела в частности в развитии нашего проекта и многих других, определивших тот уровень информационной инфраструктуры в российской науке, столь необходимый для современных научных исследований. Кроме того, многолетняя поддержка позволила вырастить целое поколение специалистов, которые сейчас определяют новые рубежи информационной инфраструктуры общества.