saicas2

Проект SAI CAS (Catalog Access Services)

Виртуальная Обсерватория - новая концепция организации доступа к астрономическим данным любого рода и средствам их обработки и анализа с применением современных информационных технологий.

Введение

В настоящее время в астрономии происходит лавинообразный рост объема наблюдательных данных. Создано много больших разнородных цифровых архивов данных и даже во многих случаях организован сетевой доступ к ним. Однако, использование этих данных весьма затруднительно из-за несогласованности описаний данных, обозначений, единиц измерений. Практически любому астроному известна ситуация, когда приходится тратить большое количество времени и усилий на получение данных и приведение их в единообразный вид. Для решения проблемы интегрированного использования астрономических данных научное сообщество разрабатывает новый подход к работе с ними - создание глобальной Виртуальной Обсерватории как совокупность стандартов на описание данных, протоколов доступа к ним и набора информационных технологий для анализа и обработки астрономических данных любого рода.

В конце 90-х крупные центры астрономических данных, такие как CDS (France), CaDC (Canada), STScI (USA) и другие предложили начать разработку стандартов для доступа к астрономическим данным. Основная цель - оптимизировать доступ, обработку и анализ данных для получения максимальной научной отдачи. В 2002-м году был образован Международный Альянс Виртуальной Обсерватории (IVOA, International Virtual Observatory Alliance), объединивший национальные и международные ВО проекты. Главная миссия IVOA - разработка, утверждение и распространение стандартов для всех типов астрономических данных и средств их обработки и анализа, что осуществляется в рабочих группах (Working Groups): Data Models, Data Access Layer, Registry, VO Query Language, VOTable, UCD, Grid & Web Services, VO Event. Дополнительные обсуждения осуществляются в группах по интересам (Interest Groups) : Applications, Theory, Data Curation & Preservation, Global Grid Forum interaction.

Основные члены IVOA (в порядке вклада в развитие) - Euro-VO (включает Astrogrid, CDS, ESA, ESO и национальные ВО проекты в Европе), NVO или USVO (USA), JVO (Japan), VO-i (India), Aus-VO (Australia), CVO (Canada) и другие организации. Два раза в год проходят конференции IVOA – Interoperability Meetings – предназначенные для личного общения членов рабочих групп и утверждения стандартов.

Проект создания Российской Виртуальной Обсерватории (РВО, http://www.inasan.ru/rus/rvo/) начал осуществляться в 2002 году. За прошедший период в рамках РВО была проведена большая организационная работа, представители РВО вошли в различные комиссии ВО, принимали участие в обсуждении и разработки стандартов. К сожалению, к настоящему времени, реальных научных результатов в рамках РВО получено не было, что частично объясняется как слабой информированностью российского астрономического сообщества относительно целей и задач ВО в целом, и РВО в частности, так и недостаточной технологической базой на данный момент. В настоящее время ведется организационная работа, однако ни одного действующего узла ВО в России до сих пор не существует.

Настоящий проект нацелен на получение, в первую очередь, реальных научных результатов с помощью методов ВО, что включает в себя решение как организационных, так и технологических задач. Мы считаем, что только таким способом можно показать реальные возможности ВО для решения типичных научных задач астрономии и интегрирования российской астрономии в международное сообщество.

Научное значение ВО потихоньку начинают осознавать у нас в России,и, что важно, у нас в ГАИШ. Не надо забывать и об огромной образовательной роли, которую выполняет ВО. Наши студенты обязаны выходить подготовленными специалистами не только в астрономии, не только знакомы с современными технологияим, но и с паттернами использования этих самых технологий в нашей науке.

На сегодняшний день в технологической структуре ВО можно выделить три основные части:

  • серверы каталогов (узлы ВО) и требования к ним
    • стандарты представления данных и обмена ими (протоколы)
    • единый язык запросов к астрономическим базам данных (ADQL)
    • требования к серверам каталогов (узлам ВО) для работы в рамках Виртуальной Обсерватории
  • глобальная инфраструктура ВО
    • распределенная обработка запросов
    • оптимизация выполнения запросов (еще не разработано)
    • репликация каталогов и баз данных
    • глобальный реестр каталогов
  • средства доступа к ВО ориентированные на пользователей и на программы-роботы
    • интерфейсы доступа (API) к данным и сервисам ВО для программ-роботов
    • ориентированный на человека язык запросов (VOQL, еще не разработан)
    • приложения пользовательского уровня для доступа к ВО (программные и web-интерфейсы).

Наш подход

В рамках проекта SAI CAS будет создается полная реализация узла ВО (SkyNode) для свободно распространяемой реляционной базы данных PostgreSQL, что включает как поддержку языка запросов ADQL (с конвертацией в диалект языка запросов SQL для PostgreSQL), так и методы доступа к очень большим каталогам на основе оригинальных алгоритмов (pgSphere, Q3C). Базы данных (оригинальные каталоги), созданные в процессе работы, будут открыты для всего международного сообщества через стандартные интерфейсы (веб браузер), так и для доступа программ, использующих стандарты ВО. Учитывая, что существующие технологии, в основном, используют коммерческое матобеспечение, наша работа является уникальной и чрезвычайно важной, так как повышает уровень доступности и открытости методов ВО, что очень важно для России.

План создания и использования подобного узла ВО выглядит следующим образом:

1. Данные (каталоги) приводятся в соответствие со стандартами ВО и вносятся в базу данных (БД).

2. Разрабатывается специальная программа - Вебсервис (Webservice), которая выполняет следующие действия:

  • принимает запросы по протоколу HTTP на XML-подобном варианте языка ADQL (ADQLx),
  • транслирует запрос в SQL-подобный вариант языка ADQL (ADQLs), а затем в диалект языка SQL, поддерживаемый конкретной БД (в нашем случае PostgreSQL),
  • SQL-запрос передается базе данных;
  • полученные результаты транслируются в формат VO-table и передаются по протоколу HTTP заказчику.

3. Для использования данных узла ВО (и ВО в целом) пишется приложение (программа), которое нацелено на решение конкретной научной задачи. Приложение осуществляет доступ данных через общение с Вебсервисом.

Таким образом, достигается необходимый уровень абстракции, помогающий работать с данными на логическом уровне, не заботясь о физическом хранилище и доступе к ним. Заметим, что этот же уровень абстракции доступен любому клиенту, будь он ученым, пишущий приложение, веб-браузером, который через CGI-интерфейс обращается к Вебсервису, или даже программой, которой требуются данные. Это позволяет автоматизировать многие рутинные и объемные задачи.

В результате мы будем иметь ряд каталогов и Вебсервисов, зарегистрированные в специальной службе Регистр (Registry), используя которые, можно решать различные задачи. Отметим, что можно использовать набор Вебсервисов для решения сложных задач, требующие разные данные и приложения, причем эти Вебсервисы могут быть не только локальными, разработанными нами, но и удаленными, разработанными в других проектах. Стандарты ВО гарантируют доступность данных и возможность их использования для научной работы независимо от того, где физически находятся эти данные.

Предпосылки

Надо отметить, что успешность проекта в большой степени определяется наработками и опытом участников проекта, которые являются профессиональными астрономами и обладают значительными знаниями и навыками в современных информационных технологиях.

Руководитель проекта Бартунов Олег (ГАИШ МГУ) является членом команды разработчиков базы данных PostgreSQL и автором (совместно с Ф.Сигаевым) многих популярных расширений для PostgreSQL. Кроме того, Бартунов Олег является руководителем широко известного астрономического проекта Астронет, принимал участие в разработке технологической платформы крупнейшего российского портала Рамблер. Копосов Сергей (Гейдельберг, Германия) также является специалистом в области баз данных и автором оригинального алгоритма Q3C, использующийся для быстрой работы с очень большими астрономическими каталогами. Также, в работе проекта принимают участие Сергей Карпов (САО РАН), разрабатывающий пользовательские интерфейсы и Александр Белинский (ГАИШ МГУ), отвечающий за системную поддержку всех серверов проекта.

Текущее финансирование проекта осуществляется из средств гранта РФФИ 05-07-90225 в рамках проекта Астронет. Сервер баз данных проекта (rx1620, dual Itanium2, MSA 20) был предоставлен компанией HP Russia.

Что сделано

На настоящее время разработан прототип сайта проекта vo.astronet.ru, сервер приложений, определены метаданные (документация доступна по адресу http://www.sai.msu.su/~megera/oddmuse/index.cgi/CAS). В хранилище загружены все основные астрономические каталоги:

  • USNO-B1 (1 billion of stars)
  • USNO-A2.0 (500 millions of stars)
  • 2MASS point source (250 millions of sources)
  • 2MASS extended source (1.6 million of sources)
  • DENIS ( ~ 350 millions of stars)
  • UCAC 2 (~ 50 millions of stars)
  • GSC 1.2 ( ~ 25 millions of objects)
  • Tycho-2 (2.5 millions of stars)

Разработан и запущен в публичный доступ радиальный поиск (ConeSearch) по каталогам http://vo.astronet.ru/cas/conesearch.php. Результаты запросов могут быть отображены с помощью широкоизвестных пакетов Aladin и VoPlot. Отмечу, что этот сервис уже зарегистрирован в службе регистрации сервисов ВО. Результаты работы были доложены на ADASS 2005 и международной конференции по ВО в Инасан весной 2006 года.

Следует отметить, что SAI CAS является первым и единственным в России и СНГ проектом, который предоставляет открытый доступ к крупнейшим астрономических каталогам.

Ближайшие планы

Сейчас ведется работа по созданию полномасштабного доступа к каталогам, включая возможность загрузки пользовательских каталогов и проведения кросс-идентификации. Мы планируем подготовить и доложить на GA IAU 2006 в Праге, на специальной сессии по ВО. Текст абстракта доступен на http://www.sai.msu.su/~megera/wiki/IAU2006. Кроме того, осенью в Москве будет проходить международная конференция по ВО и в октября - очередной ADASS в США (Tucson), где мы тоже планируем выступать.

Несмотря на то, что мы уже сейчас являемся крупнейшим в Европе провайдером астрономических данных, у нас есть проблемы, которые необходимо достаточно срочно решать, учитывая ритм работ по ВО и научную востребованность в таких сервисах. Если быть конкретным, нам нужны жесткие диски для размещения очень важного каталога SDSS (Sload Digital Sky Survey), имеющего очень важное научное значение. Каталог непрерывно обновляется, текущий релиз DR5 требует около 6 терабайт дискового пространства. Следует отметить, что требуется значительное дисковое пространство для хранения пользовательских (MySpace) и временных данных. Также требуется иметь хорошую пропускную способность сети, так как предполагается работа с большими массивами данных.