astronet2008

Сервисно-ориентированная архитектура фундаментальной астрономии

Цели

Задачи

  • Системный анализ существующих проблем в информационной научной инфраструктуре и выработка предложений по их преодолению.
    • разнородная распределенная информация
    • большие объемы данных
    • версионность [каталогов (архивов)]
    • целостность данных
    • связность данных
    • устаревание информации
    • проблемы hardware
  • Исследование возможности использования семантической информации в системах информационного поиска и эффективность основанных на этом методов.
  • Анализ эффективности работы информационных систем:
    • структура посещений,
    • анализ логов,.
    • эффективность навигации,
    • влияние загруженности,
    • время отклика,
    • критичные модули и приложения.
    • использование внешних оценок
  • Принципы построения вертикальных тематических порталов:
    • организационные принципы,
    • технологические принципы,
    • требования к контенту и сервисам

Исследование возможности использования семантической информации в системах информационного поиска и эффективность основанных на этом методов.

Методы обычного и полнотекстового поиска оперируют только с текстами документов и используют чисто синтаксическую информацию. Привлечение семантической, т.е. смысловой информации позволяет сделать стратегию поиска гораздо более гибкой и мощной. Семантическая информация может извлекаться:

  1. из текстов документов;
  2. из их метаописаний (классификационной части);
  3. и из анализа связей между документами.

Типичными вариантами извлечения смысловой информации из текста документа является его автоматическое аннотирование и построение набора ключевых слов (терминов) наиболее правильно характеризующих документ.

Вторая группа методов основывается на анализе метаданных классификационного типа: списков ключевых слов документов, их рубрикации. Здесь может использоваться как внутренняя классификация, основанная на общепринятых или специализированных рубрикаторах и экспертных оценках, так и фолксономия - классификация, проводимая сообществом пользователей (читателей).

К этому же разделу следует отнести использование сведений о популярности документов: числе обращений за тот или иной интервал времени.

Последняя группа методов, основанная на анализе взаимных связей множества документов по которым производится информационный поиск, наиболее мощная и разнообразная. Обычно все методы этой группы сводятся к построению графа связей между документами или к построению матрицы расстояний между ними. В качестве функции близости или сходства документов могут использоваться различные критерии. Вот несколько примеров:

  • число взаимных ссылок,
  • число общих ключевых слов,
  • число встречающихся в тексте терминов,
  • сравнение рубрикации (точное или с учетом иерархической структуры рубрикаторов),
  • число общих ссылок на внешние документы,
  • общее число "соседей", определяемых по перечисленным выше критериям,
  • прочее.

Некоторые из указанных критериев порождают несимметричные матрицы расстояний и направленные графы.

В указанных методах могут строиться полные графы и матрицы, для всех элементов поискового множества документов, или частичные динамические матрицы и графы - вокруг заданных объектов.

Матрицы расстояний могут использоваться для последующего кластерного анализа документов. На этой основе могут быть получены "естественные" или "динамические" классификаторы документов из поискового множества.

Все указанные методы могут использоваться как непосредственно в поисковых системах, так и для построения средств навигации в информационных порталах.

Задачи нижнего уровня

  • Расширяемость БД.
    • (В формулировке Олега) Возможность добавления новых типов данных и новых запросов специалистами из предметных областей, а не разработчиками БД. При этом эти новые типы данных не отличаются от встроенных типов с точки зрения производительности и надежности.
    • (В формулировке Михаила) Возможность введения эффективно реализованных новых внутренних типов данных и новых операций между ними (как между новыми, так и между старыми). Желательно наличие простой процедуры введения типов, которой могли бы пользоваться специалисты из предметных областей.
    • Анализ эффективности алгоритмов инфраструктуры поддержки расширяемости СУБД PostgreSQL - GiST (Generalized Search Tree) и GIN (Generalized Inverted Index)
  • Анализ эффективности реализации новых типов данных:
    • операции со множествами ( intarray),
    • иерархические данные (ltree),
    • слабо-структурированные данные (hstore),
    • геометрические данные на сфере (pgsphere),
    • поисковое представление документов ( tsvector)
  • Эффективная работа с VLDB со сферическими атрибутами
    • Улучшение алгоритма Q3C
  • Анализ работы СУБД PostgreSQL в распределенной сети физических массивов данных
    • Исследование эффективности работы с блочным и файловым доступом к удаленному хранилищу
    • SOAP-интерфейс к удаленным базам данных
  • Работа с астрономическими изображениями
    • Проблемы, эффективная реализация и расширения протокола SIAP
    • Поиск изображений с ранжированием
    • Исследование алгоритмов выделения точечных источников
    • Привязка астрономических изображений к мировой системе координат
    • Исследование алгоритмов поиска новых объектов на астрономических изображениях
  • Задачи информационного поиска
    • Дальнейшее улучшение и добавление функциональности в полнотекстовый поиск в PostgreSQL
    • Разработка специализированного словаря для полнотекстового поиска с поддержкой регулярных выражений
  • Развитие сервисно-ориентированной архитектуры хранилища каталогов
    • Переход на использование AXIS2 (4x-5x лучшая производительность чем у AXIS1). Axis - это инфраструктура для создания и функционирования веб-сервисов.
    • Поддержка SQL-интерфейса для работы с хранилищем
    • Автоматическое представление списка веб-сервисов для регистрации во внешних реестрах ресурсов Виртуальной Обсерватории
    • Разработка собственного реестра веб-сервисов, совместимого с рекомендациями IVOA, для дальнейшего развития механизмов поиска
  • Методы выделения объектов из многомерных данных для VLDB.
    • Алгоритмы кластерного анализа для VLDB.
  • Несортированные задачи
    • Синтаксический и семантический анализ корпуса текстов конкретной предметной области (астрономии): построение частотных словарей, словарей стоп-слов, терминов. Выделение синонимов, устойчивых словосочетаний и оборотов. Создание специальных словарей для анализа текстов данной предметной области.
    • Методы автоматического аннотирования документов на основе частотных и терминологических словарей данной предметной области.
    • Автоматическая генерация наборов ключевых слов на основе частотных и терминологических словарей данной предметной области.
    • Влияние степени сжатия текстов в поисковом представлении на удобство пользования поисковыми системами.
    • Эффективные (в смысле поиска) представления фасетных рубрикаторов.
    • Методы персонализации представления метаинформации. (Личные рубрикаторы. наборы ключевых слов и т.п.)
    • Методы и механизмы построения социальных сетей и анализ их метаинформации.
    • Сравнительный анализ использования различных критериев близости объектов (документов) при построении метрик в корпусах текстов.
    • Алгоритмы графического представления (визуализации) метрических описаний наборов объектов.

Введение: Современное состояние

Причины перехода к сервисно-ориентированной архитектуре хранения научной информации [подробный вариант - для статьи]

В последние десятилетия в ряде естественных наук (физика, астрономия, геология, биология/генетика) наступил "информационный бум" - резко увеличился как объем поступающей и накапливающейся информации, так и сам объем запрашиваемой информации. Другими словами, появился целый ряд запросов о большом количестве объектов к разнородным, распределенным и очень большим хранилищам данных. Это явление имеет общие корни, но в каждой из наук ему присущ ряд особенностей. Рассмотрим причины наступления "информационного взрыва" на примере астрономии.

  • Астрономия стала всеволновой. Начиная с 70-х годов прошлого века наблюдения астрономических объектов ведутся не только в видимом свете, как раньше, а во всем диапазоне электромагнитного спектра от сверхдлинных километровых радиоволн, до фотонов сверхвысоких энергий (до 10^14 эВ). Для каждого из диапазонов придуманы (обычно несколько) приемников излучения. Более того, астрономия стала регистрировать не только фотоны. С 50-х годов систематически изучаются космические лучи - частицы приходящие из космоса - в основном протоны, различные ядра и нейтроны. Последние 30-лет ведутся эксперименты по регистрации нейтрино (зафиксированы от Солнца и от Сверхновой 1987а). Только что началась эксплуатация детекторов гравитационного излучения, претендующих на регистрацию волн от реальных астрофизических или космологических источников.
  • Астрономические данные хранятся бесконечно долго. Так как данные астрономических наблюдений привязываются к конкретным объектам, то они могут быть существенны и, следовательно, их необходимо хранить пока эти объекты существуют. Времена эволюции астрономических объектов очень велики по сравнению с возрастом человечества, поэтому в обыденном смысле с хорошей точностью могут считаться бесконечными. На сегодня существуют отдельные объекты для которых существуют более чем столетние ряды наблюдений: Солнце, яркие переменные звезды. Для первого открытого двойного радиопульсара PSR1913+16 имеется почти непрерывный ряд наблюдений длиной в 33 года (на этих данных "защищены" 2 Нобелевские Премии). Для большинство достаточно ярких объектов история их наблюдений в различных диапазонах электромагнитного спектра составляет 10-15-20 лет, основываясь на данных многочисленных обзоров неба.
  • Астрономия снова стала широкопольной. До конца XIX века наблюдения велись визуальным способом и давали информацию об отдельных объектах: одно наблюдение - один объект. Ситуация изменилась с появлением фотографии, на фотопластинках одновременно фиксировалось большое количество объектов. Ценность этой информации была ясна с самого начала, астрономические фотопластинки, заснятые с последней четверти XIX до конца XX хранятся в так называемых "стеклянных библиотеках" (сейчас ведутся работы по их переводу в электронный вид - сканированию - см., например, проект ??-??-?????). Во второй половине прошлого века широкопольную астрофотографию потеснили гораздо более точные электронные методы фотометрии (ФЭУ. фотоэлементы, ЭОП, фотодиоды и пр.) в которых, однако, одновременно можно было наблюдать только один объект (или небольшое количество объектов). Возвращение к "широкопольности" произошло после появления ПЗС-матриц большого размера. Сегодня одно наблюдение, длящееся от нескольких секунд до нескольних минут, дает от нескольких мегабайт до нескольких гигабайт информации.
  • Политика доступа к информации. Данные всех космических и наземных экспериментов NASA, ESA и частично ESO становятся публично доступными спустя 1 год после их получения. Последние 10 лет КТШТ (Комитет по Тематике Шестиметрового Телескопа - занимается распределением наблюдательного времени на крупнейших оптических инструментах России) принял положение об открытии данных через 2 года после их получения. Этому же способствует так называемая *"Early Science" ("Быстрая наука")*: требование исследовать и опубликовать полученные данные в строго определенный срок для того, чтобы успеть подготовить и подать успешную заявку на следующий цикл исследований. Это приводит к предельной интенсификации изучения полученных данных, но, одновременно, делает их существенно более поверхностными. Из материалов чаще всего извлекаются только те сведения, которые обосновывали проведение конкретного эксперимента, а вся остальная, менее очевидная информация остается необработанной.

Кроме того информация хранится в неоднородных распределенных архивах. Разнородность архивов определяется тем, что они создавались независимо и были ориентированы на различные эксперименты со своими целями. Распределенность информации связана со следующими причинами:

  1. На сегодняшний день нет (и, по-видимому, на будет и в будущем) технических возможностей содержать всю астрономическую информацию в одном хранилище из-за слишком больших объемов информации.
  2. Создание нескольких копий информации в различных местах повышает надежность хранения информации.
  3. Распределенное хранение и наличие копий снижает нагрузку на сеть и повышает скорость доступа к информации.
  4. Необходимость обработки данных определенного эксперимента требует их локализации на достаточно длинный срок для быстрого доступа
  5. В некоторых случаях распределенное хранение информации возникает по "физическим причинам". Например, в эксперименте SNAP с телескопа на низкой орбите будет производится непрерывное фотографирование неба. Снимки делаются каждые несколько минут, объем одной фотографии около 10Gb. На борту спутника не предусматривается никакой обработки данных и практически нет памяти для хранения информации. Поскольку спутник движется по орбите, то в разных местах на земле будут построены несколько станций для приема и хранения информации.

Краткий вывод: классические подходы к хранению, поиску и обработке информации становятся неэффективны в описанных выше современных условиях.