scidb-nano

Приложение SciDB для нанотехнологии

Наименование проектa

"Разработка программного обеспечения масштабируемого хранилища научных данных, ориентированное на эффективную работу с данными, полученных из сенсорных сетей и в результате компьютерного моделирования".

Объем финансирования

Номер мероприятия

Мероприятие 2.1. "Формирование информационной инфраструктуры наноиндустрии"

Цель и краткое содержание

Целью работы является разработка архитектуры и алгоритмов программного комплекса для эффективной работы с научными данными - хранение, доступ и анализ данных, полученных из сенсорных сетей и в результате компьютерного моделирования, нацеленный, в первую очередь, на использование в масштабируемых хранилищах коллективного использования научными коллективами в различных областях науки, требующих стандартизованного подхода к хранению очень больших массивов "сырых" данных и их последующей сложной обработки с возможностью работы с разными версиями научных данных для обеспечения воспроизводимости научных результатов, а также для обеспечения научного поиска в очень больших базах научных данных.

Задачи проекта:

  • Создание программной архитектуры для разработки и тестирования функциональности и производительности программного обеспечения для работы с научными данными
  • Разработка стандартных научных запросов из различных научных дисциплин и массивов тестовых данных для тестирования производительности программного обеспечения
  • Проведение сравнения производительности различных программных систем хранения научных данных в разных серверных конфигурациях
  • Разработка спецификаций программных интерфейсов для работы с научными данными
  • Адаптация стандартных математических и научных пакетов к параллельной работе в распределенной архитектуре "shared nothing" и ориентированные на очень большие объемы данных
  • Разработка документации по использованию программного комплекса, включающей в себя администрирование программного комплекса, описание стандартных процедур, программного интерфейса, описание языка запросов и стандартных команд, а также описание расширяемости программного комплекса для разработчиков
  • Разработка процедуры установки программного комплекса и регламентация пуско-наладочных работ

Ожидаемые результаты

Ожидаемые результаты проекта:

Прототип программного комплекса для масштабируемого хранилища данных, позволяющий многим группам исследователей, работающих в различных научных дисциплинах, эффективно хранить данные экспериментов и компьютерного моделирования, обрабатывать "сырые" данные и иметь доступ к различным версиям результатов этой обработки, проводить научные исследования с данными до сотен петабайтов, беспрепятственно обмениваться и использовать данные разных экспериментов, в том числе:

  • Макет программной архитектуры для разработки и тестирования функциональности и производительности программного обеспечения для работы с научными данными
  • Пакет для проведения стандартного тестирования программных комплексов, рассчитанных для работы с научными данными
  • Сравнительное тестирование производительности нескольких программных систем хранения научных данных
  • Пакеты стандартных математических и научных пакетов, адаптированных к параллельной работе в распределенной архитектуре "shared nothing" и ориентированные на очень большие объемы данных
  • Документация по использованию программного комплекса, включающая в себя администрирование программного комплекса, описание стандартных процедур, программного интерфейса, описание языка запросов и стандартных команд, а также описание расширяемости программного комплекса для разработчиков
  • Описание процедуры установки программного комплекса и регламентация пуско-наладочных работ
  • Опытная установка программного комплекса в дата-центрах научно-исследовательских центров по нано-технологиями

Показатели и индикаторы ФЦП, достижению значений которых будет способствовать реализация проекта

  • Количество научных статей и докладов по теме использование масштабируемого хранилища научных данных -
  • Количество созданных новых рабочих мест для высококвалифицированных разработчиков программного обеспечения - 3
  • Количество установок программного комплекса в дата-центрах исследовательских центров наноиндустрии
  • Удельный вес научных данных инновационно-технологических, внедренческих и коммерческих организаций наноиндустрии, имеющих доступ к различным составляющим масштабируемого хранилища данных с установленным программным комплексом, в общем числе российских организаций, участвующих в исследованиях, разработках и производстве продукции наноиндустрии

Предполагаемое использование результатов проекта

Результаты работ будут использоваться научными и инновационными центрами и университетами России, а также отдельными коллективами исследователей и разработчиков, ведущими научно-технические исследования и инновационные разработки в различных прикладных областях и требующие стандартизованного подхода к хранению, обработке и работе с коллекциями данных, требующих масштабируемого хранилища и параллельной обработки данных, а также научного поиска в очень больших базах научных данных.

Масштабирование программного комплекса на работу до 10x и 100x петабайт, от персонального ноутбука до большого кластера в 1000x серверов обеспечит научные коллективы большей однородностью в использовании ПО для работы данными.

Пользователи программного обеспечения получат возможность эффективной работы с "сырыми данными" с сохранением целостности данных, версионность результатов обработки "сырых" данных, что обеспечит воспроизводимость научных результатов, встроенную поддержку данных с погрешностями измерений, свободный обмен и работы с данными различных исследовательских групп. Фактически, пользователи получат полноценную поддержку полного цикла работы с научными данными - хранения "сырых" данных, их обработка ( возможно, переобработка для учета ошибок или новых знаний), хранения разных версий результатов обработки, и инструментарий для анализа данных.