Приложение SciDB для нанотехнологии
Наименование проектa
"Разработка программного обеспечения масштабируемого хранилища научных данных, ориентированное на эффективную работу с данными, полученных из сенсорных сетей и в результате компьютерного моделирования".
Объем финансирования
Номер мероприятия
Мероприятие 2.1. "Формирование информационной инфраструктуры наноиндустрии"
Цель и краткое содержание
Целью работы является разработка архитектуры и алгоритмов программного комплекса для эффективной работы с научными данными - хранение, доступ и анализ данных, полученных из сенсорных сетей и в результате компьютерного моделирования, нацеленный, в первую очередь, на использование в масштабируемых хранилищах коллективного использования научными коллективами в различных областях науки, требующих стандартизованного подхода к хранению очень больших массивов "сырых" данных и их последующей сложной обработки с возможностью работы с разными версиями научных данных для обеспечения воспроизводимости научных результатов, а также для обеспечения научного поиска в очень больших базах научных данных.
Задачи проекта:
- Создание программной архитектуры для разработки и тестирования функциональности и производительности программного обеспечения для работы с научными данными
- Разработка стандартных научных запросов из различных научных дисциплин и массивов тестовых данных для тестирования производительности программного обеспечения
- Проведение сравнения производительности различных программных систем хранения научных данных в разных серверных конфигурациях
- Разработка спецификаций программных интерфейсов для работы с научными данными
- Адаптация стандартных математических и научных пакетов к параллельной работе в распределенной архитектуре "shared nothing" и ориентированные на очень большие объемы данных
- Разработка документации по использованию программного комплекса, включающей в себя администрирование программного комплекса, описание стандартных процедур, программного интерфейса, описание языка запросов и стандартных команд, а также описание расширяемости программного комплекса для разработчиков
- Разработка процедуры установки программного комплекса и регламентация пуско-наладочных работ
Ожидаемые результаты
Ожидаемые результаты проекта:
Прототип программного комплекса для масштабируемого хранилища данных, позволяющий многим группам исследователей, работающих в различных научных дисциплинах, эффективно хранить данные экспериментов и компьютерного моделирования, обрабатывать "сырые" данные и иметь доступ к различным версиям результатов этой обработки, проводить научные исследования с данными до сотен петабайтов, беспрепятственно обмениваться и использовать данные разных экспериментов, в том числе:
- Макет программной архитектуры для разработки и тестирования функциональности и производительности программного обеспечения для работы с научными данными
- Пакет для проведения стандартного тестирования программных комплексов, рассчитанных для работы с научными данными
- Сравнительное тестирование производительности нескольких программных систем хранения научных данных
- Пакеты стандартных математических и научных пакетов, адаптированных к параллельной работе в распределенной архитектуре "shared nothing" и ориентированные на очень большие объемы данных
- Документация по использованию программного комплекса, включающая в себя администрирование программного комплекса, описание стандартных процедур, программного интерфейса, описание языка запросов и стандартных команд, а также описание расширяемости программного комплекса для разработчиков
- Описание процедуры установки программного комплекса и регламентация пуско-наладочных работ
- Опытная установка программного комплекса в дата-центрах научно-исследовательских центров по нано-технологиями
Показатели и индикаторы ФЦП, достижению значений которых будет способствовать реализация проекта
- Количество научных статей и докладов по теме использование масштабируемого хранилища научных данных -
- Количество созданных новых рабочих мест для высококвалифицированных разработчиков программного обеспечения - 3
- Количество установок программного комплекса в дата-центрах исследовательских центров наноиндустрии
- Удельный вес научных данных инновационно-технологических, внедренческих и коммерческих организаций наноиндустрии, имеющих доступ к различным составляющим масштабируемого хранилища данных с установленным программным комплексом, в общем числе российских организаций, участвующих в исследованиях, разработках и производстве продукции наноиндустрии
Предполагаемое использование результатов проекта
Результаты работ будут использоваться научными и инновационными центрами и университетами России, а также отдельными коллективами исследователей и разработчиков, ведущими научно-технические исследования и инновационные разработки в различных прикладных областях и требующие стандартизованного подхода к хранению, обработке и работе с коллекциями данных, требующих масштабируемого хранилища и параллельной обработки данных, а также научного поиска в очень больших базах научных данных.
Масштабирование программного комплекса на работу до 10x и 100x петабайт, от персонального ноутбука до большого кластера в 1000x серверов обеспечит научные коллективы большей однородностью в использовании ПО для работы данными.
Пользователи программного обеспечения получат возможность эффективной работы с "сырыми данными" с сохранением целостности данных, версионность результатов обработки "сырых" данных, что обеспечит воспроизводимость научных результатов, встроенную поддержку данных с погрешностями измерений, свободный обмен и работы с данными различных исследовательских групп. Фактически, пользователи получат полноценную поддержку полного цикла работы с научными данными - хранения "сырых" данных, их обработка ( возможно, переобработка для учета ошибок или новых знаний), хранения разных версий результатов обработки, и инструментарий для анализа данных.