shron

Центр данных МГУ

Данная записка предлагается как обоснование создания центра данных МГУ (рабочее название СХРОН МГУ) в рамке приоритетной программы развития МГУ.

Роль электронных коммуникаций и современного информационного обеспечения учебного и научно-исследовательского процесса во всех ведущих университетах мира, и в МГУ в частности, продолжает возрастать, и становится в наши дни критически важной.

Во многих областях науки происходит процесс лавинного поступления информации, в первую очередь связанный с успехами в технологии создания приемных устройств. В современных экспериментах (включая и численное моделирование) речь идет о многих петабайтах информации, которую надо не только хранить и обеспечивать быстрый доступ к ним, но и в которых требуется осуществлять поиск новых закономерностей (data mining). Специфика научных данных состоит в необходимости "вечного" хранения сырых данных (raw data) - данные,считанные с приемных устройств, что накладывает повышенные требования к масштабируемости и защищенности системы хранения.

"Сырые" vs. научные данные "Сырые" данные (raw data, primary data) - это данные, полученные непосредственно с приемника и не подвергшиеся никакой обработки. Сырые данные -> coocked data (научные данные).

Примеры таких проектов в МГУ - это Космический Эксперимент "Лира" (КЭ Лира), который разрабатывается в ГАИШ совместно с РосКосмос, планирует получение около 400 терабайтов сырых данных для получения многополосной высокоточной фотометрии звезд всего неба, в результате которого будет проведен большой ряд однородных наблюдений более 400 миллионов звезд. Расположение телескопа в космосе позволит впервые получить ультрафиолетовые наблюдения большого количества звезд с хорошей точностью. Поглощение ультрафиолетового излучения в атмосфере не позволяет использовать наземные инструменты, а космический телескоп Хаббла обладает очень маленьким полем зрения, недостаточным для масштабного обзора. Следующий за КЭ Лира - проект "Свеча" уже рассчитан на получение петабайтов данных. Отметим, что планируемые объемы данных далеко превосходят все имеющиеся возможности в МГУ. Аналогичные тенденции существуют и в ядерной физике, биологии, медицине и т.д.

Успех будущих научных экспериментов напрямую связан с наличием в МГУ современного центра данных, специалистов по сверхбольшим базам данных. Последнее очень актуально для МГУ, так как таких специалистов пока не существует и их надо начинать обучать уже сейчас, при этом образовательная роль наличия современной инфраструктуры центра данных очень велика. Кроме аппаратной инфраструктуры центра данных большую роль играет программное обеспечение, позволяющее наиболее эффективным способом хранить информацию, предоставлять доступ к ней, и выполнять запросы исследователей.

Один из самых перспективных подходов к решению этой проблемы, который предложен ведущим специалистов в области баз данных Майком Стоунбрейкером (MIT), состоит в разработке новой базы данных нового поколения, рассчитанной на современную архитектуру компьютерных кластеров, и учитывающая специфику научных данных и многообразие научных задач. Такой проект (SciDB) в настоящее время разрабатывается в Америке и России, причем специфика современной экономической ситуации в мире привела к тому, что в настоящее время ведущее положение в проекте занимают российские разработчики. Для МГУ и России в целом, участие в таком проекте позволяет использовать гигантский потенциал американских исследователей в области баз данных, которые являются лидерами в этой области, для поддержки российских больших научных экспериментов и, что очень важно, для образовательных целей будущих специалистов. МГУ в состоянии принять ведущее участие в разработке SciDB, предоставив рабочую площадку для разработки, тестирования и апробирования. Уже сейчас в ГАИШ ведется работа по созданию базовых требований к SciDB и списка основных научных запросов на основе КЭ Лира. Кроме этого, в ГАИШ накоплен большой опыт работы с терабайтными базами данных, а несколько сотрудников уже принимают участие в разработке SciDB.

Наличие масштабируемой аппаратной инфраструктуры и системы управления сверхбольшими научными базами данных позволит будущим научным экспериментам сконцентрироваться на решении научных задач, воспитать поколение специалистов по новой, без сомнения востребованной в ближайшем будущем, специальности.

Другая роль центра данных состоит в решении болезненной для МГУ проблемы - это предоставление надежной площадки для многочисленных серверов подразделений МГУ, подключенных к общей телекоммуникационной сети. В ближайшем будущем их количество будет неизбежно возрастать, и достигнет значений порядка сотен серверов на подразделение (имеются в виду все постоянно действующие серверы - масштаба подразделения, кафедр и лабораторий, отдельных проектов и т.д.).

В настоящее время 70-90% таких серверов физически представляют собой обычные компьютеры, разбросанные по отдельным помещениям факультетов и институтов. Такое положение дел было нормальным, когда в каждом подразделении было 5-10 серверов. По мере роста их количества обеспечение размещения и круглосуточного надежного функционирования серверов становится все более сложной задачей, которую каждое подразделение вынуждено решать самостоятельно (в частности, оборудуя собственные аппаратные).

Это приводит к тому, что администрации подразделений вынуждены решать совершенно непрофильные для них (но при этот важные и дорогостоящие) задачи. Оценка необходимых площадей, подбор помещений, решение специфических задач инженерного обеспечения (бесперебойное питание, герметизация и кондиционирование, выбор стоечного оборудования, оценка на перспективу необходимых интегральных полос пропускания как внутренних, так и внешних коммутаторов и роутеров, и т.п.) - весь этот круг проблем вынуждены решать не только подразделения, связанные с компьютерами профессионально (как ВМК), но и все остальные подразделения МГУ.

С другой стороны, хорошо известно, что намного выгоднее и эффективнее такие задачи решаются централизованно. Это значительно снижает суммарные затраты, резко повышает надежность дата-центров (за счет единых правильно рассчитанных систем коммуникаций и инженерного обеспечения). Кроме того, это снимает с подразделений необходимость самостоятельно решать совершенно несвойственные им задачи (например, многие подразделения МГУ просто не имеют свободных площадей для устройства современных аппаратных и размещения необходимого инженерного оборудования, и вынуждены изымать такие площади за счет учебного процесса).

В связи с вышесказанным представляется целесообразным создать центральный дата-центр МГУ, сначала - просто как площадку хостинга серверов, в дальнейшем - с предоставлением масштабируемого хранилища для сверхбольших научных баз данных.

Важное значение для информационной архитектуры университета имеет свободно-распространяемое программное обеспечение, которое не только обеспечивает независимость от поставщиков коммерческого ПО и позволяет экономить на его покупке, но и является важным образовательным фактором для профильных подразделений, таких как ВМиК, мехмат, и способствует продвижению МГУ в ИТ-области. Известно, что и другие подразделения принимают участие в разработке и поддержке свободного ПО. Слабая используемость свободного ПО в МГУ объясняется отсутствием службы поддержки и слабой квалификацией пользователей (преподаватели, научные сотрудники). Отметим, что студенты и аспиранты охотно используют его. Для объединения усилий по разработке свободного ПО, его внедрению и поддержке в МГУ, предлагается создать Центр Компетенции свободного ПО при дата-центре МГУ.

Такой дата-центр в дальнейшем может и должен играть роль экспериментальной базы для проводимых в МГУ исследований в области современных IT-технологий. В таких областях, как создание сверхбольших (петабайтных) научных баз данных, cloud computing (динамическое выделение серверных ресурсов под потребности приложения), исследование семантики научных информационных потоков - дата-центр будет важным практическим полигоном и источником первичной информации. Все перечисленные области сейчас находятся на переднем крае науки, и использование дата-центра МГУ как экспериментальной площадки будет существенной предпосылкой для того, чтобы МГУ занимал одну из лидирующих позиций в мире в указанных областях.

В указанном отношении дата-центр можно рассматривать как некоторый аналог таким экспериментальным установкам, как аэродинамические трубы или астрономическая обсерватория, которые были созданы в середине 50-х годов, и на десятилетия определили высочайший учебный и научно-исследовательский авторитет МГУ в данных областях.

Такой центр данных может быть создан в рамках Центра телекоммуникационных и информационных технологий МГУ, при сотрудничестве с подразделениями МГУ, которые заинтересованы в развитии направления сверхбольших научных баз данных.

Для обеспечения лидирующих позиций МГУ в области разработки системы управления сверхбольших научных баз данных необходимо принять участие в проекте SciDB, как на организационном уровне (межуниверситетские соглашения), так и поддерживая конкретных разработчиков. Хорошим заделом для этого является наличие суперкомпьютерного центра МГУ, который может и должен быть использован совместно с центром данных, для проведения сложных вычислений, связанных с большим количеством данных.

Авторы: Сотрудники ГАИШ МГУ Олег Бартунов, Евгений Родичев