XLDB_1

СУБД для сверхбольших объемов данных

В настоящее время в интернете появилось много дискуссий о кризисе традиционных СУБД, которые не удовлетворяют новым требованиям. Это обусловлено следующими факторами:

Много данных - порог петабайтных БД преодолен, архивы в сотни терабайт становятся привычным.
На сегодня официально анонсирована самая большая в мире база данных с активным доступом - Yahoo Everest, которая на май 2008 года имело хранилище размером более 2 Pb, несколько триллионов записей, с ежедневным поступлением около 24 млрд событий и более 1/2 миллиарда пользователей в месяц. Ожидается в 2009 году рост базы данных до 5Pb. Интересно отметить, что Yahoo Everest - это свободная СУБД PostgreSQL с распределенным вертикально-ориентированным хранилищем и поддержкой кластеризации.
Данные стали разными, появились новые запросы - многомерные данные, запросы не ограничиваются операциями сравнения, например, найти 10 самых похожих изображений.
Стало много запросов, другие требования к производительности и расширяемости - новые технологии (AJAX), динамические документы, увеличилось кол-во запросов, требование выполнение десятые доли секунды.
Клиенты стали другими - раньше были операторы, сейчас в основном это бездушные клиенты, большей частью через http, большой уровень конкурентности
"Железо" стало дешевым - нужны новые алгоритмы, ориентированные на использование памяти и большого количество дешевых компьютеров.
Существенно стали дешевле хранилища данных с гарантированным резервированием как по дискам, так и по питанию.

Из планируемых научных экспериментов выделяются, в частности:

Большой Адронный Коллайдер (LHC, lhc.web.cern.ch/lhc/), который ежегодно будет производить около 15 Pb данных, распределенное хранилище будет состоять из примерно 200 центров данных по всему миру
большой телескоп для обзора неба (LSST, www.lsst.org), с диаметром зеркала 8.4 метра и мозаичного приемника размером 3.2 Гп (гига-пикселей). Ожидается наполнение БД в 49 миллиардов объектов (256 атрибутов), 2.8 триллиона источников (56 атрибутов). К 2025 году ожидается накопить 14 Pb данных!

В каких направлениях идет развитие СУБД, чтобы отвечать новым требованиям?

Добавляются новые расширения на основе встроенных средств расширяемости. Например, PostgreSQL имеет GiST, GIN, с помощью которых сильно улучшена работа со множествами, реализован полнотекстовый поиск.
Создаются специализированные СУБД, ориентированные на специфические типы данных, специфические условия. Например, в связи с появлением дешевых сенсоров возникла необходимость в работе с потоками данных, когда сами данные не важны, а интересны только агрегаты, такие как средняя температура, и т.д. Традиционные СУБД имеют большие накладные нагрузки (транзакционность, хранение на диске,..). Пример потоковых данных - StreamBase. Другой пример - встроенные (embedded) СУБД (sqlite, tinyDB) используются в специализированных приборах. Появились XML базы данных для хранения слабо-структурированных данных (en.wikipedia.org/wiki/XML_database).
СУБД используют в кластерах для масштабирования. Современная тенденция - это использование полностью независимых дешевых компьютеров. Промежуточный слой (middleware) между приложением и кластером отвечает за маршрутизацию запросов и результатов. Такая схема позволяет легко масштабировать и следить за сохранностью данных. Примеры - Sequoia, uni/cluster для PostgreSQL, MySQL (www.continuent.com). Другой подход - это использование технологии Cloud Computing для масштабирование как по хранилищу, так и по числу процессоров, например PostgreSQL Plus компании EnterpriseDB.
Специализированные сервера с использование сопроцессоров (FPGA), например XtreemeData, модифицированный PostgreSQL, интегрированный в FPGA, для аналитических систем (OLAP) (прокачивает данные 1Tb/min).
Модифицируется ядро СУБД для поддержки параллелизма (AsterData, GreenPlum), что позволяет один запрос выполнять на нескольких компьютерах. Приложение - аналитические базы данных (OLAP).
СУБД упрощаются до поддержки типа данных (ключ,значение), результаты передаются приложению, где и происходит окончательные вычисления. Язык SQL здесь не нужен. Примеры - Google BigTable, Amazon SimpleDB, HyperTable. Намеренная простота таких БД компенсируется великолепной масштабированностью как по дисковому хранилищу, так и по процессорам.

Тем не менее, как считает видный участник DB-сообщества Майкл Стоунбрейкер, все это являются полумерами и требуется кардинальные изменения в технологии СУБД, а именно - изменение принципа хранения данных. Он считает, что эра обычных больших СУБД общего назначения прошла (см. One size fits all: A concept whose time has come and gone) и требуются совершенно новые подходы для создания современной БД, которая с самого начала будет ориентирована на распределенность, параллельное исполнение запросов, компрессию, ориентацию на хранение по атрибутам, высокую доступность, линейное масштабирование с использование кластеров независимых серверов.

Традиционные СУБД хранят данные в виде записей, которые содержать все атрибуты (колонки). При чтении с диска поднимается вся запись, даже если запрашивается только один атрибут. Подобных накладных расходов можно избежать при хранении атрибутов отдельно - атрибутно-ориентированное (column-oriented) хранение. Их-за одинаковой природы данных они очень хорошо сжимаются, следовательно занимают меньше места на диске и требуют меньшее количество операций ввода-вывода, которые очень медленны и "убивают" всю производительность. Несмотря на то, что соединения нескольких таблиц для такого хранения представляется очень сложным, оказывается, что можно использовать алгоритмы поиска по сжатым данным и откладывать материализацию записей как можно дальше, что приводит к лучшей производительности, чем при традиционном хранении. Пример - Vertica, распределенная (GRID), аналитическая БД с вертикальным хранилищем - коммерциализия C-store.

В 2007, 2008 годах прошли встречи преставителей нескольких наук (в основном тех, в которых наблюдается очень быстрый рост потока данных) и разработчиков, на которых принято решение о создания новой SciDB (confluence.slac.stanford.edu/display/XLDB/SciDB) для XLDB. Были выработаны основные требования к будущей базе данных для Большой Науки:

открытая модель развития гарантирует независимость от вендора и защиту инвестиций, а также способствует привлечению разработчиков.
отказ от строгого соблюдения ACID, хранилище оптимизированое в основном на чтение, загрузка данных только большими порциями (bulk load), многомерные массивы как основная структура данных
масштабируемость на сотни петабайт, при этом SciDB должна работать как на ноутбуке, так и на кластере в тысячи серверов. Минимизация административных затрат на поддержание работоспособности кластера.
интерфейсы к научным приложениям, таким как R, MATLAB, IDL, к языкам программирования (C++, Python)
Поддержка версионности данных, отслеживание источников данных, поддержка данных с ошибками

Однако, несмотря на всю активность в новых направлениях, которая вероятнее всего приведет к революции в СУБД, уже сегодня существует необходимость работы с тера/пета БД с требованиями транзакционности, масштабирования и поддержки богатого набора запросов и всего того набора сервисов, предоставляемые реляционными БД. Поэтому важной задачей является исследование проблем в алгоритмах и структурах данных современных БД и их улучшение. С другой стороны, анализ существующих прототипов новых БД, преимуществ и проблем, необходим для понимания будущих направлений развития СУБД PostgreSQL, которая несомненно является лучшим кандидатом среди открытых СУБД для таких работ. Это особенно важно так как закрытость многих разработок, рекламный характер публикаций, ограниченность практических примеров использования, зачастую мешает пониманию реальных преимуществ, принципиальных проблем и недоработок.

Почему выбрана СУБД PostgreSQL?

Лицензия BSD, либеральная
Многоплатформенность - Unix, Windows, MacOSX,
Большое устойчивое сообщество, не принадлежит никакой компании - защищенность инвестиций
Долгая история, возникла в Беркли как научный проект, оказал большое влияение на развитие СУБД (см., например, www.sai.msu.su/~megera/postgres/talks/what_is_postgresql.html)
Производные БД - лидеры инноваций - либеральная лицензия, модульность, богатый набор возможностей
- PostgreSQL Plus Cloud Edition - поддержка расширяемости через Cloud Computing (Amazon веб-сервисы).
- GreenPlum - параллельное исполнение запросов, поддержка технологии MapReduce.
- AsterData - паралелльное исполнение запросов, поддержка технологии MapReduce
- Yahoo Everest - PostgreSQL с вертикальных хранилищем (см. ниже)
- TelegraphCQ - потоковая СУБД, его коммерческая версия - StreamBase.
Расширяемость - возможность создания новых типов данных, новых запросов, эффективных (индексная поддержка) предметными специалистами, а не разработчиками ядра СУБД. Неполный список расширений:
- Blastgres - расширение для эффективной работы с биологическими последовательностями.
- PostGIS - поддержка геоданных.
- Owlgres - семантическое расширение PostgreSQL.

Кроме того, наша группа на протяжении почти 10 лет принимает активное участие в разработке PostgreSQL и использует его в разных проектах. В частности, мы занимаемся разработкой и поддержкой инфраструктуры расширяемости PostgreSQL (GiST, GIN), которая позволяет создавать пользовательские типы данных и запросы, нами разработан полнотекстовый поиск в PostgreSQL и некоторые другие расширения для эффективной работы с множествами.

Майк Стоунбрейкер в своем блоге про базы данных для Большой науки (www.databasecolumn.com/2007/11/databases-for-big-science.html) привел причины, по которым попытка использования PostgreSQL в начале 90-х годов (проект Sequoia 2000) для геофизических данных провалилась, из чего он сделал далеко идущий вывод, что никакие существующие СУБД (даже PostgreSQL) не могут предложить ничего для Большой науки, и призвал сообщество написать новую СУБД (SciDB) с нуля. Следует отметить, что с тех пор многое изменилось в PostgreSQL и, кстати, усилиями нашей группы были сильно улучшена инфраструктура расширяемости, введена поддержка массивов, иерархических данных. Кроме того, был разработан алгоритм индексации Q3C (q3c.sourceforge.net) очень больших данных со сферическими атрибутами (астрономические координаты, географические координаты), который активно используется в БД с миллиардами объектов.

Таким образом, не отрицая необходимость разработки новой БД для Большой науки, на что потребуется немалое количество лет, мы придерживаемся точки зрения, что необходимо проанализировать современный PostgreSQL для выявления возможных препятствий (bottleneck) в алгоритмах и структурах, изучить опыт сторонних компаний, которые добавили атрибутно-ориентированное хранилище (Yahoo Everest), параллельное исполнение запросов (Greenplum, AsterData). Мы планируем продолжать наши работы по системе расширяемости PostgreSQL, на основе которой будут реализованы новые расширения, тестирование и апробация которых предполагается на сайте Астронет, на котором есть возможность тестирования как на очень больших базах астрономических данных, так и на коллекции полнотекстовых документов. Результаты работ будут доложены на ежегодных конференциях разработчиков PostgreSQL и после дополнительного тестирования часть из них войдет в будущие версии PostgreSQL, тем самым они станут доступными большому количеству пользователей. Учитывая такие факторы, как широкое использование PostgreSQL в науке, его доступность, богатый набор возможностей, а также совместимость с коммерческими вариантами (для которых существует большое число научных приложений, т.е. должна обеспечиваться преемственность и возможность миграции), мы верим в его применимость как универсального хранилища для научных баз данных. В частности, мы планируем уже в рамках этого проекта начать работы по созданию сверхбольшого хранилища для космического проекта астрономического обзора неба совместно с РКК Энергия.

Comments and questions to Evgeny Rodichev, er@sai.msu.su
Last updated 19.04.2009.
Back to my home page