Автор: Константин Лисянский

В силу жизненных обстоятельств появилось немного свободного времени, и я решил немного времени потратить на изучение продукта DATAllegro - его прошлого и потенциального будущего в виде проекта Madison компании Microsoft.

Общая информация

Начнём с того, что DATAllegro - это комплекс для хранилищ данных (data warehouse appliance), то есть комбинация аппаратного и программного обеспечения, предназначенная для решения специализированных задач - в данном случае, выступать в качестве платформы для хранилищ данных (DWH).

Это продукт одноимённой компании (которая в прошлом году была приобретена Microsoft, но об этом позднее).

Информация о продукте доступна на сайте DATAllegro. В открытом доступе информации о продукте немного - только несколько маркетинговых материалов, поэтому для более глубокого знакомства необходимо зарегистрироваться и воспользоваться их библиотекой, которая располагается на сайте. Что я, собственно, и сделал.

В библиотеке содержится несколько разделов:

  • CIO Series
  • White Papers
  • Articles
  • Customers
  • Webinars

Тем, кто хочет познакомиться с технологией поближе, рекомендую зарегистрироваться и почитать материалы. Для тех, у кого времени не так много, приведу ниже свои краткие соображения, которые, возможно, помогут понять, в чём тут дело.

Технология

Как я уже писал - это комплекс. В качестве аппаратной платформы он использует массовые компоненты - серверы Dell, дисковую подсистему EMC, коммутаторы Cisco InfiniBand, в качестве СУБД - Ingres плюс собственные программные модули для превращения этого всего в массивно-параллельную систему (MPP).

Одной из основных идей в случае DATAllegro является то, что в СУБД (а в особенности, в СУБД для хранилищ данных) самым узким местом являются диски (в основном, за счёт большого времени поиска), поэтому все усилия направлены на то, чтобы укориться здесь. За счёт чего? За счёт работы с блоками большего размера, за счёт сжатия (data compression) и за счёт распараллеливания и использования хэш-партишионинга (для равномерного распределения данных по узлам и возможности эффективного соединения таблиц с помощью хэш-джойнов). Помимо этого, речь также идёт о сжатии даных более, чем в 3 раза (что, опять-таки, позволяет сократить работу с дисками) и о дополнительных (кроме хэш) возможностях партишионинга (в частности, партишионинг по датам для поддержки концепции multi-temperature data warehousing).

Индексированию (indexing) в DATAllegro уделяется не так много внимания, как в других СУБД.

Подробной детальной информации о программной архитектуре комплекса на сайте найти мне пока не удалось. Либо её просто не успели описать для широкой публики в силу размера компании и недолгого срока её существования, либо в силу того, чтобы не отдавать эту информацию потенциальным конкурентам.

Позиционирование

Позиционируется DATAllegro как платформа для реализации архитектуры hub-and-spoke architecture. Это в противовес, например, компании Teradata, которая защищает подход корпоративного хранилища данных. DATAllegro (в лице некоторых независимых консультантов) рекомендует использовать свой комплекс либо как дополнение к хранилищу на Teradata (как инструмент для более дешёвого выполнения некоторых задач, не требующих дорогостоящей системы Teradata), либо как замену Терадате (в качестве причин указывается более высокая производительность и более низкая стоимость).

Стоимость

Как уже писалось выше, DATAllegro позиционируется как более дешёвая платформа, чем, к примеру, Teradata.

На этом, пожалуй, и завершу, поскольку сейчас не понятно сколько это будет стоить, когда проект Madison завершится выходом нового продукта.

Скорее всего, будет дешёво (в стиле Microsoft), но мне кажется, всё же, лучше дождаться выхода продукта, а потом уже сравнивать.

DATAllegro в Microsoft

Как уже сообщалось выше, в прошлом году Microsoft приобрела DATAllegro. Было обещано, что технология DATAllegro будет выведена в массы менее, чем за два года. При этом первый CTP они пообещали сделать в течение 12 месяцев со дня приобретения.

Microsoft поддерживает существующие продукты DATAllegro. Однако информации о поддержке очень мало. Всё, что есть – это отсылка на сайт поддержки (чтобы её получить нужно иметь логин, поэтому оценить уровень поддержки не представляется возможным).

На своей BI-конференции в октябре 2008 года компания Microsoft представила проект Madison – решение, основанное на комбинации технологий Microsoft SQL Server и DATAllegro. Презентацию можно скачать здесь.

Есть сайт, вроде бы, посвящённый проекту Madison, но найти подробной информации о технических деталях мне там не удалось. Есть пара ссылок на статьи, содержимое которых во многом повторяет содержимое статей от DATAllegro:

Похоже, придётся подождать, когда Microsoft сделает официальное объявление о готовности новой платформы чтобы познакомиться с ней поближе. А пока можно, основываясь на информации о DATAllegro и SQL Server, предполагать на что будет похоже скомбинированное решение.


Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

Читайте также: