Комплексы для хранилищ данных – факты и вымыслы
Автор: Curt Monash
Дата публикации оригинала: 2007-12-03
Перевод: Константин Лисянский
Источник: Блог Курта Монаша
Заняв мем “Факт или вымысел?” из спортивного мира:
- Комплексы для хранилищ данных должны работать на специализированном аппаратном обеспечении. Вымысел. Несомненно, большинство соревнующихся, за исключением Teradata и Netezza — например, DATAllegro, Vertica, ParAccel, Greenplum, и Infobright — предлагают комплексы типа 2. (Dataupia является ещё одним исключением).
- Специализированное аппаратное обеспечение – это тупик для комплексов для хранилищ данных. Вымысел. Если бы для Teradata было легко заменить свою технологию коммутатора, они бы сделали это десять лет назад. Стратегия Netezza также имеет много привлекательного.
- Комплексы для хранилищ данных не являются ничем новым и потерпели неудачу уже давно. Вымысел, но только из-за Teradata. Дела пионера комплексов для хранилищ данных 1980-х Бриттона-Ли (Britton-Lee) шли не очень хорошо (на самом деле, его купила Teradata). IBM и ICL (Великобританский национальный чемпион-производитель аппаратного обеспечения) имели технологию хранения данных с адресацией по содержимому, которая ушла в никуда.
- Поскольку комплексы для хранилищ данных потерпели неудачу уже давно, они потерпят её сейчас тоже. Вымысел. Архитектура shared-nothing MPP является фундаментальным преимуществом комплексов. Так же, как и различные стратегии лёгкого индексирования.
- Комплексы для хранилищ данных имеют смысл, только если основная СУБД не справляется с нагрузкой. Вымысел. Существуют десятки комплексов для хранилищ данных, обрабатывающих менее 5 терабайт пользовательских данных, если даже не менее 1 терабайта. Это правда, что некоторые из них – это старые установки, сделанные в то время, когда СУБД Oracle не могла обрабатывать так много данных. Но, новые тоже появляются. Даже если Oracle или Microsoft SQL Server справляются с нагрузкой, комплекс для хранилищ данных часто оказывается намного превосходящим – дешевая, более легкая во внедрении и обслуживании и/или более высокопроизводительная альтернатива.
- Комплексы для хранилищ данных предназначены только для витрин данных. Для вашего корпоративного хранилища данных используйте обычную СУБД. Часть – факт, часть вымысел. Это зависит от комплекса и от сложности ваших потребностей. Системы Teradata могут делать практически всё. Netezza и DATAllegro, два самых старых стартапа по комплексам для хранилищ данных, долго работали над своими проблемами одновременной работы, и теперь могут поддерживать достаточно большое количество пользователей или большие нагрузки. Они также могут обрабатывать разумные объёмы транзакционных обновлений или обновлений небольшими порциями и возможно могут поддерживать полный набор требований к КХД для организаций хорошего размера. Несмотря на это, есть некоторые варианты использования, когда они плохо подходят. Более молодые производители комплексов ещё более ограниченны.
- Аналитические комплексы (Analytic appliances) – это просто переименованные комплексы для хранилищ данных. Факт, даже если и сбивающий с толку. Netezza использует термин «аналитический комплекс» (“analytic appliance”) для выделения дополнительных возможностей их устройств помимо ответов на запросы. Но, это, всё же, операции над витринами данных или хранилищем данных. А Vertica использует термин «аналитический комплекс» для обозначения в точности того, что значит «хранилище данных».
- Teradata – это лидирующий производитель комплексов для храилищ данных. Больше факт, чем вымысел. Некоторые обозреватели говорят, что системы Teradata не являются комплексами для хранилищ данных. Но, я думаю, что являются. Конкуренты могут превосходить Teradata по тем или иным характеристикам комплексов, например, в скорости инсталляции, но тяжело дать объективное определение термину «комплекс», которое будет исключать Teradata.
Если вам понравился этот пост, вам также может понравиться пост о фактах и вымыслах text mining.
Ссылки на статьи Курта по следующим категориям (на английском языке):
Analytic technologies, Data warehouse appliances, Data warehousing.
August 20th, 2008 at 8:37 pm
[…] роде, это дополнение к моему предыдущему посту о фактах и вымыслах о комплексах для хранилищ данных. *И это только табличные/буквенно-цифровые ребята. […]
August 21st, 2008 at 10:15 pm
[…] Правка: Чтобы почитать больше о рынке комплексов для хранилищ данных в целом, пожалуйста, обратитесь к посту от декабря 2007 года о фактах и вымыслах о комплексах для хранилищ данных. […]
September 4th, 2008 at 12:27 pm
[…]