Моё знакомство с Vertica

Автор: Константин Лисянский

Продолжая серию знакомств с “альтернативными” технологиями для хранилищ данных (DWH), я решил посмотреть на СУБД Vertica Analytical Database компании Vertica Systems. Вашему вниманию предлагаются основные моменты, которые я почерпнул из документов, предоставленных компанией.

Общая информация

Компания Vertica Systems является производителем колоночной СУБД (columnar database) для хранилищ данных. Одним из основателей компании является Майк Стоунбрейкер (Stonebraker), что уже говорит о многом. Информация о продукте доступна на сайте компании. Прототипом для коммерческой СУБД Vertica послужила академическая СУБД C-Store, которая разрабатывалась под руководством Стоунбрейкера.

Продукт можно причислить к классу software only, но, как и в случае с другими вендорами этого класса, Vertica в партнёрстве с HP и Red Hat предлагают комплекс для хранилищ данных (data warehouse appliance). Помимо этого, Vertica в партнёрстве с Amazon предлагает свою СУБД в режиме cloud computing.
Читать дальше »

Опубликовано 11.03.2009 | Автор сообщения Константин Лисянский | Категории: Cloud computing, DWH, MPP, MapReduce, RDF, Vertica, Архитектор BI, Для начинающих, Для продвинутых, Для экспертов, Колоночные СУБД, Лисянский, Константин, На русском, Руководитель подразделения BI/DWH Комментариев 6

Моё знакомство с Aster Data

Автор: Константин Лисянский

Немного поближе познакомившись с технологиями DATAllegro и Greenplum я решил продолжить знакомство с “альтернативными” технологиями для хранилищ данных (DWH). В этот раз такой технологией стала технология Aster nCluster компании Aster Data.

Общая информация

Компания Aster Data Systems является производителем СУБД для хранилищ данных под названием Aster nCluster. Основали компанию сравнительно недавно три выпускника Стэндфордского университета, которые специализировались на параллельных вычислениях.

Проукт пока не попал в магический квадрат Gartner, однако, они упоминают о нём (обещают наблюдать за ним в течение 2009 года).
Читать дальше »

Опубликовано 04.03.2009 | Автор сообщения Константин Лисянский | Категории: Aster Data, Cloud computing, DWH, MPP, MapReduce, itblogs, Архитектор BI, Для начинающих, Для продвинутых, Для экспертов, Лисянский, Константин, На русском, Руководитель подразделения BI/DWH

Моё знакомство с Greenplum

Автор: Константин Лисянский

Немного познакомившись с технолоией DATAllegro я решил посмотреть на одного из их конкурентов - Greenplum.

Информация об этом производителе присутствует ограниченно на нашем сайте, в основном, в статьях Курта Монаша. Поэтому я решил составить своё (пока поверхностное) мнение о их продукте.

Общая информация

Компания Greenplum является производителем СУБД для хранилищ данных под названием Greenplum Database.

Gartner позиционирует Greenplum как Visionary.
Читать дальше »

Опубликовано 27.02.2009 | Автор сообщения Константин Лисянский | Категории: DATAllegro, DWH, Greenplum, MPP, MapReduce, Open Source, Teradata, itblogs, Архитектор BI, Для начинающих, Для продвинутых, Для экспертов, Лисянский, Константин, На русском, Руководитель подразделения BI/DWH

Известные области применения MapReduce

Автор: Curt Monash
Дата публикации оригинала: 2008-08-26
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша

Большинство существующих сфер использования MapReduce, о которых я слышал, попадают в одну из следующих категорий:

  • Выделение токенов из текста, индексирование и поиск по тексту
  • Создание других структур данных (например, графов)
  • Data mining и обучение машин

Этот список покрывает все области применения MapReduce, о которых, помнится, я слышал от компаний и пользователей, и он также содержит большинство тех приложений, которые я нашел в двух больших источниках в Интернете, а именно:

1. В своей презентации Google рассказывает о следующих задачах, для которых может быть применен MapReduce:

Читать дальше »

Опубликовано 07.11.2008 | Автор сообщения Олег Кузьменко | Категории: MapReduce, Monash, Curt, itblogs, Для продвинутых, Для экспертов, На русском, Разработчик приложений BI, Руководитель подразделения BI/DWH, Специалист data mining, Технический архитектор

Несколько тезисов о MapReduce

Автор: Curt Monash
Дата публикации оригинала: 2008-08-25
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша

В прошлый четверг (статья написана 25 августа с.г.- прим. переводчика) как Greenplum, так и Aster Data, два самых последних из моих многочисленных клиентов – поставщиков систем для хранилищ данных, сообщили мне об одной и той же новинке в их продуктах. Оба же поторопились объявить об этом первыми, перед тем, как это сделает кто-то другой. Это привело к немалому числу дипломатических маневров; в результате дело кончилось тем, что обе компании выпустят информацию о нововведении сегодня вечером или завтра утром.

Дело в том, что Aster Data и Greenplum обе интегрировали MapReduce в свои СУБД, построенные на основе массивно-параллельной архитектуры без разделения ресурсов. Я вскоре напишу об этом подробнее, но пока позвольте мне «набросать» несколько тезисов перед тем, как последует более детальный анализ:

Читать дальше »

Опубликовано 03.11.2008 | Автор сообщения Олег Кузьменко | Категории: Aster Data, DWH, Greenplum, MPP, MapReduce, Monash, Curt, itblogs, Для начинающих, Для продвинутых, Для экспертов, На русском, Руководитель подразделения BI/DWH, Технический архитектор

Почему MapReduce так важен для хранилищ данных?

Автор: Curt Monash
Дата публикации оригинала: 2008-08-26
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша

Как Greenplum, так и Aster Data только что объявили о том, что модель MapReduce была интегрирована в их MPP-системы хранилищ данных. Так почему я считаю, что это очень важное событие? Вот короткий ответ: «Да потому, что использование MapReduce приводит к гигантскому выигрышу в производительности в тех областях применения аналитических приложений, которые все еще нуждаются в улучшении производительности». Длинный ответ звучит вот так.

Основные идеи MapReduce таковы:

Читать дальше »

Опубликовано 05.10.2008 | Автор сообщения Олег Кузьменко | Категории: Aster Data, Greenplum, MapReduce, Monash, Curt, itblogs, Архитектор BI, Для продвинутых, Для экспертов, На русском, Руководитель подразделения BI/DWH, Специалист data mining, Технический архитектор Комментариев 2

Три подхода к распараллеливанию процесса преобразования данных

Автор: Curt Monash
Дата публикации оригинала: 2008-08-26
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша

Многие поставщики систем хранилищ данных с массивно-параллельной архитектурой уверяли меня, что их продукты используются для осуществления процесса ELT (Extract - Извлечение/Load - Загрузка/Transform - Преобразование), а не для ETL (Extract - Извлечение/Transform – Преобразование/Load - Загрузка). Т.е. необходимые преобразования данных выполняются на массивно-параллельной системе, а не на той системе, вероятно имеющей SMP-архитектуру, откуда берутся данные*. Если преобразование данных выполняется построчно, то оно автоматически полностью распараллеливается. Даже если преобразования являются более сложными, все равно обработка может в значительной степени носить параллельный характер.
Читать дальше »

Опубликовано 30.09.2008 | Автор сообщения Олег Кузьменко | Категории: Aster Data, DWH, ETL, MPP, MapReduce, Monash, Curt, Pervasive Software, itblogs, Архитектор ETL, Для начинающих, Для продвинутых, Для экспертов, На русском, Разработчик ETL, Руководитель подразделения BI/DWH, Технический архитектор Комментариев 2