Три подхода к распараллеливанию процесса преобразования данных
Автор: Curt Monash
Дата публикации оригинала: 2008-08-26
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша
Многие поставщики систем хранилищ данных с массивно-параллельной архитектурой уверяли меня, что их продукты используются для осуществления процесса ELT (Extract - Извлечение/Load - Загрузка/Transform - Преобразование), а не для ETL (Extract - Извлечение/Transform – Преобразование/Load - Загрузка). Т.е. необходимые преобразования данных выполняются на массивно-параллельной системе, а не на той системе, вероятно имеющей SMP-архитектуру, откуда берутся данные*. Если преобразование данных выполняется построчно, то оно автоматически полностью распараллеливается. Даже если преобразования являются более сложными, все равно обработка может в значительной степени носить параллельный характер.
*Или же процесс может объединять в себе элементы как ETL-, так и ELT-подхода; тогда его называют ETLT – держу пари, что вы сами можете определить, что эта аббревиатура обозначает.
Но, в зависимости от ваших потребностей, также заслуживают внимания, по меньшей мере, два других подхода к распараллеливанию процесса преобразования данных. Компания Pervasive Software, у которой имеется большой бизнес по интеграции данных, создала новый инструмент ETL. В качестве основания выступает «движок», написанный на Java, который имеет потоковую архитектуру, был специально разработан для многоядерных процессоров, и который в трехзвенной архитектуре занимает место среднего звена. Сейчас он маркетируется под названием Pervasive Datarush. Этот продукт находится на ранних этапах подготовки к выпуску, что, вероятно, может служить достаточным объяснением появления на сайте компании вот таких противоречивых сообщений:
- Вы можете получить Datarush бесплатно
- Если использование Datarush не приводит к ускорению процесса в 30 раз, то вы можете получить назад свои деньги
Третий подход является «Темой Недели»: MapReduce. Когда я опубликовал список канонических приложений MapReduce, мои друзья из компании Aster Data предложили мне еще одно – я упустил сферу преобразования данных. Говорит Маянк Бава (Mayank Bawa), CEO компании Aster Data:
Преобразования большого масштаба могут параметризованы в качестве функций SQL/MR для очистки данных и стандартизации, высвобождая потециал конвейеров ETL и делая возможной полную нормализацию моделей данных. Благодаря переносу в СУБД функции преобразования появляется возможность быстрого обнаружения и предварительной обработки данных для создания аналитических наборов данных, которые используются в таких инструментах, как SAS и SPSS.
Некоторые наши ссылки по теме MapReduce:
- The integration of MapReduce with SQL data warehousing
- Three major applications of MapReduce
- Sound bites about MapReduce
- Other links about MapReduce
Ссылки на статьи Курта по следующим категориям (на английском языке):
Aster Data, Data integration and middleware, Data warehousing, EAI, EII, ETL, ELT, ETLT, MapReduce, Parallelization, Pervasive Software
Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.
November 3rd, 2008 at 10:31 pm
[…] Другая область применения MapReduce […]
November 11th, 2008 at 10:25 am
[…] Другая область применения MapReduce […]