Несколько тезисов о MapReduce
Автор: Curt Monash
Дата публикации оригинала: 2008-08-25
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша
В прошлый четверг (статья написана 25 августа с.г.- прим. переводчика) как Greenplum, так и Aster Data, два самых последних из моих многочисленных клиентов – поставщиков систем для хранилищ данных, сообщили мне об одной и той же новинке в их продуктах. Оба же поторопились объявить об этом первыми, перед тем, как это сделает кто-то другой. Это привело к немалому числу дипломатических маневров; в результате дело кончилось тем, что обе компании выпустят информацию о нововведении сегодня вечером или завтра утром.
Дело в том, что Aster Data и Greenplum обе интегрировали MapReduce в свои СУБД, построенные на основе массивно-параллельной архитектуры без разделения ресурсов. Я вскоре напишу об этом подробнее, но пока позвольте мне «набросать» несколько тезисов перед тем, как последует более детальный анализ:
- СУБД подобные системам Greenplum или Aster Data, построенные на основе массивно-параллельной архитектуры без разделения ресурсов, отличаются большой производительностью. Но иногда вам надо «выдать» еще больше. Тогда в дело вступает MapReduce.
- Сам по себе MapReduce может сделать много важной работы по обработке и анализу данных. Интеграция MapReduce с SQL увеличила бы его мощь и сферу применения.
- Google добился великолепных результатов от использования MapReduce. В столь же степени впечатляющ и успех Hadoop. Теперь и коммерческие реализации MapReduce тоже получают свой шанс.
- В сущности, большинство методов анализа данных достаточно незамысловаты – они сводятся к использованию арифметики, булевой логики, сортировки, и немного еще чего-то другого. MapReduce может выполнять значительную долю этой работы.
- Самая трудная часть анализа данных часто заключается в нахождении сущностей или семантических эквивалентностей. Остальное – это арифметика, булева логика, сортировка и т.д. MapReduce уже зарекомендовал себя в ситуациях, которые охватывают все эти области.
- Мощь MapReduce заключается, главным образом, не в управлении данными, а в параллелизме.
- Использование MapReduce позволяет добиться большого выигрыша в производительности в тех областях применения аналитических приложений, которые все еще нуждаются в улучшении производительности.
- MapReduce не нужен для задач управления данными, хранимыми в виде таблиц. Эти задачи были эффективно распараллелены другими способами. Но если вы хотите построить такие структуры, как текстовые индексы или графы, вот тут MapReduce приносит большую помощь.
- В принципе, любые данные, представленные в алфавитно-цифровом виде, могут храниться в таблицах. Но в случае большого числа размерностей такие таблицы получаются сверхразреженными. Вот тут использование MapReduce может принести большую пользу, обходя при этом реляционные базы данных. Примеры таких ситуаций можно найти в задачах CRM и анализа взаимоотношений.
Вот некоторые из наших постов о MapReduce
- Интеграция MapReduce и хранилищ данных
- Три основных области применения MapReduce
- Другая область применения MapReduce
- Другие ссылки о MapReduce
Ссылки на статьи Курта по следующим категориям (на английском языке):
Analytic technologies, Aster Data, Greenplum, MapReduce, Parallelization
Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.