Известные области применения MapReduce

Автор: Curt Monash
Дата публикации оригинала: 2008-08-26
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша

Большинство существующих сфер использования MapReduce, о которых я слышал, попадают в одну из следующих категорий:

  • Выделение токенов из текста, индексирование и поиск по тексту
  • Создание других структур данных (например, графов)
  • Data mining и обучение машин

Этот список покрывает все области применения MapReduce, о которых, помнится, я слышал от компаний и пользователей, и он также содержит большинство тех приложений, которые я нашел в двух больших источниках в Интернете, а именно:

1. В своей презентации Google рассказывает о следующих задачах, для которых может быть применен MapReduce:

Читать дальше »

Опубликовано 07.11.2008 | Автор сообщения Олег Кузьменко | Категории: MapReduce, Monash, Curt, itblogs, Для продвинутых, Для экспертов, На русском, Разработчик приложений BI, Руководитель подразделения BI/DWH, Специалист data mining, Технический архитектор

Где пиво? Где памперсы?

Автор: Bill Inmon
Дата публикации оригинала - 2007-05-24
Источник: сайт B-Eye-Network

Когда комбинации данных обнаружены, аналитики должны определить являются ли корреляции случайными, несистематическими или имеют причинно-следственное взаимоотношение.

Ваша интуиция подсказывает вам, что поиск и обнаружение скрытых комбинаций данных – корреляций – является необходимым. В данных о продажах, обработке претензий, технологических данных и данных по трудовым ресурсам есть комбинации данных, которые повторяются. И при большом количестве цифр, с которыми сталкивается предприятие, данные корреляции данных зачастую скрыты.
Читать дальше »

Опубликовано 17.10.2008 | Автор сообщения Константин Лисянский | Категории: Business Intelligence, Data Mining, Inmon, Bill, Бизнес-аналитик, Для начинающих, Для продвинутых, На русском, Разработчик приложений BI, Розничная торговля, Руководитель подразделения BI/DWH, Специалист data mining

Почему MapReduce так важен для хранилищ данных?

Автор: Curt Monash
Дата публикации оригинала: 2008-08-26
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша

Как Greenplum, так и Aster Data только что объявили о том, что модель MapReduce была интегрирована в их MPP-системы хранилищ данных. Так почему я считаю, что это очень важное событие? Вот короткий ответ: «Да потому, что использование MapReduce приводит к гигантскому выигрышу в производительности в тех областях применения аналитических приложений, которые все еще нуждаются в улучшении производительности». Длинный ответ звучит вот так.

Основные идеи MapReduce таковы:

Читать дальше »

Опубликовано 05.10.2008 | Автор сообщения Олег Кузьменко | Категории: Aster Data, Greenplum, MapReduce, Monash, Curt, itblogs, Архитектор BI, Для продвинутых, Для экспертов, На русском, Руководитель подразделения BI/DWH, Специалист data mining, Технический архитектор Комментариев 2

Структурированные и неструктурированные данные

Преодоление разрыва

Автор: Билл Инмон
Дата публикации оригинала: 2007-06-21
Источник: сайт B-EyE-Network

Если между двумя мирами структурированных и неструктурированных данных может быть построен мост, то можно будет строить абсолютно новые виды систем.

В большинстве своём информационные системы возникли вокруг структурированных данных и систем. Структурированная среда состоит из данных, у которых есть поля, столбцы, таблицы, строки и индексы. Она сосредотачивается вокруг транзакций, в ней есть отчеты, аудит и определения слов. Со структурированной средой ассоциируется высокий уровень прогнозируемости и порядка.

Неструктурированная среда очень отличается от структурированной. В неструктурированной среде не существует специального порядка. Она состоит из текста, содержащегося в медицинских отчетах, гарантиях, контрактах, электронной почте и электронных таблицах. Для текста не существует правил, управляющих его созданием или использованием. Текст не имеет ключей, индексов, столбцов или атрибутов. Данный текст представлен в свободной форме и является неорганизованным. Тогда как структурированные данные являются организованными.
Читать дальше »

Опубликовано 24.09.2008 | Автор сообщения Константин Лисянский | Категории: Inmon, Bill, Архитектор BI, Бизнес-аналитик, Для начинающих, Для продвинутых, На русском, Разработчик моделей данных, Руководитель подразделения BI/DWH, Руководитель проекта от бизнеса, Специалист data mining, Управление метаданными

Data Mining. An Introduction. Student Notes

Введение в предмет data mining от центра параллельных вычислений университета Queens University Belfast.

Читать статью…

Опубликовано 07.06.2008 | Автор сообщения Константин Лисянский | Категории: Data Mining, Архитектор BI, Для начинающих, Для продвинутых, На английском, Разработчик приложений BI, Специалист data mining

The Data Warehouse Lifecycle Toolkit

The Data Warehouse Toolkit

Авторы: Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite

Хорошая книга для начала изучения хранилищ данных.
Эта книга даст вам понимание того, что нужно иметь в виду при построении хранилища данных. Она будет полезна как начинающим, так и специалистам, уже занимающимся хранилищами данных. Усилия по сбору информации в одно издание заслуживает уважения. Главы о многомерном моделировании очень хороши (автор является известным популяризатором данного подхода к моделированию). CD-ROM, который продается в комплекте с книгой, содержит много полезной информации, которая поможет вам сэкономить много времени, если ваш проект создается с нуля.
Тем не менее, после того, как вы прочитаете эту книгу, вам придётся поискать специализированные книги, посвященные различным аспектам построения хранилища данных, таким, например, как управление метаданными и управление качеством данных, поскольку они слабо освещены в книге. Я бы дал этой книге пять звездочек, если бы в ней не присутствовала явная агрессивность в отношении моделирования сущность-связь, которое, как я полагаю, имеет свое место в среде хранилищ данных.


Купить книгу на Amazon.com

А, вот это второе издание этой книги, вышедшее в январе 2008 года.

The Data Warehouse Lifecycle Toolkit, 2nd Edition

Авторы: Ralph Kimball, Margy Ross, Warren Thorntwaite, Joy Mundy, Bob Becker

Я пока её не прочитал - заказал, получил и поставил в очередь на чтение. Прочитаю, отпишу. Если кто-то уже прочитал, просьба поделиться своими мыслями.


Купить второе издание на Amazon.com

Опубликовано 20.05.2008 | Автор сообщения Константин Лисянский | Категории: Becker, Bob, Kimball, Ralph, Mundy, Joy, Reevs, Laura, Ross, Margy, Thornthwaite, Warren, Архитектор BI, Архитектор ETL, Архитектор данных, Бизнес-аналитик, Ведущий тестировщик, Для начинающих, Для продвинутых, Для экспертов, Книги, Менеджер метаданных, На английском, Проектирование многомерных моделей, Разработчик BI-портала, Разработчик ETL, Разработчик моделей данных, Разработчик приложений BI, Руководитель проекта, Специалист data mining, Специалист по обучению, Стюард данных

Dynamic Warehousing: Data Mining Made Easy

В этой публикации обсуждается методология и некоторые методы data mining. Показывается как эти методы можно применять. Книга ориентирована на использование инструментов IBM.

Читать…

Опубликовано 09.05.2008 | Автор сообщения Константин Лисянский | Категории: Data Mining, IBM, Для начинающих, Книги, Специалист data mining

Дюжина революций, которые так и не произошли в Business Intelligence (BI)

Производители программного обеспечения регулярно преподносят новые версии своих продуктов или новые возможности старых продуктов в качестве “прорыва”, ключевого изменения в стиле работы, фундаментального изменения самой концепции BI-решений. Очередное “ключевое изменение” должно облегчить использование BI-инструментов, открыть неизведанные глубины анализа и поразить изощренной, но в то же время и интуитивно понятной визуализацией данных или же вознести существующий функционал на “совершенно новый уровень”. Но большая часть подобных анонсов так и не воплощается в реальность, оставаясь на совести смелых маркетологов. Иногда задача ставится слишком амбициозно, и для ее решения не хватает уровня технологии, часто задача ищется под существующее решение, что всякий раз приводит к провалу.

Ниже приведен список 12 наиболее значительных “революционных изменений”, которые так и не произошли. Список, конечно, субъективен, но все изложенные идеи достаточно долго продвигались многими вендорами (или аналитическими агентствами), что подразумевает значительные инвестиции. Некоторые из этих предложений благополучно забыты, другие все еще ждут своего часа.

Читать дальше »

Опубликовано 01.05.2008 | Автор сообщения Константин Лисянский | Категории: Business Objects, CRM, Cognos, Computer Associates, Data Mining, Hyperion, IBM, Informatica, Microsoft, Microstrategy, OLAP, Oracle, Pendse, Nigel, SAP, SAS, SPSS, Teradata, Архитектор BI, Для продвинутых, Менеджер метаданных, Разработчик BI-портала, Разработчик приложений BI, Руководитель подразделения BI/DWH, Специалист data mining, Технический архитектор, Управление метаданными 1 комментарий

Совет №43. Работа со значениями NULL в многомерном моделировании

Большинство реляционных СУБД поддерживают использование значения NULL для представления отсутствующих данных. NULL сбивает с толку как разработчиков хранилищ данных, так и пользователей, потому что СУБД обрабатывает отсутствующие значения иначе, нежели нули и пустые строки, хотя NULL и очень похожи на последние. В этом совете исследуются три основных области, в которых мы сталкиваемся с отсутствующими значениями в исходных данных, и даются рекомендации по действиям в каждой ситуации.

Читать дальше »

Опубликовано 16.04.2008 | Автор сообщения Егор Демьянов | Категории: Thornthwaite, Warren, Аналитик качества данных, Архитектор BI, Архитектор ETL, Архитектор данных, Для продвинутых, Проектирование многомерных моделей, Разработчик моделей данных, Разработчик приложений BI, Советы разработчику ХД, Специалист data mining, Стюард данных