Автор: Bill Inmon
Дата публикации оригинала - 2007-08-30
Источник - сайт B-Eye-Network

Исследовательское хранилище данных – это физически отдельное хранилище данных, разработанное для предоставления специалистам в области статистики возможности обрабатывать данные так часто, как они этого хотят, без оказания воздействия на постоянных пользователей хранилища данных.

Итак, вы построили хранилище данных. У вас есть витрины данных, которые вы наполняете. У вас есть пользователи, которые регулярно обращаются к хранилищу данных. У вас есть аналитик, который иногда ищет в данных что-то непонятное. Ваше хранилище данных начало функционировать с приемлемого размера и теперь начинает трещать по швам. Жизнь хороша – всё довольно неплохо.

Но однажды в вашу дверь стучится статистик. Его интересуют все данные, которые у вас есть, а особенно интересует тот факт, что данные интегрируются из многих источников, и что они уже очищены. Если добавить еще тот факт, что данные существуют на самом низком уровне детализации, то статистик будет в полном восторге.

Итак, статистик возвращается к этой куче данных и решает провести анализ. Для анализа он назначает время в пятницу трёхдневного уикэнда. Для того чтобы провести анализ, статистик обращает внимание на большой объем детализированных данных, к примеру, на показатели продаж за пять лет. Во вторник специалист приходит и смотрит на результаты. Он очень взволнован и говорит: “Мы должны включить в результаты также и значения продаж в Канаде и Мексике для получения более точных показаний. Первый анализ был хорошим, но мы можем сделать еще лучше”.

Итак, специалист по статистике хочет, чтобы анализ проводился в следующий уикэнд. Единственная проблема состоит в том, что в этот уикэнд должен проходить специальный ETL-процесс. Специалист по статистике уходит и ждёт начала следующей недели.

Выходные проходят. Статистик готов к просмотру. Но в пятницу после полудня при загрузке базы данных была обнаружена ошибка, и значения данных за всю неделю подверглись повторной обработке. Статистик понимает это, он разгневан. Но статистик напрасно ждет своей очереди.

Наконец выходные проходят, и статистик возвращается. Анализ получен. Статистик приходит в понедельник, результаты действительно хорошие. Однако при разговоре со специалистами по маркетингу выясняется, что необходим другой тип продаж. Статистик быстро поправляет параметры и готов повторно представить данные.

Проблема состоит в том, что администратор баз данных говорит статистику, что самое раннее, когда можно будет провести следующий аналитический запуск данных – это только через месяц, начиная с сегодняшней даты.

Статистик и отдел маркетинга в гневе. Они жалуются, что итоговые показатели деятельности организации страдают от того, что нельзя провести такой статистический анализ, какой они хотят. Администратор баз данных указывает на то, что если значительный статистический анализ в хранилище данных проводится в середине дня, его сервис перестает быть приемлемым для всех постоянных пользователей хранилища данных.

Кто прав, и как можно разрешить это обстоятельство?

Ответ состоит в том, что и статистик, и администратор баз данных по-своему правы. Но есть решение.

Исследовательское хранилище данных

Войдите в исследовательское хранилище данных. Исследовательское хранилище данных – это хранилище данных, которое физически отделено от корпоративного хранилища данных. Основной целью исследовательского хранилища данных является предоставление места, где бы статистик мог проводить свою работу так часто, как он того хочет, не обращая внимания на постоянных пользователей хранилища данных. Так как исследовательское хранилище данных обязательно физически отделено от корпоративного хранилища данных, между той и другой средой не может быть конфликтов.

Есть еще несколько причин для разделения исследовательского хранилища данных и корпоративного хранилища данных. Одной из таких причин является необходимость замораживать данные в исследовательском хранилище данных. В корпоративном хранилище данных данные обычно появляются, как только они готовы. В результате этого корпоративное хранилище данных содержит наиболее свежие данные. Однако в исследовательском хранилище данных зачастую необходимо заморозить данные. Это необходимо в связи с тем, что когда один цикл обработки данных завершён, и проведено его сравнение с результатами предыдущего анализа, данные необходимо заморозить. Если данные не будут заморожены, то результаты одного цикла анализа могут обуславливаться различиями в данных, а не различиями в алгоритмах или анализе.


Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

Читайте также: