Горы данных предприятия, Часть 3
Основные данные и бизнес-аналитика
Автор: Colin White
Дата публикации оригинала: 2006-11-27
Источник: Сайт BeyeNETWORK
В среде бизнес-аналитики, основные данные отражают то, как бизнес-информация изменилась со временем; указанные исторические основные данные могут объединяться с другими историческими данными бизнес-транзакций для подготовки аналитических отчетов.
В части 1 данной серии статей, я обсуждал различные способы хранения и управления данными, связанные с пятью основными типами бизнес-процессов, которые существуют в организации. В части 2 я продолжил это обсуждение, детально рассмотрев обработку основных данных, уделяя особое внимание отношениям между основными данными и операционными процессами бизнес-транзакций. В этой третьей и последней части я хочу обсудить отношение между основными данными и аналитической обработкой бизнес-аналитики (BI).
Основные данные операционной среды бизнес-транзакций отражают текущую информацию об основных бизнес-единицах предприятия, таких как клиенты, месторасположения, и продукция. В среде BI основные данные отражают то, как эта бизнес-информация изменяется со временем. В случае основных данных клиента, система BI может записывать различные адреса, которые были у клиента, то, как рейтинг кредитоспособности клиентов меняется со временем и прочее. Эти исторические основные данные могут объединяться с другими историческими данными бизнес-транзакций для подготовки аналитических отчетов. Информация о клиентах и их покупках может использоваться, например, для подготовки отчетов, определяющих основных клиентов или для иллюстрации того, как модели поведения покупателей меняются со временем на основе их рейтингов кредитоспособности.
Основные данные в среде BI также могут использоваться для прогнозирования. Если компания предлагает переформировать свои регионы продаж, это может создать новый набор основных данных для отражения новых сбытовых организаций и объединения указанных новых основных данных с историческими данными о продажах для предсказания эффекта данных изменений в продажах.
Управление операционными основными данными: повторение
В традиционной среде обработки операционных бизнес-транзакций основные данные обычно распределены по многим операционным системам и смешаны с другими типами данных бизнес-транзакций. Как я отмечал в моей последней статье, существуют значительные преимущества в поддержании стабильного и актуального представления данных в системах бизнес-транзакций.
Существуют три подхода для достижения этого:
- Продвигать и синхронизировать изменения основных данных между операционными системами ввода, так чтобы все системы бизнес-транзакций оставались стабильными.
- Консолидировать основные данные из многих операционных систем ввода в единое хранилище основных данных, которое затем действует как система записи.
- Переводить операционные системы ввода основных данных в новую систему управления основными данными (MDM).
Как я упомянул в части 2 этой серии, переход к системе MDM на предприятии требует у организаций определенного времени для осуществления данного перехода. Компании могут начать с Подхода 1, а затем постепенно реализовывать Подходы 2 и 3. В некоторых случаях создание полностью соответствующей системы MDM на предприятии невозможно по политическим или технологическим причинам, и поэтому в результате компромиссных решений могут возникать исключительные ситуации. Однако долгосрочной целью является развитие среды MDM на предприятии.
Управление основными данными для аналитической обработки BI
То, как осуществляется управление историческими основными данными в системе BI для аналитических целей, зависит от того, как осуществляется управление этими основными данными в системах операционных бизнес-транзакций. Давайте рассмотрим каждый из трех подходов к управлению основными данными, а затем рассмотрим то, как каждый подход влияет на способ обработки основных данных в системе BI.
Подход 1: С помощью Подхода 1 операционные основные данные остаются стабильными, но по-прежнему распределены между многими операционными системами и смешаны с другими типами данных бизнес-транзакций. Эти смешанные основные данные и данные бизнес-транзакций могут извлекаться и интегрироваться в хранилище данных тем же способом, с помощью которого любой тип операционных данных поступает в среду BI. Однако во время процесса интегрирования данных сверка данных должна быть более простой, потому что источники основных данных сохраняются стабильными в операционной среде.
Другим вариантом при Подходе 1 является отделение основных данных от других данных бизнес-транзакций при их поступлении в среду BI и консолидирование их в историческом хранилище основных данных (MDS). Многие компании начинают свои инициативы в области MDM с построения исторического MDS. Иногда в случаях с этими инициативами не делается попыток реализации Подхода 1 в операционной среде, а вместо этого основные данные синхронизируются при построении исторического MDS.
Подход 2: С помощью Подхода 2 операционные основные данные консолидируются в одно операционное MDS. Этот подход может использоваться совместно с Подходом 1 или независимо от него. Если Подход 1 не используется, тогда синхронизация основных данных происходит при построении операционного MDS.
Операционное MDS содержит текущие основные данные, которые имеют латентность равную нулю или ниже нуля в сравнении с данными в операционных системах ввода, из которых они поступают. Операционное MDS становится системой записи для связанных с ним основных данных. В некоторых проектах операционное MDS используется для исправления ошибок в исходных системах, если Подход 1 не используется для синхронизации операционных основных данных.
Для BI-обработки существует два варианта обработки основных данных в операционном MDS. Первый вариант заключается в использовании операционного MDS в качестве источника данных для хранилища данных. Второй вариант заключается в использовании единого интегрированного хранилища как для операционных, так и для исторических основных данных – это может рассматриваться как гибридное MDS.
Подход 3: С помощью Подхода 3 система MDM на предприятии действует и как система ввода, и как система записи для основных данных. Хранилище основных данных в этой среде может быть операционным MDS, которое становится источником данных для хранилища данных, либо оно также может быть гибридным операционным и историческим MDS.
Где должно осуществляться управление историческими основными данными?
Как мы можем видеть, управление историческими основными данными может осуществляться в историческом MDS или в хранилище данных. То, какой из этих вариантов лучше, является противоречивой и иногда горячо обсуждаемой темой. Данную противоречивую ситуацию участники делают еще более запутанной, зачастую не проводя различий между логическими и физическими концептами. Таким образом, тот факт, что многие компании использовали свои системы хранилищ данных для осуществления единого представления бизнес-единиц, таких как клиенты, приводит к формированию позиции, когда хранилища данных зачастую рассматриваются в качестве хорошего места для старта проекта основных данных. В более отдаленной перспективе эта позиция может оказаться неподходящей.
Управление основными данными представляет собой скорее логическую, чем физическую проблему обработки данных. Как я уже говорил ранее в части 2 этой статьи, главный вопрос здесь, скорее, заключается в основных метаданных, чем в основных данных. Модели и определения большей части бизнес-единиц являются очень сложными и постоянно меняются при развитии бизнеса. Взгляните на модель данных бизнес-единицы «клиент» и вы поймете, что я имею в виду. Организации должны отслеживать не только текущие основные метаданные и данные, но также то, как эти метаданные и данные меняются со временем. Это необходимо не только в целях анализа, но также зачастую и по правовым причинам. Способность отслеживать и записывать отношения между различными бизнес-единицами также является потребностью многих организаций. Хорошим примером здесь является способность связывать клиентов с продуктами, которые они покупают.
Управление сложными иерархиями и отношениями основных данных лучше осуществляется за пределами среды, объединяющей хранилища данных. Методики проектирования хранилищ текущих данных (например, такие как медленно меняющиеся измерения) могут позволять обрабатывать подмножества основных данных и отношения между основными данными, но они абсолютно не подходят для поддержания полной картины бизнес-единиц и отношений основных данных в организации, а также того, как они изменяются со временем.
Удержание основных данных за пределами хранилища данных также позволяет организациям более легко перейти от своего собственного хранилища основных данных к завершенной среде MDM на предприятии (смотрите рисунок 1). Это хранилище может использоваться как для текущих, так и для исторических основных данных. В этой среде приложения BI осуществляют доступ к основным данным из гибридного MDS и к историческим данным бизнес-транзакций – из хранилища данных. Для простоты в доступе и выполнении подмножество данных MDS может копироваться с равными интервалами в хранилище данных. В многомерном хранилище данных это подмножество основных данных используется для наполнения таблиц измерений хранилища данных.
Рисунок 1: Среда MDM на предприятии
В будущем некоторые компании могут развиваться и создавать гибридное MDS, оперативный склад данных (ODS) для интеграции текущих данных бизнес-транзакций, а также множество витрин данных для хранения итоговой и исторической бизнес-аналитики. В такой среде хранилище данных предприятия может быть ненужным, потому что за пределами среды основных данных создается больше данных бизнес-транзакций, чем обновляется. Например, бизнес-взаимодействия ATM и POS создают данные транзакций, но эти данные редко обновляются. Если они обновляются, для аналитических целей изменения не требуются. Однако эта тема является предметом другой статьи. Я также говорю это в какой-то мере в шутку, потому что, конечно, это является спорным. Размышляя над этим важно выйти за общие рамки. Существующее положение вещей в бизнес-аналитике не обязательно останется наилучшим подходом в будущем.
Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.
