Горы данных предприятия, Часть 2
Хранение и управление основными данными
Автор: Colin White
Дата публикации оригинала: 2006-10-23
Источник: Сайт BeyeNETWORK
У большей части организаций нет среды управления основными данными на предприятии. Вместо этого есть много систем ввода для определенного типа основных данных, что вызывает сложности с поддержанием качества данных и их системности.
В части 1 данной статьи я рассматривал интеграцию данных с точки зрения пяти основных типов бизнес-процессов, которые существуют в организациях, а также различные способы, с помощью которых может осуществляться хранение и управление данными, относящимися к этим процессам. В этой статье я хочу продолжить данное обсуждение, детально рассмотрев вопрос хранения и управления данными, относящимися к процессам управления основными данными.
Управление основными данными (MDM) определяется как “Ряд дисциплин, приложений и технологий для согласования и управления системами ввода и системами записи данных и метаданных, относящихся к основным бизнес-единицам в организации.”
Перед началом рассмотрения данного вопроса важно определить термины система ввода и система записи. Система ввода является прикладной системой, которая отвечает за создание и управление основными данными, относящимися к одной или более основной бизнес-единице (клиенты, продукты, активы и т.д.) Система записи является прикладной системой, которая отвечает за публикацию единого интегрированного взгляда на основные данные в масштабах предприятия и обеспечение достоверности данного взгляда.
Существование большого количества систем ввода
В полностью соответствующей среде управления основными данными на предприятии системы ввода и системы записи являются одними и теми же системами. Это исключает избыточность данных и улучшает качество данных и их системность. Однако в большей части организаций нет среды управления основными данными на предприятии. Вместо этого управление основными данными осуществляется с помощью большого количества разрозненных приложений бизнес-транзакций, при этом существует большое количество систем ввода и систем записи для определенного типа основных данных, как, например, данные о клиентах. Для создания единого интегрированного подхода к основным данным система записи должна собирать и интегрировать основные данные от каждой системы ввода.
Одной из самых больших трудностей при существовании большого количества систем ввода является поддержание качества данных и их системности. Это было бы легче сделать, если бы системы ввода использовали те же сервисы качества данных, что и система записи. Однако же в большей части организаций этого не происходит, потому что существует широкий ряд приложений бизнес-транзакций, которые созданы в соответствии со специальными требованиями клиента и используются при этом независимо друг от друга.
Для решения вопросов качества и системности основных данных многие компании начинают интегрировать рассредоточенные основные данные в оперативных складах данных (ODS) для бизнес-транзакций (BTx) оперативных приложений, а исторические детализированные и суммированные основные данные в хранилищах данных для приложений анализа и отчетности бизнес-аналитики (смотрите рисунок 1). В некоторых случаях ODS становятся источником данных для системы хранилищ данных и связанных с ней приложений BI. Создание единого взгляда на клиента становится обычным приложением для данного типа интеграции.
Основные данные в ODS и хранилище данных смешиваются с обычными данными бизнес-транзакций, такими как дебет и кредит счета, заказ деталей и так далее.
Рисунок 1: Интеграция основных данных для процессов BI
Основные данные предоставляют пути доступа к обычным данным бизнес-транзакций. Это позволяет, например, группировать и суммировать заказы клиентов по номеру продукта, продавцу и региону. В схеме, представленной в форме звезды, основные данные являются данными измерений, а обычные данные бизнес-транзакций – фактическими данными. Этот способ интеграции основных данных предоставляет некоторые преимущества, но не решает все проблемы компаний, у которых есть основные данные.
Регулирование сложности основных данных
Основные данные не такие изменчивые и многочисленные как обычные данные бизнес-транзакций. У компаний не появляются сотни новых клиентов или изменений в спецификациях материалов в секунду. У телекоммуникационных компаний и больших розничных компаний миллионы клиентов, но даже у них основные данные являются относительно небольшими в сравнении с количеством обычных бизнес-данных, создаваемых этими клиентами.
Самой большой проблемой основных данных является сложность. Например, определение клиента очень запутано во многих организациях. Отношения между клиентами и их роли зачастую зависят от того, какая часть организации рассматривает клиента. Эти отношения и роли постоянно меняются, так как компании объединяются и реорганизуются. Компании хотят отслеживать данные изменения в течение хода времени для того, чтобы анализировать влияние данных реорганизаций или изменений продукта. Они также хотят понимать отношения между различными типами основных данных, такими как, к примеру, клиент и продукт, а также то, как это влияет на их бизнес.
Сложность основных данных в действительности более относится к вопросу метаданных, чем к проблеме данных. Бизнес-модели основных данных постоянно изменяются. У некоторых компаний происходят сотни изменений моделей каждый месяц. Они могут пытаться отслеживать данные изменения с использованием таких способов, как медленно изменяющиеся измерения, но эти способы являются временными, что редко позволяет компаниям видеть полную картину по основным бизнес-единицам или по их отношениям с другими единицами в течение времени.
Решением проблемы сложности основных данных является создание единой системы управления основными данными на предприятии, которая действует и как система записи, и как система ввода для всех основных данных. Эта система в дальнейшем при необходимости предоставляет основные данные для бизнес-транзакций и приложений бизнес-аналитики.
Создание системы управления основными данными (MDM) на предприятии является сложным для большей части организаций и требует для своей реализации несколько лет. В некоторых случаях создание единой системы MDM не является возможным, потому что существует определенное количество старых систем, которые должны были изменяться по политическим причинам, а также вследствие того, что выделились некоторые аспекты управления основными данными. Тем не менее, все компании должны иметь своей долгосрочной целью создание такой системы и должны составить план своего итерационного движения в этом направлении.
Для понимания того, как итерационно двигаться к созданию системы MDM на предприятии мы должны рассмотреть то, как основные данные обрабатываются оперативными приложениями бизнес-транзакций и анализируются приложениями бизнес-аналитики. Мы также должны рассмотреть три временных периода жизни метаданных: прошлое, настоящее и будущее.
Поддержка текущих оперативных основных данных
Давайте начнем с настоящих или текущих основных данных. Этот тип основных данных в основном связан с приложениями оперативной обработки, для которых необходим постоянный и актуальный взгляд на основные данные. Существует три пути для достижения этого:
- Распространение и синхронизация изменений основных данных между системами ввода, так чтобы все системы оставались постоянными.
- Объединение основных данных из большого количества систем в одно хранилище основных данных.
- Преобразование систем ввода в новую систему MDM на предприятии.
Первый способ зачастую реализуется с использованием хаба (концентратора) основных данных, который асинхронно передает данные между системами. Хаб требует соблюдения ряда бизнес-правил, необходимых для достижения системности и качества данных. Основным моментом здесь является координация бизнес-правил между различными системами ввода и хабом. Этот способ подходит для отдельных бизнес-единиц и небольшого количества систем ввода, но не работает в более крупной среде по причине предполагаемой сложности.
Второй способ является развитием концепции ODS, при котором ODS разделяется между двумя компонентами. Один компонент содержит данные бизнес-транзакций, а другой компонент содержит основные данные. Компонент основных данных становится хранилищем основных данных (MDS) и системой записи для основных данных. MDS может использоваться для питания систем-приёмников и поддержки новых оперативных приложений, а также в качестве данных для бизнес-аналитики.
Используемые подходы при создании ODS также могут использоваться и для создания MDS. Я знаю некоторые компании, которые разделили свои существующие ODS на эти два компонента. Некоторые хабы основных данных также предоставляют возможность создания MDS. Основным вопросом же здесь, конечно же, становится латентность данных в MDS в сравнении с системами ввода.
Третий способ состоит в преобразовании систем ввода в новую систему MDM на предприятии. В тех случаях, когда система ввода не может быть преобразована в новую систему MDM, для синхронизации основных данных в системах ввода с системой MDM на предприятии могут использоваться два других способа (смотрите рисунок 2).
Рисунок 2: Оперативная обработка MDM на предприятии
Эволюционный способ для оперативной обработки MDM - начать со способов 1 и 2, а затем постепенно перейти к способу 3.
Поддержание прошлых и будущих основных данных для бизнес-аналитики
Кроме поддержания системности основных данных для оперативной обработки компании также хотят использовать прошлые или исторические основные данные в процессах бизнес-аналитики. Хранение исторической записи изменений основных данных может требоваться, например, по правовым причинам. Это особенно подходит для финансовых основных данных. Исторические основные данные также могут использоваться для изучения и анализа того, как изменения в организации, товарные номенклатуры, объединения и прочее может влиять на бизнес-операции и результаты.
Концепция будущих основных данных обращается к метаданным и бизнес-моделям основных данных. К примеру, компании могут хотеть исследовать и прогнозировать то, как изменения бизнес-моделей могут повлиять на будущие результаты бизнеса. Примером здесь может стать перегруппировка регионов продаж. Прогнозирование осуществляется путем применения различных метамоделей основных данных к существующим основным данным для определения той модели, которая работает лучше всего.
Большой вопрос при обращении с прошлыми и будущими основными данными состоит в том, может ли использоваться существующая среда хранилища данных для проведения такой обработки и анализа основных данных. Альтернативным способом в этом случае является помещение исторических основных данных в систему MDM. Это является темой для предметного и комплексного обсуждения, что является особенно важным, так как здесь скорее необходимо использовать эволюционный, нежели революционный метод. Мы рассмотрим данный вопрос в части 3 этой статьи.
Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

