Автор: David Loshin
Дата публикации оригинала: 2006-11-23
Источник: Сайт B-EyE-Network

Эта статья предлагает несколько подходов, которые могут использоваться для сбора информации о потенциальных наборах основных данных предприятия.

Что делает данные «основными данными»? В недавней статье я определил основные данные как «объекты данных, которые являются основными бизнес-объектами, используемыми в организации в различных приложениях, наряду с соответствующими метаданными, атрибутами, определениями, ролями и систематикой». Объекты основных данных – такие «вещи», о которых мы беспокоимся, вещи, которые входят в наши оперативные системы, которые измеряются, о которых сообщается в наших системах отчётности и которые анализируются в наших аналитических системах. Это, например, клиент, поставщик, продукт, политика и так далее.

Так как мы интуитивно понимаем, что объекты основных данных находятся на предприятии, то при рассмотрении возможностей реализации планов управления основными данными существует две тенденции. Одной из них является их обнаружение – какие объекты в наших организациях определяются как основные данные? Второй является оценка – как мы можем отследить и стандартизировать модель и содержимое набора основных данных? Это может казаться относительно лёгкой задачей, но когда каждая сфера деятельности вашей организации имеет свой набор таблиц и приложений, возможность выделить основные данные начинает казаться сложной задачей.

В этой статье мы рассмотрим обнаружение. Этот подход включает в себя использование инструментов качества данных как инструментов, с помощью которых основные данные могут быть обнаружены и стандартизированы. Например, комбинация технических приёмов, используемых для профилирования данных, с неавтоматизированной оценкой результатов, даст быструю основу для нахождения источников основных данных.

Помимо вышеуказанного определения, объекты основных данных должны иметь следующие характеристики:

  • На них ссылаются записи как оперативных, так и аналитических систем.
  • Они могут требовать отдельной функциональности приложений для поддержки их ввода.
  • Их модели с большой вероятностью отражены в различных приложениях.
  • Они могут быть встроены в модели данных унаследованных приложений.

Учитывая вышесказанное, один из способов заключается в полном документировании метаданных, относящихся ко всем объектам данных на предприятии, и использование этой информации в качестве руководства для аналитиков, занимающихся поисками основных данных. Мы можем использовать инструменты профилирования данных, поскольку они обладают статистическими и аналитическими алгоритмами для выявления характеристик наборов данных, их моделей и взаимосвязей.

Первым шагом является описание набора данных, относящегося к каждому столбцу в каждой таблице. На концептуальном уровне каждому набору величин мы присвоим одно из следующих обозначений:

  1. Булева переменная или флаг – есть только два значения, одно отражается как истина, а другое как ложь.
  2. Временная отметка – значение, отражающее дату и время.
  3. Величина – числовое значение, такое как количество или сумма.
  4. Код – небольшой набор значений, используемый либо напрямую (например, цветов красный или синий), либо отражаемый как числовое перечисление (например, 1 = красный, 2 = синий).
  5. Указатель – строка символов с ограниченной повторяемостью в пределах набора, которая может использоваться в качестве части описания значения (например, имя или строка_адреса_1 – это поля, содержащие информацию об указателях).
  6. Перекрёстная ссылка – идентификатор, который либо уникально характеризует записи, либо предоставляет ссылку на этот идентификатор в другом наборе данных.

Далее мы должны составить модель каждой таблицы на основе характеристик содержащихся в ней столбцов и провести различие между таблицами, которые включают в себя транзакционную информацию и которые включают в себя справочную информацию. Для таблиц с транзакционной информацией мы в дальнейшем должны определить, включается ли в их модель справочная информация. В то время как записи в транзакционных таблицах могут содержать временные отметки, количество, величину, а также другие классифицирующие данные, справочные таблицы больше похожи на записи каталога – описательную информацию, включающую атрибуты–указатели и некоторые атрибуты, содержащие другие типы данных, но зачастую сопровождаемую идентификаторами, которые являются уникальными в наборе данных. Описывая и накапливая наборы справочных данных, мы можем предложить аналитикам, откуда начинать обзор того, как эти наборы данных отражают характеристики основных данных.

Обращайте также внимание на названия столбцов. В любой среде существует большая вероятность того, что у схожих объектов будут схожие названия. Задумайтесь над этим: всегда существуют такие названия столбцов, как ACCOUNT, ACCT, ACCOUNT_NUM или ACCT_NUM, которые обозначают номера счетов. Даже если названия не точные, мы можем в этом случае использовать их алгоритмы поиска совпадений с образцами, стандартизации и поиска связей для поиска групп похожих названий. В нашем случае все они могут представлять номер счёта. Если мы определим столбцы со схожими названиями, затем мы сможем пересмотреть содержащиеся в них значения и использовать функцию перекрёстного анализа для определения того, насколько сильно перекрываются наборы значений этих столбцов. Если это так, то мы сможем предположить, что два столбца представляют один и тот же атрибут основных данных, и присвоить данному атрибуту стандартизированное название.

Другим аспектом, на который нужно обратить внимание, является сравнение метаданных таблиц. Две таблицы, представляющие схожие данные, будут иметь много одинаковых атрибутов, и, таким образом, следующим шагом станет поиск таблиц, которые имеют схожие атрибуты. Мы можем снова применить наши инструменты качества данных, создав для каждой таблицы сигнатуру, которая состоит из ее названия и списка соответствующих названий атрибутов в алфавитном порядке. Далее можно использовать наши инструменты поиска по образцу для вычисления степени похожести между парами таблиц, которая в свою очередь может дать информацию о том, где между наборами данных потенциально существует взаимное перекрытие содержимого. Например, база данных о продажах, в которой есть таблица под названием КЛИЕНТ, столбцы которой называются НОМЕР КЛИЕНТА, ИМЯ, ФАМИЛИЯ, ТЕЛЕФОН, УЛИЦА, ГОРОД, СТРАНА и ПОЧТОВЫЙ ИНДЕКС имеют высокий уровень сходства с базой данных о счетах, в которой есть таблица СЧЕТ со столбцами НОМЕР_КЛИЕНТА, ИМЯ_КЛ, ФАМИЛИЯ_КЛ, ТЕЛ, АДРЕС1, ГОРОД, СТРАНА и ПОЧТОВЫЙ ИНДЕКС.

Есть несколько способов, которые могут применяться для сбора информации о возможных наборах основных данных предприятия. Хотя процесс поиска основных данных осуществляется аналитиками, мы также вполне можем применять аналитические возможности инструментов качества данных для сбора метаданных, что способствует обнаружению объектов основных данных.


Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

Читайте также: