Совет №67. Поддерживаем обратные указатели на оперативные системы-источники

Наши хранилища данных все больше и больше направлены на отслеживание детальных транзакций клиентов в почти реальном времени. Как указывает Patricia Seybold в своей замечательной книге Customers.com (Time Business, 1998), управление взаимоотношениями с клиентами означает наличие доступа к данным от всех процессов в организации, которые имеют дело с ними.

Хранение детальной информации обо всех процессах, которые взаимодействуют с клиентами, вкупе с обеспечением в то же самое время единого представления о них является интересной задачей для архитектора ETL. Предположим, перед нами типичный сложный бизнес, ориентированный на клиента, который имеет пятнадцать или более систем, взаимодействующих с клиентом, включая продажи в магазинах и через Интернет, поставки, платежи, кредитование, контракты на послепродажную поддержку, звонки в сервисную службу, а также различные формы маркетинговых коммуникаций. Многие из этих приложений создают свой собственный естественный ключ для каждого клиента, и некоторые из них не очень хорошо справляются с задачей отбраковки дубликатов записей, относящихся к одному и тому же клиенту. Может не существовать надежной единой системы идентификации клиентов, используемой для всех приложений, имеющих дело с ними.
Читать дальше »

Опубликовано 02.02.2009 | Автор сообщения Олег Кузьменко | Категории: Business Intelligence, DWH, Kimball, Ralph, Архитектор BI, Архитектор ETL, Для начинающих, Для продвинутых, На русском, Проектирование многомерных моделей, Разработчик ETL, Разработчик моделей данных, Разработчик приложений BI, Советы разработчику ХД, Суррогатные ключи

Primary Key Reengineering Projects: The Solution Part 2 of a Two-Part Series

В продолжение предыдущей статьи автор рассказывает, почему стоит использовать корпоративные ключи. Читать статью…

Опубликовано 19.04.2008 | Автор сообщения Константин Лисянский | Категории: Johnston, Tom, Для экспертов, Суррогатные ключи

Primary Key Reengineering Projects: The Problem

Автор делает различия между понятиями умный ключ (intelligent key), неумный ключ (unintelligent key) и корпоративный ключ (enterprise key) и описывает проблему перехода от умных ключей к корпоративным ключам. Читать статью…

Опубликовано 19.04.2008 | Автор сообщения Константин Лисянский | Категории: Johnston, Tom, Для экспертов, Суррогатные ключи

Суррогатные ключи. Конвейерная обработка суррогатных ключей

Хорошая система суррогатных ключей стоит трудов

В прошлом месяце я заострил внимание на необходимости использования суррогатных ключей для каждой опреации объединения в хранилищах данных. Иными словами каждый ключ объединения между таблицей фактов и таблицей размерностей должен быть суррогатным ключом или независимым целочисленным числом, но не натуральным или значащим (зависящим) ключом. Значение суррогатного ключа должно начинаться единицей, второе значение должно быть два и так далее. Не должно быть никакой связи. Взглянув на суррогатный ключ вы не должны иметь возможности представить себе какие данные содержит идентифицированная им запись. Все суррогатные ключи представляются 4х байтным целочисленным (integer, int - прим. переводчика) числом (иногда даже 2х байтным для небольших размерностей), т.к. 4мя байтами можно представить более 2 млрд. записей размерности. В своей практике я не встречал таблиц размерностей соизмеримых с двумя миллиардаим записей.

Читать дальше »

Опубликовано 19.04.2008 | Автор сообщения Константин Лисянский | Категории: Kimball, Ralph, Для продвинутых, Проектирование хранилищ данных, Суррогатные ключи

Суррогатные ключи. Контролируйте идентификаторы строк формированием суррогатных ключей в хранилищах данных

В соответствии с Webster’s Unabridged Dictionary (словарь - прим. переводчика), суррогат - это “искусственный или синтетический продукт, который используется как заменитель натурального продукта”. Это замечательное определение для суррогатных ключей мы применяем и для хранилищ данных. Суррогатный ключ - это искусственный или синтетический ключ, который используется в качестве замены натурального ключа.

Вообще говоря, суррогатный ключ в хранилище данных значительно большее чем просто замена натурального ключа. В хранилищах данных суррогатный ключ - это необходимое бобщение натурально произведенного ключа и является одним из основных лэементов проектирования хранилищ данных. Давайте однозначно определимся: Каждое объединение между таблицами размерности и таблицами фактов в хранилищах данных должны быть основаны на суррогатных ключах, а не натуральных. Следует заложить в логику изъятия данных (прим. перевод) систематический просмотр и замену каждого входящего натурального ключа суррогатным ключом хранилища данных при каждом перемещении записи размерности или факта в хранилище данных.
Читать дальше »

Опубликовано 19.04.2008 | Автор сообщения Константин Лисянский | Категории: Kimball, Ralph, Для начинающих, Для продвинутых, На английском, Проектирование хранилищ данных, Разработчик моделей данных, Суррогатные ключи

Совет №05. Суррогатные ключи для измерения “Время”

Ежедневно я получаю несколько вопросов, касающихся проектирования хранилищ данных. Поскольку многие из них являются серьёзными и интересными, я пытаюсь на них ответить. Но если получается так, что они являются домашними заданиями преподавателей колледжа, я вежливо отказываю!

А вот и вопрос:
Консультант, работавший недавно у нас, предложил измерение (dimension) “Время”, которое отличается от тех, которые разрабатываете Вы.

Структура его измерения “Время” была следующей:
Читать дальше »

Опубликовано 15.04.2008 | Автор сообщения Константин Лисянский | Категории: DWH, Kimball, Ralph, Для продвинутых, На русском, Проектирование многомерных моделей, Разработчик моделей данных, Разработчик приложений BI, Советы разработчику ХД, Суррогатные ключи