Building the Data Warehouse, 4th Edition

W. H. Inmon

Building the Data WarehouseНовое издание классического бестселлера, который послужил началом отрасли хранилищ данных.
Книга описывает новые подходы и технологии, во многих из которых пионером выступил сам Билл Инмон (Inmon). В дополнение к объяснению основ хранилищ данных (DWH), книга овещает новые темы, такие как методы обработки неструктурированных данных (unstructured data) и хранение данных в хранилище данных на нескольких типах носителей (multi-temperature data warehousing).

Книга обсуждает достоинства и недостатки реляционного и многомерного подходов к проектированию, а также то, как измерять возврат на инвестиции (ROI) при планировании проектов по построению хранилищ данных.
Читать дальше »

Опубликовано 04.03.2009 | Автор сообщения Константин Лисянский | Категории: DWH, Inmon, Bill, Аналитик качества данных, Архитектор BI, Архитектор ETL, Архитектор данных, Ведущий тестировщик, Для начинающих, Для продвинутых, Для экспертов, Книги, Менеджер метаданных, На английском, Проектирование нормализованных моделей, Разработчик BI-портала, Разработчик ETL, Разработчик моделей данных, Разработчик приложений BI, Руководитель подразделения BI/DWH, Руководитель проекта, Сравнение подходов проектирования, Стюард данных, Технический архитектор

Где пиво? Где памперсы?

Автор: Bill Inmon
Дата публикации оригинала - 2007-05-24
Источник: сайт B-Eye-Network

Когда комбинации данных обнаружены, аналитики должны определить являются ли корреляции случайными, несистематическими или имеют причинно-следственное взаимоотношение.

Ваша интуиция подсказывает вам, что поиск и обнаружение скрытых комбинаций данных – корреляций – является необходимым. В данных о продажах, обработке претензий, технологических данных и данных по трудовым ресурсам есть комбинации данных, которые повторяются. И при большом количестве цифр, с которыми сталкивается предприятие, данные корреляции данных зачастую скрыты.
Читать дальше »

Опубликовано 17.10.2008 | Автор сообщения Константин Лисянский | Категории: Business Intelligence, Data Mining, Inmon, Bill, Бизнес-аналитик, Для начинающих, Для продвинутых, На русском, Разработчик приложений BI, Розничная торговля, Руководитель подразделения BI/DWH, Специалист data mining

Исследовательское хранилище данных

Автор: Bill Inmon
Дата публикации оригинала - 2007-08-30
Источник - сайт B-Eye-Network

Исследовательское хранилище данных – это физически отдельное хранилище данных, разработанное для предоставления специалистам в области статистики возможности обрабатывать данные так часто, как они этого хотят, без оказания воздействия на постоянных пользователей хранилища данных.

Итак, вы построили хранилище данных. У вас есть витрины данных, которые вы наполняете. У вас есть пользователи, которые регулярно обращаются к хранилищу данных. У вас есть аналитик, который иногда ищет в данных что-то непонятное. Ваше хранилище данных начало функционировать с приемлемого размера и теперь начинает трещать по швам. Жизнь хороша – всё довольно неплохо.
Читать дальше »

Опубликовано 16.10.2008 | Автор сообщения Константин Лисянский | Категории: DWH, Inmon, Bill, Бизнес-спонсор, Для начинающих, Для продвинутых, Для экспертов, На русском, Руководитель подразделения BI/DWH, Руководитель проекта от бизнеса, Технический архитектор

Структурированные и неструктурированные данные

Преодоление разрыва

Автор: Билл Инмон
Дата публикации оригинала: 2007-06-21
Источник: сайт B-EyE-Network

Если между двумя мирами структурированных и неструктурированных данных может быть построен мост, то можно будет строить абсолютно новые виды систем.

В большинстве своём информационные системы возникли вокруг структурированных данных и систем. Структурированная среда состоит из данных, у которых есть поля, столбцы, таблицы, строки и индексы. Она сосредотачивается вокруг транзакций, в ней есть отчеты, аудит и определения слов. Со структурированной средой ассоциируется высокий уровень прогнозируемости и порядка.

Неструктурированная среда очень отличается от структурированной. В неструктурированной среде не существует специального порядка. Она состоит из текста, содержащегося в медицинских отчетах, гарантиях, контрактах, электронной почте и электронных таблицах. Для текста не существует правил, управляющих его созданием или использованием. Текст не имеет ключей, индексов, столбцов или атрибутов. Данный текст представлен в свободной форме и является неорганизованным. Тогда как структурированные данные являются организованными.
Читать дальше »

Опубликовано 24.09.2008 | Автор сообщения Константин Лисянский | Категории: Inmon, Bill, Архитектор BI, Бизнес-аналитик, Для начинающих, Для продвинутых, На русском, Разработчик моделей данных, Руководитель подразделения BI/DWH, Руководитель проекта от бизнеса, Специалист data mining, Управление метаданными 1 комментарий

Степень детализации данных

Автор: Билл Инмон
Дата публикации оригинала - 2006-12-14
Источник: сайт B-Eye-Network

Должны ли данные храниться на нижнем уровне детализации?

При проектировании хранилища данных одним из основополагающих принципов является хранение данных на наиболее детальном уровне. При хранении на наиболее детальном уровне данные можно изменять для удовлетворения различных потребностей – финансового отдела, отдела маркетинга, отдела продаж и так далее. Детальные данные можно объединять, собирать, разделять на различные подгруппы и так далее. Действительно, существует много причин хранить данные на наиболее детальном уровне.

Почему данные должны разделяться на более детальные? Дело в том, что большинство данных в хранилище поступает в результате различных транзакций. И, обычно, в транзакциях содержатся очень денормализованные данные. Денормализованные данные являются не сильно детальными.
Читать дальше »

Опубликовано 19.09.2008 | Автор сообщения Константин Лисянский | Категории: Inmon, Bill, Для начинающих, На русском, Проектирование нормализованных моделей, Разработчик моделей данных, Руководитель подразделения BI/DWH, Руководитель проекта

Достоверность данных

Автор: Bill Inmon
Дата публикации оригинала: 2006-09-21
Источник: сайт B-Eye-Network

Достоверность данных - очень важный фактор в достижении успеха, но она не является автоматической. Как вы ее достигаете?

Существует много аспектов данных, которые важны, но нет ничего более важного, чем достоверность данных. Если данные полностью достоверны, можно предпринимать хорошие, взвешенные решения. При этом фактор догадок минимален, и существует меньше конфликтующих вариантов, основанных на связанных, но несколько отличающихся данных. Вся организация получает возможность концентрироваться и пребывать в гармонии. Без достоверных данных у организации возникают трудности с информированностью и принятием правильных решений.

Одним словом, иметь данные – это хорошо, но если они достоверные – ещё лучше.
Читать дальше »

Опубликовано 11.09.2008 | Автор сообщения Константин Лисянский | Категории: Data Quality, Inmon, Bill, MDM, RDM, Аналитик качества данных, Архитектор BI, Архитектор ETL, Архитектор данных, Для начинающих, Для продвинутых, Менеджер метаданных, На русском, Разработчик BI-портала, Разработчик ETL, Разработчик моделей данных, Разработчик приложений BI, Руководитель подразделения BI/DWH, Стюард данных, Технический архитектор 1 комментарий

Хранилища данных для организации среднего размера

Автор публикации Bill Inmon
Дата публикации оригинала 2008-01-17
Перевод: Олег Кузьменко
Материал опубликован на сайте B-Eye Network

Благодаря новым технологиям, которые появляются в области хранилищ данных, компании среднего размера теперь могут смягчить свои проблемы, не залезая слишком глубоко к себе в карман.

Хранилища данных можно найти там, где есть много данных, включая телекоммуникационные компании, банки, страховые компании, розничную торговлю, правительственные организации и авиакомпании. Почему хранилища данных можно найти в этих больших, ориентированных на данные организациях? Да потому что хранилище данных является источником как возможностей, так и «головной боли». Для этих больших, ориентированных на данные предприятий существует возможность найти и использовать информацию о клиентах для того, чтобы крепить связи с ними. Появляется возможность консолидировать покупки в рамках организации для того, чтобы получить большую скидку. Открывается возможность анализировать получаемую информацию с глобальной точки зрения так, чтобы глобальные риски можно было бы распознать до того, как они разрушат компанию (как это было, например, с банком Barings). Существует много способов получить пользу от умения собирать, объединять и анализировать информацию со всех сторон. Извлечение выгоды для бизнеса из целостного, корпоративного подхода к данным является довольно простым делом, не требующим богатого воображения.
Читать дальше »

Опубликовано 29.08.2008 | Автор сообщения Олег Кузьменко | Категории: Business Intelligence, DWH, Dataupia, ETL, Inmon, Bill, Seatab, Talend, Архитектор BI, Архитектор ETL, Для продвинутых, Для экспертов, На русском, Роль, Руководитель подразделения BI/DWH, Руководитель проекта, Технический архитектор

Какой объем исторических данных является достаточным?

Автор публикации Bill Inmon
Дата публикации оригинала 2008-07-10
Перевод: Олег Кузьменко
Материал опубликован на сайте B-Eye Network

Существует много факторов, которые оказывают влияние на объем исторических данных, требуемый предприятию.

Есть старое правило о том, сколько исторических данных нужно конечному пользователю. Конечному пользователю хочется, чтобы у него/нее была «история на два года длиннее, чем есть сейчас. Если у конечных пользователей нет исторических данных, то тогда они хотят данные за последние два года. Если у них есть «история» за три года, то они хотят ее за пять лет, и т.д. Интересно, что это правило не является ни преувеличением, ни приуменьшением. Оно в достаточной степени верно.

Читать дальше »

Опубликовано 18.08.2008 | Автор сообщения Олег Кузьменко | Категории: Inmon, Bill, Архитектор BI, Архитектор данных, Бизнес-аналитик, Для начинающих, Для продвинутых, На русском, Разработчик приложений BI, Стюард данных

Когда модели данных типа «звезда» подходят для хранилища данных?

Автор публикации Bill Inmon
Дата публикации оригинала 2007-07-26
Перевод: Олег Кузьменко
Материал опубликован на сайте B-Eye Network

Из-за своей негибкости модели данных типа «звезда» в большинстве случаев не служат хорошим основанием для хранилища данных, но для этого правила есть исключения.

Модели данных типа «звезда» без сомнения хороши для витрин данных. Когда у вас есть группа людей, которые хотят иметь доступ к тем же самым (или очень схожим) данным тем же самым (или очень схожим) способом, тогда эти модели работают действительно хорошо. Они также работают хорошо в тех случаях, когда данные надо просуммировать или агрегировать, и когда требуется очень быстрый доступ к данным.

Но с моделями типа «звезда» есть одна проблема - они негибкие. Когда изменяются требования, эти модели должны быть также изменены. В некоторых случаях, они могут быть модифицированы, но в других случаях их приходится существенно перерабатывать и проектировать заново при изменении требований. Из-за своей негибкости модели данных типа «звезда» обычно не являются хорошим основанием для хранилища данных.
Читать дальше »

Опубликовано 17.08.2008 | Автор сообщения Олег Кузьменко | Категории: Inmon, Bill, Kalido, Архитектор BI, Архитектор данных, Для начинающих, Для продвинутых, На русском, Проектирование многомерных моделей, Проектирование нормализованных моделей, Разработчик моделей данных, Разработчик приложений BI, Сравнение подходов проектирования

Статические данные / Темпоральные данные

Автор оригинала Bill Inmon
Дата публикации оригинала 2007-10-25
Перевод: Константин Лисянский
Материал опубликован на сайте B-Eye Network

Путём отделения семантически статических данных от семантически темпоральных данных дизайн базы данных мог бы легко противостоять периодическому изменению требований бизнеса.

Как мы проектируем базу данных? Давным-давно мы научились нормализации у Теда Кодда и Криса Дейта. Или, может быть, мы сидели на коленях у Джеймса Мартина и изучали у него высокопроизводительные и хорошо налаженные денормализованные структуры. Как бы мы это не делали, мы изучили проектирование баз данных.

И я держу пари, что когда мы изучали проектирование баз данных, никто никогда не слышал о проектировании баз данных с разделением семантически темпоральных и статических данных. Это просто не появилось ни в чьём поле зрения, когда были положены начала проектирования баз данных.

А должно было появиться.
Читать дальше »

Опубликовано 10.08.2008 | Автор сообщения Константин Лисянский | Категории: Inmon, Bill, Архитектор BI, Архитектор данных, Для начинающих, Для продвинутых, На русском, Проектирование нормализованных моделей, Разработчик моделей данных, Стюард данных