Автор публикации Bill Inmon
Дата публикации оригинала 2008-07-10
Перевод: Олег Кузьменко
Материал опубликован на сайте B-Eye Network

Существует много факторов, которые оказывают влияние на объем исторических данных, требуемый предприятию.

Есть старое правило о том, сколько исторических данных нужно конечному пользователю. Конечному пользователю хочется, чтобы у него/нее была «история на два года длиннее, чем есть сейчас. Если у конечных пользователей нет исторических данных, то тогда они хотят данные за последние два года. Если у них есть «история» за три года, то они хотят ее за пять лет, и т.д. Интересно, что это правило не является ни преувеличением, ни приуменьшением. Оно в достаточной степени верно.

Давайте поймем, что стоит за желанием иметь еще два года «истории» дополнительно. Если взглянуть на этот вопрос с другой стороны, то получается, что конечный пользователь хочет получить для анализа данные за два полных цикла. А у большинства компаний цикл деловой деятельности обычно равен одному году. В течение года бывают периоды максимальной активности и затишья. Если есть данные только за один год, то это означает, что аналитик может исследовать только один цикл бизнеса. Аналитиков всегда волнует то, что если они будут изучать цифры только за один цикл, то по какой-то причине в этом цикле будет содержаться какая-нибудь аномалия. Если смотреть на данные за два цикла, то это снижает вероятность того, что аномальный год повлияет на результат. Так что на самом деле есть причина, по которой желательно иметь данные, по крайней мере, за два года.

Однако некоторые компании оперируют циклом, отличающимся от года. Немало предприятий оперируют совершенно разными циклами бизнеса. Давайте рассмотрим компании, занимающиеся страхованием жизни. Они исследуют срок жизни людей. Для того чтобы понять цикл жизни человека, необходимо получить данные за 90 - 100 лет. И другие компании также имеют разные циклы деловой деятельности. Жизненный цикл недвижимости может составлять десять лет. Инфляционный период может продолжаться пять или более лет. Период экономического процветания может составлять двадцать лет.

В любом случае, существует множество ситуаций, в которых нет годового цикла. В таких случаях, даже наличие данных за два года совершенно не дает представления о цикле бизнеса. Поэтому есть компании, которые хотят хранить данные за период времени, гораздо больший, чем два года.

Объем исторических данных, требуемых предприятию, в большей степени зависит от типа пользователя, который будет работать с данными. Существует два основных типа пользователей – фермеры и исследователи. Фермеры – это те аналитики, которые знают, что им нужно. Они многократно используют один и тот же метод анализа. Обычно, фермеры делают много запросов в течение дня и довольствуются небольшим количеством данных. Единственное, что меняется для фермера, это текущая суть анализируемых данных, а не способ анализа. Фермеры – очень предсказуемые люди. Они часто находят частицы золота – небольшие крупицы мудрости. Они редко ничего не находят.

Исследователи – это люди, которые не знают, что им нужно. Исследователи – это люди с нестандартным мышлением. Они очень непредсказуемы, и обычно они работают с очень большими объемами данных. Исследователи часто вообще ничего не находят. Их позицию можно выразить следующими словами: «Я не знаю, что мне нужно, но я узнаю, когда найду это». Исследователи могут на протяжении шести месяцев не выполнять никаких запросов. Затем, на следующей неделе, исследователь может сделать десять запросов. Когда исследователи обнаруживают что-то полезное, то эта находка может быть потрясающей. Время от времени исследователи натыкаются на целые «самородки» мудрости, которых никто и не чаял найти.

Фермеры традиционно не нуждаются в большом объеме исторических данных. Обычно, один-два года «истории» хватает для удовлетворения потребностей фермера (конечно, в зависимости от длины бизнес-цикла).

Исследователи, наоборот, нуждаются в большом количестве исторических данных. Они занимаются такой обработкой данных, которая порой охватывает длительные «исторические» периоды. Исследователи ищут закономерности в данных. И часто бывает так, что закономерностей, которые можно отыскать и изучить, просто нет. В других случаях, представляющая интерес закономерность существует, но она проявляется за длительный период времени. Если в организации есть много исследователей, то необходим большой объем «истории» для удовлетворения их любопытства.

Как только организация собрала исторические данные, имеет смысл периодически производить мониторинг их использования. Это совершенно нормально, когда часто используются текущие и сверхтекущие данные. Однако чем старше становятся данные, тем реже они нужны. Это верно даже тогда, когда среди аналитиков есть исследователи.

Когда исторические данные достигают такого возраста, что к ним обращаются крайне редко, то их можно удалить из системы. При удалении неиспользуемых исторических данных и переносе их в «отдаленные» части системы повышается ее производительность. Кроме того, снижаются затраты на систему.

Итак, существует много соображений по поводу того, хранение какого объема «истории» следует запланировать организации.

Читайте также: