Автор: Bill Inmon
Дата публикации оригинала - 2007-05-24
Источник: сайт B-Eye-Network

Когда комбинации данных обнаружены, аналитики должны определить являются ли корреляции случайными, несистематическими или имеют причинно-следственное взаимоотношение.

Ваша интуиция подсказывает вам, что поиск и обнаружение скрытых комбинаций данных – корреляций – является необходимым. В данных о продажах, обработке претензий, технологических данных и данных по трудовым ресурсам есть комбинации данных, которые повторяются. И при большом количестве цифр, с которыми сталкивается предприятие, данные корреляции данных зачастую скрыты.

Аналитик должен найти эти скрытые комбинации данных. К примеру, аналитик может найти:

  • что сотрудники Лиги Плюща пьют очень много после достижения сорокалетнего возраста,
  • что производительность труда возрастает после20го числа месяца,
  • что больше всего заявлений по выплате страхового возмещения для автомобиля поступает в январе и феврале,
  • что у государственных служащих больше всего дней отпуска по болезни в июле, нежели в другом месяце и
  • что когда люди идут за покупками в пятницу вечером, они вместе с пивом покупают памперсы.

После того как обнаружены комбинации данных, возникает следующий вопрос: являются ли корреляции случайными, несистематическими или имеют причинно-следственное взаимоотношение?

Если вы рассматриваете довольно большое число корреляций, то возникает корреляция между двумя и более членами на основе одного случая. Например, корреляция существовала между ежегодным ростом и падением цен на фондовой бирже и лигой победителя Суперкубка по американскому футболу. В годы, когда побеждали команды из лиги NFL, цены на фондовой бирже росли, в годы, когда побеждали команды из лиги AFL, цены на фондовой бирже падали. Эта корреляция продолжалась почти двадцать лет. Само собой разумеется, что победитель Суперкубка не имел ничего общего с экономикой и производительностью нации и мира. Это хороший пример абсолютно случайной или несистематической корреляции.

Случайная корреляция – это такая корреляция, при которой может иметься причина, но эта причина не является единственной, или при изучении переменных рассматривается другая переменная. Например, рассмотрим переменные числа произведенных дефектных деталей и годы, когда они были произведены. Эти взаимосвязанные числа обычно хорошо коррелируют между собой, но числа не имеют причинно-следственных взаимоотношений. Вместо этого имеются другие факторы, которые сказываются на производительности и качестве производства.

Однако периодически встречаются и причинно-следственные взаимоотношения. Рассмотрим переменные «синеворотничковой» работы (рабочие на производстве) и нормы оплаты. Норма оплаты за синеворотничковую работу будет ниже, чем за беловоротничковую работу (офисные служащие). В этом случае в корреляции присутствуют определенные причинно-следственные взаимоотношения.

Теперь давайте обратимся к дилемме пива и памперсов. В нашей отрасли используется спорная метафора для приведения примера интеллектуального анализа данных и анализа корреляций по годам. Что интересно, источники происхождения этой метафоры покрыты туманом. Многие люди думают, что между совместной покупкой пива и памперсов в пятницу вечером действительно имеется корреляция. Другие говорят, что это просто пример, искусственно выдуманный, чтобы настоять на своем, и корреляции здесь вообще никогда не существовало. Каким бы не был источник, и какой бы ни была правда, корреляция между совместной покупкой пива и памперсов принимается отраслью информационных услуг.

Одним из любопытных аспектов мифа о пиве и памперсах является то, что ответ, который мы получаем из магазинов, нисколько не проясняет ситуацию. Многие магазины говорят: «Н, у и что?», - когда дело доходит до интерпретации корреляции между покупкой пива и памперсов, а также до того, что с ней делать. Один научный подход говорит, что вы должны расположить пиво и памперсы рядом друг с другом в магазине. Таким образом, вы максимизируете прибыль. Но другой научный подход говорит, что вы должны делать нечто совершенно противоположное. Он утверждает, что вы должны расположить пиво и памперсы в магазине так далеко друг от друга, как только возможно. Таким образом, вы максимизируете непреднамеренные расходы. Заставляя людей гулять по всему магазину, вы получаете больший шанс, что они сделают непреднамеренные покупки. Один научный подход максимизирует непосредственную прибыль, а другой максимизирует прибыль от непреднамеренных покупок.

Кто знает, кто прав.


Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

Читайте также: