Автор: Colin White
Дата публикации оригинала: 2007-11-28
Источник: Сайт BeyeNETWORK

Встроенная операционная аналитика помогает приложениям и бизнес-пользователям (business user) предпринимать действия близкие к режиму реального времени. Однако существует другой класс приложений (analytical application), в которых даже близкая к режиму реального времени аналитика является недостаточной.

Операционная аналитика является важной и все развивающейся областью бизнес-аналитики (BI). Как обычно происходит с развивающейся технологией, в технических статьях и маркетинговых кампаниях производителя внезапно начинают употребляться новые и временами сбивающие с толку специальные термины. Некоторые из этих специальных терминов добавляют ценные новые идеи, в то время как другие являются просто переупаковкой старых. В этой статье я изучу специальные термины бизнес-аналитики, такие как обработка сложных событий (CEP) и аналитика потока и рассмотрю их отношение к схожему миру бизнес-аналитики.

Поводом для написания данной статьи стала блестящая презентация Хемида Пираеша из компании IBM Research на недавней конференции IBM в Лас Вегасе. В этой презентации “Силы, определяющие новое поколение бизнес-аналитики и аналитики” обсуждались многие различные концепции операционной аналитики, представленные в данной статье. В этой своей статье я также позаимствовал несколько примеров Хемида для демонстрации потенциального бизнес-значения для данного аспекта бизнес-аналитики.

Типы аналитики

Аналитика используется для отслеживания и анализа бизнес-операций компании для ответа на три основных вопроса:

  • Что произошло в прошлом?
  • Что происходит сейчас?
  • Что должо произойти в будущем?

Аналитические операции, производимые традиционными приложениями бизнес-аналитики, и их основными хранилищами данных (DWH) позволяют бизнесу понять, что произошло в прошлом. Существует три типа традиционной аналитики: стратегическая, тактическая и операционная. Стратегическая аналитика используется для принятия как долгосрочных, так и краткосрочных бизнес-решений, а также для осуществления действий. Если латентность исторических данных (historical data) в хранилище данных довольно низкая, то операционная аналитика может происходить из данных для оказания помощи в ежедневном и внутридневном принятии решений и осуществлении действий.

Хранилище данных также может использоваться вместе с передовыми аналитическими технологиями и технологиями интеллектуального анализа данных (data mining) для поиска бизнес-тенденций и бизнес-моделей в исторических данных, а итоговая прогнозирующая аналитика используется для прогноза того, что потенциально может произойти в будущем. Примеры включают в себя нахождение моделей, которые отражают мошеннические действия (fraud detection) или склонность человека к покупке продукта.

Определенные бизнес-ситуации требуют того, чтобы операционная аналитика отслеживала бизнес-операции как можно ближе к режиму реального времени. Однако, латентность, вызываемая перемещением данных в хранилище данных, обычно слишком высока для того, чтобы отвечать на вопросы или предпринимать действия в режиме реального времени. Одно из решений состоит во внедрении (встраивании) аналитической обработки в поток бизнес-процессов и анализе происходящих операционных процессов. Встроенная обработка может использовать результаты (например, баллы потребительской ценности или модели обнаружения фактов мошенничества) из традиционной и прогнозирующей аналитической обработки для помощи в определении того, какие рекомендации необходимо дать или какие действия предпринять при операционной обработке).

Встроенная операционная аналитика помогает приложениям и бизнес-пользователям предпринимать действия, близкие к режиму реального времени. Однако существует другой класс приложений, в которых даже близкая к режиму реального времени аналитика является недостаточной. Такое приложение как алгоритмическая торговля (algorithmic trading) требует, чтобы действия предпринимались в доли секунды на основе анализа сотен тысяч торговых событий в секунду. Этот тип аналитической обработки включает в себя то, что известно нам как «аналитика потоков», потому что эти события анализируются, когда они проходят потоком через сети между устройствами и через системы. Потоковая обработка требует долго работающих непрерывных запросов, которые являются противоположностью единовременных запросов, которые используются традиционными приложениями бизнес-аналитики. Бизнес-приложения, которые могут использовать аналитику потоков, включают в себя обнаружение фактов мошенничества, таких как инсайдерская (внутренняя) торговля, анализ IT-предупреждений и анализ отслеживания RFID (радиочастотной идентификации) для производства, оптимизации канала поставок и отслеживания фармацевтической продукции.

Аналитика потоков требует значительной обработки событий, интенсивного использования параллельных вычислений и новых подходов в базах данных и языках программирования. Основополагающая технология, которая поддерживает аналитику потоков, известна как обработка сложных событий (Complex Event Processing – CEP).

Обработка сложных событий (CEP)

В соответствующем разделе Википедии CEP описывается как:
«Технология, используемая для построения и управления событийно-управляемыми информационными системами. CEP – это, главным образом, концепция обработки событий, которая решает задачу обработки большого количества событий из определенной группы событий с целью определения важных событий в данной группе. Обработка потока событий – это связанная технология, которая фокусируется на обработке потоков связанных данных».

Группа событий представляет собой абстракцию (обобщение) хранения, когда обработка начинается по причине поступления в группу нового события. Свод правил занимается поиском моделей, которые вовлекают это событие в отношения с ранее хранящимися событиями (из группы) и приводят к созданию одного или более новых (возможно, сложных) событий.

Обработка потоков событий (Event Stream Processing – ESP) связана с обработкой и анализом серий связанных событий в группе событий. В соответствующем разделе Википедии о ESP отмечается, что:

«Технологии включают в себя визуализацию событий, базы данных событий, событийно-управляемое ESP межплатформенное ПО и языки для обработки событий. ESP решает задачу обработки большого количества потоков данных о событиях с целью определения важных событий в этих потоках, применения технологий, таких как определение комплексных моделей многих событий, взаимосвязи и обобщения событий, иерархии событий, а также таких отношений между событиями, как причинная связь, членство, координация и событийно-управляемые процессы. ESP позволяет реализовывать такие приложения, как алгоритмическая торговля в финансовых операциях, приложения обработки событий RFID (радиочастотной идентификации), обнаружение фактов мошенничества, мониторинг процессов, телекоммуникационные услуги, зависящие от месторасположения».

Как отмечается в разделе Википедии, ESP включает в себя не только запросы и анализ событий, проходящих через систему, но также и прогнозирующие технологии для поиска отношений и моделей в потоках событий. ESP и аналитика потоков требуют непрерывных запросов для зависящих от времени потоков данных, а традиционные системы баз данных и приложения BI плохо подходят для управления этими типами процессов. Поэтому многие аспекты управления данными и BI-обработки должны быть изменены для работы с данной аналитикой потоков.

Здесь возникает вопрос, связанный с тем, что многие продавцы межплатформенного ESP разрабатывают на основе потоков аналитические решения, которые совершенно не связаны с традиционной обработкой BI и средой хранилищ данных. Это несколько похоже на то, как решения для мониторинга бизнес-деятельности (Business Activity Monitoring – BAM) разрабатывались независимо от существующей среды бизнес-аналитики. BAM провалились, и было принято решение строить встроенные приложения BI, которые поддерживают концепцию BAM, но которые также интегрируются и в традиционную обработку BI.

Что делают поставщики?

Компанией, которая вкладывает много ресурсов и усилий в разработку CEPESP), является IBM. Это очевидно, потому что CEP требует значительной вычислительной мощности. У IBM имеется несколько исследовательских и коммерческих проектов и продуктов, относящихся к CEP. Примеры включают в себя Систему S (система обнаружения распределенных потоков) Активную межплатформенную технологию IBM, или AMiT (простое устройство CEP), IBM ObjectGrid (инфраструктура, которая поддерживает предельную обработку транзакций и CEP) и Информационный центр IBM WebSphere RFID. Основными клиентами, которые участвуют в реализации этих усилий, являются Amazon и Google.

У IBM также имеются связи со StreamBase, которая была основана светилом в области баз данных доктором Майком Стоунбрейкером (Stonebraker). StreamBase извлекает прибыль из технологии потока, которая была задумана в качестве части проекта Aurora в Массачусетском технологическом институте, Университетах Брауна и Брандейса. Целью StreamBase является интеграция обработки потоков в режиме реального времени с исторической обработкой. Другими академическими исследованиями в данной области являются STREAM (Стэнфордский университет), Telegraph (университет Беркли) и SASE (университет Беркли и Массачусетский университет в Амхерсте).

StreamSQL (и другие производные SQL) компании StreamBase позволяют пользователям смешивать доступ к неустойчивым потокам событий с доступом к хранимым данным в базе данных (например, склад событий или хранилище данных). Это также расширяет SQL для того, чтобы позволить произведение корректировок в сохраняемых таблицах с помощью данных в потоке. Таким образом, любая часть потока может сохраняться для дальнейшего использования (например, в складе событий).

Операционная аналитика предлагает некоторые значительные преимущества для оптимизации ежедневных бизнес-операций. На рынке проявляется тенденция перехода к обработке в режиме реального времени, которая включает в себя аналитику потоков и обработку сложных событий для определенных типов критически важных бизнес-приложений. Не всем компаниям необходим этот способ предельной обработки.

Существует всё увеличивающееся количество специальных терминов и технологических определений, используемых для описания различных типов существующей операционной аналитики. Мой подход состоит в описании аналитической обработки в качестве области бизнес-аналитики, которая предоставляет три основных типа аналитических данных: стратегические, тактические и операционные. Все три типа могут быть по своей природе реагирующими или прогнозирующими. Кроме того, существует три типа операционной аналитики: традиционная, встроенная и аналитика потока. Аналитика потока поддерживает процесс обработки в режиме реального времени и использует основные технологии, такие как обработка сложных событий (CEP) и обработка потоков событий (ESP).


Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

Читайте также: