Преодоление разрыва

Автор: Билл Инмон
Дата публикации оригинала: 2007-06-21
Источник: сайт B-EyE-Network

Если между двумя мирами структурированных и неструктурированных данных может быть построен мост, то можно будет строить абсолютно новые виды систем.

В большинстве своём информационные системы возникли вокруг структурированных данных и систем. Структурированная среда состоит из данных, у которых есть поля, столбцы, таблицы, строки и индексы. Она сосредотачивается вокруг транзакций, в ней есть отчеты, аудит и определения слов. Со структурированной средой ассоциируется высокий уровень прогнозируемости и порядка.

Неструктурированная среда очень отличается от структурированной. В неструктурированной среде не существует специального порядка. Она состоит из текста, содержащегося в медицинских отчетах, гарантиях, контрактах, электронной почте и электронных таблицах. Для текста не существует правил, управляющих его созданием или использованием. Текст не имеет ключей, индексов, столбцов или атрибутов. Данный текст представлен в свободной форме и является неорганизованным. Тогда как структурированные данные являются организованными.

В большинстве своём миры структурированных и неструктурированных данных функционируют, как будто они находятся в вакууме. С небольшими исключениями, между этими двумя мирами не существует моста или интерфейса. Но если между ними построить мост, то можно будет создавать абсолютно новые виды систем.

В большей своей части мир структурированных систем населён техническими метаданными, а мир неструктурированных систем населен бизнес-метаданными. (Примечание: это не безукоризненное разделение. Существуют некоторые бизнес- метаданные, которые находятся в структурированной среде, и существуют некоторые технические метаданные, которые находятся в неструктурированной среде. Но для большей части случаев это разделение является правильным и чётким.)

Если неструктурированные данные должны использоваться в структурированной среде, то они должны пройти через интеграционный процесс. Интеграционный процесс для неструктурированных данных схож с интеграционным процессом для существующих систем данных, когда существующие системы данных переходят в среду хранилища данных. Однако, неструктурированные текстовые данные проходят через различные процессы интеграции.

Некоторые из шагов по интеграции текста включают в себя:

  • удаление игнорируемых слов
  • приведение текста к латинским и греческим основам слова
  • приведение текста к общей терминологии
  • разрешение различных правописаний слов и общих орфографических ошибок
  • разрешение символики
  • группирование слов по классификациям и так далее.

Эффектом интеграции текста становится его преобразование в форму, которая может быть подвергнута смысловому текстовому анализу. После того как текст сократился в форму, которую можно проанализировать в текстовом плане, он может быть внедрен в структурную среду. В структурной среде текст может быть переведен в стандартную реляционную базу данных, в результате к нему можно будет иметь доступ и проводить его анализ с помощью стандартного программного обеспечения.

Бизнес-метаданные, которые находятся в неструктурированной среде, являются метаданными, которые имеют абстрактную форму. На самом деле большое количество текстов – это не что иное, как абстракции. И каждая абстракция является формой бизнес-метаданных. В результате этого, не каждая абстракция в текстовой среде рассматривается как метаданные. Вместо этого есть выборочная абстракция, обращающаяся к неструктурированной среде. В некоторых случаях большие обобщения рассматриваются как базис для метаданных. Обычно большие обобщения включают в себя такие понятия, как понятия рентабельности, расходов, счастья, мира, войны, любви и так далее.

Но, в текстовой среде могут быть другие базисы для метаданных. Аналитик может создать то, что называется «внешними категориями» для определения отдельных абстракций. Или могут быть созданы онтологии, глоссарии и классификации для того, чтобы выделить важные абстракции из большого набора возможностей, найденных в тексте.


Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

Читайте также: