Структурированные и неструктурированные данные
Преодоление разрыва
Автор: Билл Инмон
Дата публикации оригинала: 2007-06-21
Источник: сайт B-EyE-Network
Если между двумя мирами структурированных и неструктурированных данных может быть построен мост, то можно будет строить абсолютно новые виды систем.
В большинстве своём информационные системы возникли вокруг структурированных данных и систем. Структурированная среда состоит из данных, у которых есть поля, столбцы, таблицы, строки и индексы. Она сосредотачивается вокруг транзакций, в ней есть отчеты, аудит и определения слов. Со структурированной средой ассоциируется высокий уровень прогнозируемости и порядка.
Неструктурированная среда очень отличается от структурированной. В неструктурированной среде не существует специального порядка. Она состоит из текста, содержащегося в медицинских отчетах, гарантиях, контрактах, электронной почте и электронных таблицах. Для текста не существует правил, управляющих его созданием или использованием. Текст не имеет ключей, индексов, столбцов или атрибутов. Данный текст представлен в свободной форме и является неорганизованным. Тогда как структурированные данные являются организованными.
В большинстве своём миры структурированных и неструктурированных данных функционируют, как будто они находятся в вакууме. С небольшими исключениями, между этими двумя мирами не существует моста или интерфейса. Но если между ними построить мост, то можно будет создавать абсолютно новые виды систем.
В большей своей части мир структурированных систем населён техническими метаданными, а мир неструктурированных систем населен бизнес-метаданными. (Примечание: это не безукоризненное разделение. Существуют некоторые бизнес- метаданные, которые находятся в структурированной среде, и существуют некоторые технические метаданные, которые находятся в неструктурированной среде. Но для большей части случаев это разделение является правильным и чётким.)
Если неструктурированные данные должны использоваться в структурированной среде, то они должны пройти через интеграционный процесс. Интеграционный процесс для неструктурированных данных схож с интеграционным процессом для существующих систем данных, когда существующие системы данных переходят в среду хранилища данных. Однако, неструктурированные текстовые данные проходят через различные процессы интеграции.
Некоторые из шагов по интеграции текста включают в себя:
- удаление игнорируемых слов
- приведение текста к латинским и греческим основам слова
- приведение текста к общей терминологии
- разрешение различных правописаний слов и общих орфографических ошибок
- разрешение символики
- группирование слов по классификациям и так далее.
Эффектом интеграции текста становится его преобразование в форму, которая может быть подвергнута смысловому текстовому анализу. После того как текст сократился в форму, которую можно проанализировать в текстовом плане, он может быть внедрен в структурную среду. В структурной среде текст может быть переведен в стандартную реляционную базу данных, в результате к нему можно будет иметь доступ и проводить его анализ с помощью стандартного программного обеспечения.
Бизнес-метаданные, которые находятся в неструктурированной среде, являются метаданными, которые имеют абстрактную форму. На самом деле большое количество текстов – это не что иное, как абстракции. И каждая абстракция является формой бизнес-метаданных. В результате этого, не каждая абстракция в текстовой среде рассматривается как метаданные. Вместо этого есть выборочная абстракция, обращающаяся к неструктурированной среде. В некоторых случаях большие обобщения рассматриваются как базис для метаданных. Обычно большие обобщения включают в себя такие понятия, как понятия рентабельности, расходов, счастья, мира, войны, любви и так далее.
Но, в текстовой среде могут быть другие базисы для метаданных. Аналитик может создать то, что называется «внешними категориями» для определения отдельных абстракций. Или могут быть созданы онтологии, глоссарии и классификации для того, чтобы выделить важные абстракции из большого набора возможностей, найденных в тексте.
Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.
March 10th, 2010 at 8:43 pm
Автор явно незнаком с классом систем ECM. Если модель неструктурирована, а структурирована метамодель, то через метаданные метамодели можно струкрировать модель. Есть типовые структуры связывание неструктурированных объектов воедино. Связали и получили конструктор симуляторов. Так фирма Boeing генерирует симуляторы для подготовки пилотов на любые виды своих самолетов, используя ECM Documentum.