Невидимые данные
Автор: Malcolm Chisholm
Дата публикации оригинала: 2008-05-07
Источник: сайт B-Eye-Network
Данные, которые скрыты внутри предприятия, неизбежно будут приниматься во внимание, и управление корпоративной информацией должно позволить обуздать их.
Как отмечают специалисты по космологии, только 5% материи во вселенной может быть рассчитано с помощью того, что мы можем наблюдать – в основном это звезды и туманности. Остальные 95% относятся к тому, что называется “невидимая материя”. Невидимую материю нельзя наблюдать, и даже определение того, из чего она состоит, является предметом споров. Тем не менее, можно довольно уверенно сказать, что данная материя существует, поскольку мы можем высчитать ее массу на основе скорости вращения галактик. Кажется, что специалисты по космологии имеют существенное преимущество перед теми, кто занимается управлением корпоративной информацией (EIM), поскольку они могут вычислить то, что не могут увидеть. Когда дело касается данных, то очень трудно определить даже то, сколько данных скрыто на предприятии. Тем не менее, мы знаем, что они есть.
Страна теней
Основное внимание при традиционном управлении данными уделяется реляционным базам данных и приложениям, которые с ними взаимодействуют. Верным является то, что в данных можно обнаружить более ранние поколения технологий, например, виртуальный метод доступа (VSAM) и индексно-последовательный метод доступа (ISAM). Эти устаревшие находки предшествовали резкой активизации в управлении данными, что было тесно связано с преимуществами реляционной теории и разработки продуктов на базе данной теории. В любом случае управление ISAM, VSAM и другими схожими методами может осуществляться только с помощью приложений, которые разрабатываются и реализуются на уровне предприятия. Данные, содержащиеся в этих форматах, тяжело получать, а также тяжело осуществлять управление ими, но их существование хорошо известно.
В отличие от вышеописанного, существует много данных, которые невидимы для администраторов данных. Они, в основном, существуют в личных файлах, управление содержанием которых осуществляется непосредственно самими людьми, а не корпоративными приложениями. Это невидимые данные.
Хотя о количестве таких данных мало что известно, однако, кажется, что большая их часть содержится в электронных таблицах. Тем не менее, это не только такие приложения как Excel. Это также и отсканированные картинки, документы Word, файлы PDF и даже такие приложения как PowerPoint. Интересно, что ни одно из них не является достаточно сложным для некоторых пользователей, свидетельством чему становится то, что Access сейчас используется в качестве более мощной версии Excel.
Не имеет значения, в каком формате содержатся неизвестные данные, они существуют как мир теней, который в основном не знаком для принципов управления корпоративной информацией в частности и ИТ в общем. Есть причина также предположить, что объём и содержание неизвестных данных всё возрастает со временем.
Электронные таблицы
Роль электронных таблиц на предприятиях представляется довольно проблематичной. Их нынешнее положение в общей системе вещей восходит корнями к революции, связанной с персональными компьютерами. Перед началом эры ПК, пользователи фактически не могли независимо обрабатывать информацию иначе как на бумаге. В те дни мэйнфреймы предоставляли функциональные возможности, которые зачастую реализовывались как пакетный процесс. Если были доступны экраны, то они обычно были “немыми”, зелеными терминалами 3270. Эта отошедшая эра мэйнфреймов стала основой для формирования наших сегодняшних методов разработки систем. В нынешней интеллектуальной системе не существует категорий для обработки персональных данных, поэтому в ней нельзя определить неизвестные данные.
Сегодня основное внимание при управлении данными уделяется общим реляционным базам данных. Ответственность за данные – часть управления данными – в пределах, которые устанавливаются в общем, рассматривается только в контексте этих баз данных. Концепция того, что пользователи могут нести ответственность за данные, которые они создают в электронных таблицах, редко рассматривается. На более высоком уровне не существует технологий, необходимых для координации использования крупноформатных электронных таблиц. Таким образом, область ИТ в целом не заботится об этой ситуации, за исключением разве что вопросов лицензирования.
Поэтому электронные таблицы и другие формы обработки персональных данных находятся за пределами той области, которая затрагивается при управлении данными.
Источники неизвестности
Из каких источников происходят данные, которые попадают в электронные таблицы? Существует четыре основных источника:
- Данные, полученные из корпоративных баз данных (например, копируемые с экранов и сохраняемые из отчетов, которые составляются на экранах).
- Данные, напрямую производимые самими пользователями. Они могут включать в себя основные данные (например, пользователь, который первым устанавливает контакт с новым клиентом, может сохранить информацию о клиенте в электронных таблицах).
- Данные “выкачиваемые” из сети Интернет. Сегодня они могут касаться всего, чего угодно – от курсов обмена валют до телефонных номеров.
- Данные, рассчитываемые в электронных таблицах. В электронных таблицах содержится огромное количество финансовых и прочих моделей. Я могу засвидетельствовать тот факт, что эти модели зачастую используются для управления активами стоимостью в миллиарды долларов.
Существует несколько очевидных проблем, связанных с неизвестными данными. Основной из них является качество данных. Маловероятно, что ошибки, которые могут происходить при копировании, могут быть выявлены. Также пользователь может и не знать о проблемах, связанных с качеством тех источников данных, которые он использует. Это, в частности, относится к источникам данных, которые находятся за пределами предприятия, такие как источники, основанные на Интернет-технологиях. Принципом для управления корпоративной информацией должно стать то, что источник данных должен быть известен. Так как этот подход редко выполняется для данных, то зачастую очень трудно определить их источник. В случае невидимых данных определить их источник не представляется возможным, если пользователь, который производит эти данные, не знает о данном источнике. Можно без труда увидеть, что существуют потенциально важные вопросы соответствия, которые применимы к неизвестным данным.
Существуют также и связанные проблемы. Действительно ли понимает пользователь, который собирает неизвестные данные, их семантическое значение? Если нет, то принятие решений и составление отчётов на основе невидимых данных может быть проблематичным. А что касается копирования личной или конфиденциальной информации в электронные таблицы? Зачастую ничего нельзя сделать, чтобы остановить этот процесс.
Таким образом, внутри электронных таблиц осуществляются расчёты. Дополнительные неизвестные данные могут генерироваться с использованием логического подхода, который непонятен кому-либо другому за исключением создателя этих данных. Финансовые регулятивные органы понимают риски, присущие моделям электронных таблиц, и выказывают обеспокоенность этими рисками.
Невидимая интеграция
Создание невидимых данных – это одно, но существует и другое. Многие специалисты в области данных и ИТ знакомы с диаграммами двухточечных интерфейсов, которые появляются на многих предприятиях. Эти диаграммы показывают, как данные переходят из одной базы данных в другую при помощи таких механизмов, как: репликация (тиражирование) баз данных, извлечение, преобразование и загрузка (ETL) и обмен сообщениями. Однако есть теневые виды интеграции, которые не отражаются на этих диаграммах, потому что они выполняются людьми, а не технологиями.
Одной из форм такой интеграции, является такая интеграция, когда системный оператор обращается к результатам работы приложений, чтобы получить значения, данные о которых затем поступают в другое приложение. Насколько я знаю, этот способ зачастую применяется для основных данных. Данные для таких единиц как Клиент и Продукт в результате этого мистическим образом распространяются по базам данных предприятия. Конечно, этот способ является рискованным. Координация источника и цели должна выполняться в голове пользователя, который выполняет задачу. Важные аспекты качества данных также могут находиться на усмотрении пользователя. Вопросы задержки (ожидания) и циклов, в которые вовлекаются пакеты и приложения, работающие в режиме реального времени, могут приводить к увеличению рисков, связанных с данной “невидимой интеграцией”. Если запись Клиент или Продукт создается (или не создается) вручную в приложении в один и тот же момент времени, то это может вызвать проблемы. Понимание того, как данные циклы влияют на невидимую интеграцию, в результате можно получить только с помощью наследственных знаний, поскольку невидимая интеграция является подходом, который редко поддерживается ИТ.
Специалисты в области данных могут проводить много времени над анализом автоматизированных интерфейсов между приложениями. Однако эти усилия не показывают вклад невидимой интеграции в потоки данных. Если вы будете основывать свои решения на таком анализе, то это приведёт к определённым не поддающимся количественному выражению рискам.
Задача
Несмотря на то, что определить объём невидимых данных и невидимой интеграции для нас может быть очень трудно, однако в этом вопросе существуют очень важные и существенные советы. Я был удивлён тем, как некоторые из предприятий, на которых я работал, продолжали функционировать с учётом фактического состояния их приложений и данных. Единственное заключение, к которому я могу прийти, состоит в том, что имеется что-то ещё, что выполняется в рамках управления информацией и компенсирует реальные фактические ограничения. Так или иначе, пользователи снова возвращаются к проблемам, которые связаны с неизвестными данными.
Отрицание или игнорирование относящихся к EIM невидимых данных в долгосрочной перспективе не представляется возможным. Данные всё в большей степени рассматриваются одновременно как источник пользы и проблем для предприятий. Внимание при управлении данными начинает переключаться с логического мира моделей на физический мир значений данных. Ответственность за данные становится все более схожей с личной ответственностью, которой уделяется большее внимание, нежели анонимным приложениям или предприятию в целом. Неизвестные данные неизбежно будут приниматься во внимание и управление корпоративной информацией должно позволить обуздать их.
Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.