Автор: Curt Monash
Дата публикации оригинала: 2008-09-26
Источник: Блог Курта Монаша

Управление геопространственными данными является хитом сезона:

Итак, я задал вопросы компаниям Netezza и Teradata об анализе геопространственных данных.

Во-первых, следует заметить, что OLTP (средства оперативной обработки транзакций)/универсальные СУБД и аналитические СУБД обрабатывают геопространственные данные по-разному. Дело в том, что наиболее серьёзные СУБД используют такую систему индексации как r-деревья, которая выделяется при управлении отдельными записями с географическими координатами. Однако поставщики аналитических СУБД, уделяющие основное внимание большим объёмам данных, реализуют геопространственые типы данных как определенные пользователем функции (UDF) или их эквивалент без специального индексирования. Вместо этого они уделяют основное внимание распараллеливанию аналитики и интеграции с другими процессами параллельной аналитической обработки данных.

Поэтому, возможно за исключением клиентов IBM, никто не использует геопространственные индексы, интегрированные в высокопроизводительные параллельные СУБД для хранилищ данных. Компания Netezza заявляет, что у нее получается немного быстрее производить геопространственный анализ в отдельных «складах», чем в интегрированных в СУБД для OLTP, или, по меньшей мере, это то, что на настоящий момент выбирает большая часть пользователей. Я предполагаю, что взгляд компании Netezza на рынок поддерживает мнения тех, кто считает, что возможности геопространственного анализа универсальных СУБД являются недостаточными. Но в любом случае абсолютно правильно то, что геопространственные запросы на системах MPP обрабатываются в целом намного быстрее, нежели на системах SMP.

Кроме вышеуказанного маркетингового заявления, компания Teradata ведет себя скромно в отношении своих геопространственных возможностей. Страничка геопространственного продукта компании Teradata до смешного скудная. Под нажимом Teradata неохотно признается, что у неё есть несколько геопространственных клиентов, но не представляет информации об их отрасли, использовании и т.д., и даже когда клиенты классифицируются, люди которые сообщают мне данную информацию в компании Teradata, просят меня не называть их.

Как вы можете предположить, у меня возникли проблемы при получении чёткого представления о том, почему Teradata считает, что её геопространственные возможности являются более «современными», чем у компании Netezza. Но я получил информацию о том, что в данном случае речь идет о действительно хорошем способе распараллеливания UDF, а также, возможно, и об интеграции UDF друг с другом или с обычными операциями баз данных.

Netezza, наоборот, довольно заметна на геопространственном фронте. Как отмечают Фил Франциско и Рази Разиудин из компании Netezza основными фактами технологии Netezza Spatial являются следующие:

  • В прошлом году, когда Netezza объявила о Netezza Developer Network, одним из вопросов было создание поддержки геопространственных данных. Netezza недавно приобрела данную технологию, запустила ее у себя и назвала Netezza Spatial.
  • Как любая другая технология NDN, Netezza Spatial написана на языке C и скомпилирована для FPGA.
  • Netezza Spatial является общедоступной.
  • Есть один клиент Netezza Spatial - компания Guy Carpenter Insurance.
  • Netezza Spatial также тестировалась розничными продавцами и телекоммуникационными компаниями.

С технической точки зрения кажется, что большая часть поставщиков геопространственных решений поддерживает схожие функции в соответствии со стандартной, называемой OGC (Открытый геопространственный консорциум). В геопространственных решениях мы имеем дело с тремя основными разновидностями объектов:

  • Точки (например, координаты широты и долготы)
  • Линейные сегменты (в основном, пары конечных точек)
  • Многоугольники (в основном, упорядоченные наборы общих точек)

Примеры функций, которые могут рассчитываться на основе данных объектов включают в себя:

  • Расстояние (между различными видами объектов, а не только точками). Общие примеры включают в себя:
    • Расчёт того, какие точки находятся на установленном расстоянии в определенном многоугольнике.
    • Определение ближайшего соседа.
  • Операции над множествами в многоугольной области, в частности пересечения, но не только. Сюда входит рассмотрение того:
    • Сколько клиентов обслуживаются однотипными магазинами в сети (например, там, где пересекаются зоны обслуживания магазинов).
    • Где пересекаются зоны обслуживания вышек для сотовых радиотелефонов.
    • Где пересекаются зоны страхования с высокой степенью риска.
  • Геометрические расчёты, такие как площадь или периметр.

Если вы дойдёте до этого места, то вы можете подумать что-то вроде: «Подождите! Пространственно-ориентированные графические интерфейсы пользователя (GUI) стали основной частью BI много лет назад! Наверняка это не является новым. (Например, я могу вспомнить Майка Стоунбрейкера, который сообщил мне кое-что об этом ещё в то время, когда он работал в компании Informix). Но, как утверждают Фил и Рази география в BI до этого фактически основывалась не на координатах широты и долготы, а на обычно используемых полях таблицы, таких как почтовый код или штат/провинция. Мои наблюдения, проводившиеся в течение многих лет, подтверждают данное заявление.

Итак, кто фактически может использовать этот материал? Очевидные вертикальные рынки включают в себя:

  • Оборона/разведка
  • Планирование землепользования и схожие функции управления
  • Землеведение
  • Электроэнергетические компании (основные потребители транзакционных геопространственных типов данных)
  • Телекоммуникационные компании – крупные потребители хранилищ данных и, в некоторой степени, напоминающие электроэнергетические компании
  • Предприятия розничной торговли – имеющие большую связь с месторасположением
  • Страховщики имущества и страховщики от несчастных случаев – то же самое
  • Компании, выполняющие почтовые рассылки (direct mail) – если какие-либо из них выживут в нынешнюю эру дешёвой электронной связи.

Ссылки на статьи Курта по следующим категориям (на английском языке):
Analytic technologies, Data warehousing, GIS and geospatial, Netezza, Teradata


Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

Читайте также: