Автор: Curt Monash
Дата публикации оригинала: 2008-08-26
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша

Большинство существующих сфер использования MapReduce, о которых я слышал, попадают в одну из следующих категорий:

  • Выделение токенов из текста, индексирование и поиск по тексту
  • Создание других структур данных (например, графов)
  • Data mining и обучение машин

Этот список покрывает все области применения MapReduce, о которых, помнится, я слышал от компаний и пользователей, и он также содержит большинство тех приложений, которые я нашел в двух больших источниках в Интернете, а именно:

1. В своей презентации Google рассказывает о следующих задачах, для которых может быть применен MapReduce:

  • распределенный grep
  • распределенная сортировка
  • построение графов «web-страница, все web-страницы со ссылками на эту страницу» (reverse web link-graph)
  • вектор терминов (список наиболее важных слов в документе или наборе документов – прим. переводчика) для хоста (term vector per host)
  • статистический анализ логов доступа к сайту
  • создание инвертированных индексов
  • кластеризация документов
  • обучение машин
  • статистический машинный перевод

2. На этой странице содержится обширный список приложений Hadoop. Вот выдержка из этого списка:

  • Агрегация, хранение и анализ данных о поведении пользователей при просмотре видео через Интернет
  • Аналитика
  • Анализ и индексация текстовой информации
  • Анализ схожести поведения пользователей
  • Построение масштабируемых алгоритмов машинного обучения, таких как алгоритмы кластеризации canopy clustering, k-means clustering и многие другие (наивные байесовские классификаторы, другие)
  • Построение графов и анализ логов доступа к сайту
  • Просмотр и обработка постов в блогах
  • Просмотр, обработка, предоставление и анализ логов
  • Data mining и просмотр логов
  • Поиск похожих лиц и распознавание лиц в больших базах данных
  • Фильтрация и индексирование списков, удаление дубликатов и группировка схожих элементов
  • Фильтрация и индексирование списков, обработка и анализ логов, а также обработка рекомендаций
  • Создание гибкого программного обеспечения поисковых «движков»
  • Сбор данных DNS по всему миру для обнаружения сетей распределения контента и проблем с конфигурацией
  • Генерация графов, связывающих web-страницы (web graphs)
  • Защита авторских прав на видеопродукцию
  • Реклама на основании анализа изображений и авто-расстановка тэгов для социальных сетей
  • Среда обработки изображений для систем рекомендации продуктов на основе изображений
  • Система поиска изображений
  • Полномасштабные преобразования изображений
  • Скрытый семантический анализ, коллаборативная фильтрация
  • Анализ логов, data mining и обучение машин
  • Поиск на естественном языке (Natural Language Search)
  • Инструменты социального поиска с открытым исходным кодом
  • Разбор и индексирование почтовых логов с целью поиска
  • Построение карты всей сети Интернет
  • Обработка логов сервера Apache, анализ действий и потока нажатий пользователей, а также нажатий на ссылки на любой странице сайта
  • Обработка потока нажатий и демографических данных для создания аналитических отчетов
  • Обработка данных о людях в Сети
  • Обработка документов, получаемых от постоянного просмотра сети и распределенное обучение моделей по методу опорных векторов
  • Обработка вводимой пользователями информации о ценах
  • Получение статистической информации
  • Индексирование поиска товаров
  • Система построения рекомендаций для поведенческого таргетинга, а также другие виды анализа потока нажатий
  • Снижение объема данных об использовании для вычисления внутренних метрик, для индексация поиска, и для данных по рекомендациям
  • Исследования для рекламных систем и поиска в Сети
  • Извлечение и анализ биометрической информации
  • Параллельный запуск наивных байесовских классификаторов по собранным данным для обнаружения событий
  • Поисковик для хиропрактической информации, местных хиропрактиков, товаров и школ
  • Оперирование большими индексами, создаваемыми библиотекой Lucene
  • Анализ сессий и генерация отчетов
  • Поисковик исходных кодов
  • Масштабное статистический анализ и моделирование
  • Хранение, анализ логов, обнаружение/анализ закономерностей
  • Хранение копий внутренних логов и источников данных для размерностей, которые используются для отчетности/аналитики и машинного обучения
  • Обучение и исследования по обработке естественного языка и по обучению машин
  • Поисковик для обнаружения заслуживающей доверия информации о винах

Существуют также несколько исследовательских приложений и некоторые приложения по ускорению обработки данных общего характера, которые мне было труднее отобрать.

Некоторые из наших недавних ссылок о MapReduce

Ссылки на статьи Курта по следующим категориям (на английском языке): MapReduce, RDF and graphs, Text


Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.

Читайте также: