Известные области применения MapReduce
Автор: Curt Monash
Дата публикации оригинала: 2008-08-26
Перевод: Олег Кузьменко
Источник: Блог Курта Монаша
Большинство существующих сфер использования MapReduce, о которых я слышал, попадают в одну из следующих категорий:
- Выделение токенов из текста, индексирование и поиск по тексту
- Создание других структур данных (например, графов)
- Data mining и обучение машин
Этот список покрывает все области применения MapReduce, о которых, помнится, я слышал от компаний и пользователей, и он также содержит большинство тех приложений, которые я нашел в двух больших источниках в Интернете, а именно:
1. В своей презентации Google рассказывает о следующих задачах, для которых может быть применен MapReduce:
- распределенный grep
- распределенная сортировка
- построение графов «web-страница, все web-страницы со ссылками на эту страницу» (reverse web link-graph)
- вектор терминов (список наиболее важных слов в документе или наборе документов – прим. переводчика) для хоста (term vector per host)
- статистический анализ логов доступа к сайту
- создание инвертированных индексов
- кластеризация документов
- обучение машин
- статистический машинный перевод
2. На этой странице содержится обширный список приложений Hadoop. Вот выдержка из этого списка:
- Агрегация, хранение и анализ данных о поведении пользователей при просмотре видео через Интернет
- Аналитика
- Анализ и индексация текстовой информации
- Анализ схожести поведения пользователей
- Построение масштабируемых алгоритмов машинного обучения, таких как алгоритмы кластеризации canopy clustering, k-means clustering и многие другие (наивные байесовские классификаторы, другие)
- Построение графов и анализ логов доступа к сайту
- Просмотр и обработка постов в блогах
- Просмотр, обработка, предоставление и анализ логов
- Data mining и просмотр логов
- Поиск похожих лиц и распознавание лиц в больших базах данных
- Фильтрация и индексирование списков, удаление дубликатов и группировка схожих элементов
- Фильтрация и индексирование списков, обработка и анализ логов, а также обработка рекомендаций
- Создание гибкого программного обеспечения поисковых «движков»
- Сбор данных DNS по всему миру для обнаружения сетей распределения контента и проблем с конфигурацией
- Генерация графов, связывающих web-страницы (web graphs)
- Защита авторских прав на видеопродукцию
- Реклама на основании анализа изображений и авто-расстановка тэгов для социальных сетей
- Среда обработки изображений для систем рекомендации продуктов на основе изображений
- Система поиска изображений
- Полномасштабные преобразования изображений
- Скрытый семантический анализ, коллаборативная фильтрация
- Анализ логов, data mining и обучение машин
- Поиск на естественном языке (Natural Language Search)
- Инструменты социального поиска с открытым исходным кодом
- Разбор и индексирование почтовых логов с целью поиска
- Построение карты всей сети Интернет
- Обработка логов сервера Apache, анализ действий и потока нажатий пользователей, а также нажатий на ссылки на любой странице сайта
- Обработка потока нажатий и демографических данных для создания аналитических отчетов
- Обработка данных о людях в Сети
- Обработка документов, получаемых от постоянного просмотра сети и распределенное обучение моделей по методу опорных векторов
- Обработка вводимой пользователями информации о ценах
- Получение статистической информации
- Индексирование поиска товаров
- Система построения рекомендаций для поведенческого таргетинга, а также другие виды анализа потока нажатий
- Снижение объема данных об использовании для вычисления внутренних метрик, для индексация поиска, и для данных по рекомендациям
- Исследования для рекламных систем и поиска в Сети
- Извлечение и анализ биометрической информации
- Параллельный запуск наивных байесовских классификаторов по собранным данным для обнаружения событий
- Поисковик для хиропрактической информации, местных хиропрактиков, товаров и школ
- Оперирование большими индексами, создаваемыми библиотекой Lucene
- Анализ сессий и генерация отчетов
- Поисковик исходных кодов
- Масштабное статистический анализ и моделирование
- Хранение, анализ логов, обнаружение/анализ закономерностей
- Хранение копий внутренних логов и источников данных для размерностей, которые используются для отчетности/аналитики и машинного обучения
- Обучение и исследования по обработке естественного языка и по обучению машин
- Поисковик для обнаружения заслуживающей доверия информации о винах
Существуют также несколько исследовательских приложений и некоторые приложения по ускорению обработки данных общего характера, которые мне было труднее отобрать.
Некоторые из наших недавних ссылок о MapReduce
- Интеграция MapReduce и хранилищ данных
- Другая область применения MapReduce
- Несколько тезисов о MapReduce
- Другие ссылки о MapReduce
Ссылки на статьи Курта по следующим категориям (на английском языке): MapReduce, RDF and graphs, Text
Для удобства отслеживания новых публикаций рекомендуем подписаться на рассылку или на канал RSS.