Латентное выделение ресурсов (LDA) и Google
Изучение алгоритма LDA (латентное выделение Дирихлета) - новый тренд среди вебмастеров. Он поднимает часть секретности алгоритма поисковой системы Google и частично объясняет, как выбираются ссылки на страницах результатов.

Эта тенденция была инициирована Seomoz.org сайтом, когда он предложил инструмент для оценки веб-страницы с использованием этого алгоритма. Этот инструмент дает оценку актуальности по отношению к запросу, чем он актуальнее и тем лучше предполагается, что он появится в результатах поисковых систем.
Достоверность оценки была проверена экспериментально.
Слово Dirichlet происходит от Иоганна Петера Густава Лежена Дирихле, немецкого математика, учившегося во Франции и соединившегося с французскими математиками XIX века, который занимался работой в области сложного анализа и законов вероятности.
Алгоритм LDA был впервые описан Дэвидом Блеем в 2003 году, который опубликовал статью, размещенную в Принстонском университете: Latent Dirichlet Relation.
Документ «Online Inference of Topics with Latent Diirichlet Assistation», опубликованный университетом Беркли в 2008 году, сравнивает относительные преимущества двух алгоритмов LDA.
Что такое LDA?
LDA имеет важнейшую цель ранжирования, позволяет связать контекст с документом из слов, содержащихся в этом документе, которые могут относиться к различным контекстам.
Например, слово «робот» может означать программу (робот поисковой системы), или машину (робот-андроид). Анализ близких к этому слову слов на странице позволяет определить, идет ли речь на странице или абзаце о программах или машинах.
Поисковики определяют контекст на основе запроса и привычек пользователя интернета, ранее посещенных страниц. Тогда им остается найти страницы, содержащие ключевые слова запроса, но в контексте интернет-пользователя и LDA тогда применяется к страницам в индексе.
Алгоритм представляет собой байесовскую модель, поэтому он направлен на определение вероятности гипотезы. Поскольку речь идет о связывании ключевого слова или группы с контекстом, гипотеза - это контекст, и есть несколько конкурирующих .
Также в информатике используются байесовские выводы и тренируются боты, например, для создания фильтра от спама.
Использование алгоритма поисковой системы может оказаться более эффективным, чем использование заранее определенного кода.
Цитата (Гриффитс и Стейвер):
Latent Diirichlet Relation (Blei et al, 2003) - мощный алгоритм обучения, позволяющий автоматически и совместно классифицировать слова в контекстах и документах в смеси контекстов. Он был успешно применен для моделирования изменений в научных областях в течение времени.
LDA и оптимизация
Seomoz создал свой инструмент, обнаружив корреляцию результатов Google с этим алгоритмом. Вывод заключается в том, что Google интегрирует LDA в свой алгоритм, который является более широким и включает в себя множество других критериев.
LDA в основном основана на содержании. Алгоритм Google содержит критерии не только по содержанию, но и по количеству ссылок на страницу.
Опыт показывает, что первые ссылки на страницах результатов Google имеют более актуальный контент, чем те, что приходят после.
Для оптимального использования этого алгоритма лучше всего усилить контекст страницы по сравнению с запросом, на который нужно ответить, добавив слова, относящиеся к ключевым словам, уже связанным с этим запросом.
Но нужно избегать каких-то подводных камней...
Что не LDA:
- Это не критерий плотности ключевых слов.
Бесполезно накапливать одни и те же ключевые слова в надежде увидеть страницу, лучше расположенную на типе результатов. Он используется только для поиска контекста страницы и для этого важен выбор слов, а не числа. - Это не словарь синонимов.
Важны ассоциации между словами, представляющими разные, но связанные между собой вещи. Также бесполезно накапливать синомимы слова, по крайней мере, по сравнению с LDA, потому что это может быть полезно в более общем плане.
Повторение ключевого слова ничего не приносит, но повторение контекста наоборот может быть полезным. Группы ключевых слов, относящиеся к теме, например к программам или машинам, которые встречаются на странице несколько раз, могут улучшить ее позиционирование.
Документы и код
- Реализация LDA на Hadoop компанией Yahoo! Код на GitHub .