Как Google работает над своим алгоритмом

Moteur de recherche, labo

Google, самый посещаемый в мире веб-сайт, тонко настраивает свой алгоритм ранжирования страниц в результатах поиска. Интересно отметить, основываясь на статье Сола Ханселла в New York Times, что PageRank, индекс популярности Этот известный алгоритм является лишь одним из многих критериев оценки, а с другой стороны, фактический алгоритм не является чем-то фиксированным, а скорее команды Google постоянно работают над анализом результатов, чтобы исправить его и контролировать рейтинг страницы.
Это объяснит веб-мастерам, почему их сайт иногда прыгает вперед в списке результатов и почему он иногда исчезает в глубинах рейтинга без причины, независимо от так называемого штрафа «песочницы».

Журналист имел возможность провести день с инженерами Google, непосредственно участвующими в разработке алгоритма, в их рабочей среде и поучаствовать в их рабочей встрече.

Следим за показателями

Работа команды мотивирована жалобами компаний, чьи сайты без причины плохо ранжированы, и собственным анализом результатов. Следует отметить, что у каждого из 10 000 сотрудников есть «буганизатор», инструмент для сообщения о проблемах, возникающих при поиске, и что все комментарии направляются команде алгоритма.
Например, мы отметили, что поиски «французской революции» привели к предвыборным статьям, потому что кандидаты говорили о «революции»! Поправка в этом случае просто состояла в том, чтобы придать больший вес терминам «Французская революция» или «Французская революция», когда термины используются вместе.

Инструменты, которые мы используем

У команды есть специальный инструмент под названием «Отладка», который показывает, как компьютеры оценивают каждый запрос и каждую веб-страницу. Это позволяет нам видеть, какую важность алгоритм приписывает ссылкам на странице, и при необходимости исправлять их.
Как только задача выявлена, разрабатывается новая математическая формула для обработки конкретного случая и включается в алгоритм.

Делаем ставку на модели

Помимо PageRank и других сигналов, алгоритм использует несколько моделей.

(См. ссылки ниже).

Новизна - дилемма

Важнейший вопрос для команды разработчиков - вопрос свежести. Должны ли мы отдавать приоритет более новым страницам, которые, вероятно, лучше отражают текущие события, или, напротив, более старым, которые уже продемонстрировали свое качество, особенно благодаря количеству обратных ссылок?
Google всегда отдавал предпочтение последнему, но недавно мы поняли, что это не всегда правильный выбор, поэтому нам пришлось разработать новый алгоритм, который определяет, когда пользователю нужна новая информация, а когда она должна быть стабильной наоборот. Это называется формулой QDF, «Запрос заслуживает свежести».
Мы можем определить, что тема горячая, когда блоги начинают говорить об этом, или когда происходит внезапный приток запросов по теме.

Необходимо создать фрагменты кода

Над фрагментами работает группа. Это включает в себя улучшение представления результатов путем извлечения информации о сайте и ее отображения для информирования пользователей о сайте до того, как они нажмут на ссылку.

Поддержание гигантского индекса

Google имеет сотни тысяч компьютеров toindex миллиарды страниц всех веб-сайтов в мире... Цель - независимо от постоянного добавления новых страниц - иметь возможность обновить весь индекс за несколько дней!
Важно знать, что центры обработки данных хранят копии всех веб-страниц, чтобы к ним можно было быстрее получить доступ.

Добавление новых сигналов вместе с PageRank

PageRank, разработанный в первые дни компании Ларри Пейджем и Сергеем Брином, - показатель, соответствующий количеству ссылок на странице, гарантия ее качества. Но он во многом устарел. Сейчас Google использует 200 критериев, которые называет «сигналами». Это зависит как от содержания страницы, так и от ее эволюции, запросов, поведения посетителей... но всё это подробно описано в патенте PageRank и Sandox.
Наряду с сигналами на страницах и их историей Google использует классификаторы на запросах, целью которых является восстановление контекста поиска, фреймворка, в который он помещен. Например, хотим ли мы искать товар для покупки или что-то узнать?

Самый известный элемент нашего рейтинга - PageRank, алгоритм, разработанный Ларри Пейджем и Сергеем Брином, основавшими Google. PageRank все еще используется в настоящее время, но теперь он является частью более крупной системы.

Пост, который является источником этой цитаты (см. Ниже) говорит нам, что PageRank был изменен в январе 2008 года, поэтому он не является неизменным!

Стремление к разнообразию в результатах

Как только страницы выбраны и ранжированы, некоторые должны занимать первые десять позиций, самые выгодные, но это еще не все. Google хочет добавить разнообразия С другой точки зрения, например, блогов и коммерческих сайтов, в верхнюю часть рейтинга также будут добавлены страницы с более низким рейтингом, причем первая в каждой категории будет продвигаться.

Всегда совершенствуем алгоритм

Одни группы работают над улучшением алгоритма, а другие - над оценкой результатов. Качество ответов алгоритма оценивается в реальном времени, чтобы проверить актуальность ответов, особенно с контролем улучшений, как только они сделаны. Задача статистиков - измерять качество результатов.

Одна группа посвящена спаму и всем видам злоупотреблений, например скрытому тексту. Эта группа «webspam», как мы узнаем, работает совместно с группой Google Webmaster Central, которая предоставляет помощь и инструменты веб-мастерам.

И

это еще не все говорит...

Методы Google кажутся довольно академичными, с ее сигналами и классификаторами, по сравнению с конкурентами вроде Microsoft, которая использует нейронные сети. Но мы не все знаем. Google по-прежнему хранит много секретов, не желая раскрывать все свои техники конкурентам.

Список литературы: Официальный блог Google. (англ.). Часть приведенной выше информации взята из статьи Сола Ханселла, опубликованной в New York Times.