FreshRank - Рейтинг свежести страниц Google
В патенте 7.346.839 от 18 марта 2008 года Google определяет принципы, согласно которым страница считается устаревшей, а когда она считает ее скорее эталоном. Таким образом, понятие FreshRank неявно подробно.
Различие важно, потому что в первом случае страница исчезает с первых мест результатов в пользу страниц, считающихся более актуальными, а во втором, наоборот, она видит свое положение, подкрепленное своим стажем и не затронутое множеством статей в блогах на ту же тему.
Название патента - Retrieval Information на основе исторических данных, что переводится как: Поиск информации на основе исторических данных.
При принятии решения, согласно патенту, принимаются во внимание следующие факторы:
- Дата создания документа.
А точнее, так как Google знает только дату индексации, ту, когда краулер узнает новую страницу. - Обновления.
Периодичность и важность обновлений важны для того, чтобы считать, что документ, хотя и старый, остается в силе. - Проверка запросов.
Если страница более часто выбирается из результатов, отображаемых для запроса, это повышает ее оценку. Если его сочтут устаревшим, но неаммоином, выбранным интернет-пользователями, то ситуация будет пересмотрена.
Если страница включена в увеличивающееся количество разных запросов, то она актуальна. Обратное говорит о том, что его содержание становится все менее актуальным. - Критерии на основе ссылок.
Учитываются сроки появления новых и исчезающих существующих связей. Если новые ссылки появляются все реже, страница считается устаревшей. Если общее количество бэклинков постепенно расшифровывается, вывод такой же.
Алгоритм взвешивает важность обратных ссылок в зависимости от свежести страниц, которые их содержат. Какой из них зависит от тех же критериев (здесь подробно), что и оцениваемая страница, поэтому есть FreshRank в принципе похожий на PageRank.
К ссылкам применяются и другие критерии взвешивания:
- Критерий доверия (TrustRank).
- Значительное и внезапное количество бэклинков указывает на готовность к спаму, ссылки, созданные самим собой, или круг для продвижения документа. - Текст с якорей.
Изменение привязок ссылок на страницу означает, что страница обновляется и остается актуальной. И наоборот, если в документе привязки ссылок не меняются, а указываемые страницы меняются, это означает, что документ не обновляется. - Движение.
Сокращение трафика на веб-странице означает, что она устарела. Алгоритм учитывает сезонные колебания. Он учитывает рекламу на странице:
- изменение рекламы или нет.
- важность сайта, на котором размещается такая реклама.
- Количество кликов на этих рекламных роликах.
(Примечание: В патенте не говорится, как эти данные собираются, но кажется, что Adsense является лучшим вектором.) - Поведение пользователей.
Как уже говорилось выше, это в основном количество раз, когда в результатах выбирается страница, но это и время, которое посетители проводят на ней. Если с течением времени посетители проводят на странице все меньше времени, то его рейтинг свежести понижается.
То же самое, если они проводят меньше времени, чем на других страницах по той же теме. - Имя домена.
Чтобы противостоять спамерам, создающим домены для размещения своих страниц, Google учитывает легитимность домена. Более «легитимными» считаются заранее оплаченные домены за несколько лет, поэтому для оценки учитывается срок годности.
Частая смена хостера (DNS), контактов заставляет считать документ не законным. Хостинг, который управляет многими доменами и разными реестрами, повышает легитимность домена. - История позиций.
Учитываются последовательные позиции в рейтинге результатов, а резкая смена позиции для конкретного запроса свидетельствует о спаме.
Если общее число результатов по просьбе резко увеличится, это будет означать актуальную тему, и соответствующие страницы получат более высокую оценку на будущее.
Если это число увеличивается для одного документа, алгоритм должен разделить между спамом или горящей темой, о которой идет речь. Для этого он учтет ссылки на документ в новых статьях, дискуссионных группах, где спама не предполагается.
Но во всем этом исключение составляют справочные материалы, которые давно имеют хорошую позицию. - Букмарки.
Учитываются данные, управляемые пользователями. Фавориты рассматриваются как бэклинки, их количество, их эволюция служит для того, чтобы судить о новостях одной страницы. - Уникальные слова, биграмы и фразы в якорях.
Появление значительного количества одинаковых привязок в документах или наоборот, все разные привязки во многих документах обозначают спам. Бурный рост этих уникальных слов, биграмов и фраз в якорах свидетельствует о согласии и, следовательно, о спаме. - Связи без отношений.
Резкое увеличение количества ссылок между страницами на содержимое, не связанное с отчетами, указывает на спам. Это подтверждается, если к этому добавится увеличение привязок к последовательному или противоречивому содержанию. - Тема документов.
Тема документа может быть известна с помощью следующих данных:
- Категоризация.
- Анализ URL-адресов.
- Анализ содержимого.
- Кластеризация.
- Создание сводки.
- Наличие уникальных ключевых слов, специфических для домена.
- И другие...
Если темы меняются, страницы нужно пересмотреть. Пик в количестве разных субъектов свидетельствует о намерении спамить.
Заключение
Определение Google для устаревших страниц состоит из одного предложения:
Stale content refers to documents that have been updated для периода времени и, thus, contain stale data.
Перевод: Обесцененное содержание относится к документам, которые не обновлялись в течение определенного периода времени и таким образом содержат устаревшие данные .
Видно, что конкретное применение определения несколько сложнее.
Однако основная идея остается простой: Такой документ, как заявление от 18 июня, никогда не будет устареть, но комментарии, например, к изданию Олимпиады со временем потеряют интерес.
Алгоритм Google отвечает за то, чтобы изменить ситуацию.
Дополнительная информация
- Предыдущая версия была запатентована 31 марта 2005 года.
- См. также патент Google на размещение страниц в результатах. Более общий алгоритм, который повторяет часть настоящего патента.