Алгоритм BrowseRank компании Microsoft

BrowseRank сравнивается с PageRank , который оценивает популярность страницы по количеству ссылок на этой странице. BrowseRank оценивает важность страницы в зависимости от навигации пользователей и их поведения.

Авторы - китайцы и в основном преподают или имеют исследовательскую должность в университетах Пекина: Ютин Лю, Бин Гао, Тэ-Ян Лю, Инь Чжан, Чжимин Ма, Шуюань Хэ, Хан Ли.

Расчет BrowseRank

График навигации: Точки - это страницы, а отношения - переходы пользователей между страницами. Также учитывается время, проведенное пользователем на страницах. Он хочет быть более эффективным, чем граф ссылок на страницах, чтобы определить их важность.  

Информацию о поведении посетителя получают из браузера. Это:

Они служат для построения графика. Он представляет процесс случайного прохождения интернет-пользователей. Предполагается, что когда посетитель заходит на страницу и остается на ней, он неявно голосует за эту страницу.

Затем алгоритм основывается на непрерывном процессе Маркова, который применяется, принимая граф за модель для определения стационарной вероятности распределения процесса, соответствующей важности страниц.
Для оценки времени проводится различие между моментом или страницей и загружением другой страницы. Для последней страницы сессии используется среднее время, которое наблюдается, если оно не является последним или аналогичным процессом.

Упрощенный алгоритм

Ввод: данные о поведении пользователя Интернета.
Выход: оценка важности страницы.
Алгоритм:

  1. Создание навигационного графика.
  2. Оценка qii для всех страниц.
  3. Оценка матрицы вероятности перехода EMC
    затем получают распределение стационарной вероятности методом степеней.
  4. Расчет распределения стационарной вероятности.

Подробности алгоритма приведены в документе со ссылкой.

Сравнение с PageRank

PageRank опирается на график связей между страницами и считает, что чем больше ссылок на страницу и тем важнее она и видна многим интернет-пользователям.
Он использует марковский процесс в незаметное время на связях, чтобы оценить их важность.
У него есть такие недостатки:

Google использует не только алгоритм PageRank для определения позиции в результатах, но и алгоритм оценки страниц, патент на которые был подан в 2007 году. PageRank является одним из критериев определения балла страницы.

Недостатки BrowseRank:

Критерий времени

На самом деле невозможно узнать, читает ли пользователь страницу или оставил браузер открытым и ушел заниматься чем-то другим.
Короткая, простая, четкая страница будет быстро прочитана, но не будет менее важной, чем другая, более длинная, запутанная или трудная для расшифровки. Например, страница с адресом магазина читается в считанные секунды и, тем не менее, имеет решающее значение!

PageRank оценивает качество ссылок

Оценка страниц, составленная Google, учитывает количество критериев, гораздо больше, чем BrowseRank, как видно из резюме патента.
Спам по взаимным или твердым ссылкам все лучше и лучше контролируется, что также делает этот аргумент необоснованным.

Понятие доверия

PageRank зависит не только от количества ссылок, но и от актуальности и веса ссылок. Ссылки с важного сайта имеют большее значение, чем ссылки с нечастого сайта.
Эти критерии отсутствуют в BrowseRank, за который в принципе стоят все клики.

Неконтролируемый спам

Точно так же, как вебмастеры пытаются использовать PageRank в свою пользу, создавая ссылки, они будут пытаться взломать BrowseRank, заставляя работать роботов (скриптов), которые будут имитировать поведение человека и парковаться на своих страницах. Такие сценарии могут выполняться миллионными тиражами.