Анатомия поисковой системы: Инфраструктура Google

Дизайн по описанию, предоставленному основателями Google Лоуренсом Пейджем и Сергеем Брином.

Начиная с 1998 года, этот документ имеет упрощенный вид, и, в частности, модуль PageRank должен быть разработан в нескольких единицах с учетом различных критериев, включая поведение пользователей.

Архитектура поисковой системы

Anatomie du moteur de recherche de Google - Réutilisation interdite
(c) 2010 .com/.fr - Повторное использование запрещено на веб-странице

Компоненты

Кроулеры

Их несколько, раздают, они говорят страницы, находят в них ссылки и ключевые слова.

Сервер URL-адресов
Содержит список URL-адресов для сканирования.
Сервер банка
Краулер отправляет собранные данные на сервер банка.
Он сжимает страницы и помещает их в этот вид в хранилище.
Каждая сохраненная страница имеет идентификатор, docID.
Банк
Содержит копию страниц и изображений, позволяет проводить сравнения и кэширование.
Индексатор
Он индексирует страницы, чтобы предоставить их СЕРП (результаты). Он распаковывает документы и преобразует их в набор слов под названием «хиты». Он раздает хиты среди ансамбля бочек. Это дает частично отсортированный индекс. Он также создает список URL-адресов на странице.
Хит содержит следующую информацию: слово, его позицию в документе, размер шрифта, капитализацию .
Баррели
Эти фигуральные бочки - базы данных, которые классифицируют документы по docID.
Они создаются индексатором и используются сортировщиком.
Якоря
Файл привязок, созданный индексатором, содержит внутренние ссылки и текст, связанный с каждой ссылкой.
Решатель URL-адреса
Он содержит содержимое файла привязок, преобразует относительные URL-адреса в абсолютные адреса и находит или создает docID.
Он создает индекс документов и базу данных связей.
Индекс документов
Он содержит текст для каждого URL-адреса.
Связи
База данных ссылок связывает каждую из них с docID (следовательно, также с документом в Интернете).
PageRank
Программа использует базу ссылок для определения PageRank каждой страницы.
Сортировщик
Он взаимодействует с бочками. В нем воспроизводятся документы, классифицированные по docID, и создается обратный список, классифицированный по wordID .
Лексикон
Программное обеспечение под названием DumpLexicon берет список, предоставленный сортировщиком (классифицированный wordID), а также повторяет лексикон, созданный индексатором (список ключевых слов на каждой странице), и производит новый лексикон для исследователя.
Исследователь
Он работает на веб-сервере в центре обработки данных, использует лексикон производства DumpLexicon в сочетании с индексом, классифицированным wordID, учитывает PageRank и создает страницу результатов.

Само собой разумеется, что эта схема упрощена. Система, как правило, становится все более сложной с добавленным временем и функциями.

Ссылки

Анатомия широкого масштаба гипертекстуального веб-поиска движка. Ларри Пейдж и Сергей Брин.
Этот документ на английском языке, размещённый Стэнфордом, вероятно, датируется 1998 годом и подробно описывает работу поисковой системы. Настоящий документ представляет собой его резюме и содержит новую схему .com/.fr.

How search works
Очень развито объяснение работы поисковой системы Google. (Английский).

Значки либо создаются для Script, либо взяты из банка значков свободного использования.