Анатомия поисковой системы: Инфраструктура Google

Дизайн по описанию, предоставленному основателями Google Лоуренсом Пейджем и Сергеем Брином.

Начиная с 1998 года, этот документ имеет упрощенный вид, и, в частности, модуль PageRank должен быть разработан в нескольких единицах с учетом различных критериев, включая поведение пользователей.

Архитектура поисковой системы

Anatomie du moteur de recherche de Google - Réutilisation interdite
(c) 2010 .com/.fr - Повторное использование запрещено на веб-странице

Компоненты

Кроулеры	Их несколько, раздают, они говорят страницы, находят в них ссылки и ключевые слова.
Сервер URL-адресов	Содержит список URL-адресов для сканирования.
Сервер банка	Краулер отправляет собранные данные на сервер банка. Он сжимает страницы и помещает их в этот вид в хранилище. Каждая сохраненная страница имеет идентификатор, docID.
Банк	Содержит копию страниц и изображений, позволяет проводить сравнения и кэширование.
Индексатор	Он индексирует страницы, чтобы предоставить их СЕРП (результаты). Он распаковывает документы и преобразует их в набор слов под названием «хиты». Он раздает хиты среди ансамбля бочек. Это дает частично отсортированный индекс. Он также создает список URL-адресов на странице. Хит содержит следующую информацию: слово, его позицию в документе, размер шрифта, капитализацию .
Баррели	Эти фигуральные бочки - базы данных, которые классифицируют документы по docID. Они создаются индексатором и используются сортировщиком.
Якоря	Файл привязок, созданный индексатором, содержит внутренние ссылки и текст, связанный с каждой ссылкой.
Решатель URL-адреса	Он содержит содержимое файла привязок, преобразует относительные URL-адреса в абсолютные адреса и находит или создает docID. Он создает индекс документов и базу данных связей.
Индекс документов	Он содержит текст для каждого URL-адреса.
Связи	База данных ссылок связывает каждую из них с docID (следовательно, также с документом в Интернете).
PageRank	Программа использует базу ссылок для определения PageRank каждой страницы.
Сортировщик	Он взаимодействует с бочками. В нем воспроизводятся документы, классифицированные по docID, и создается обратный список, классифицированный по wordID .
Лексикон	Программное обеспечение под названием DumpLexicon берет список, предоставленный сортировщиком (классифицированный wordID), а также повторяет лексикон, созданный индексатором (список ключевых слов на каждой странице), и производит новый лексикон для исследователя.
Исследователь	Он работает на веб-сервере в центре обработки данных, использует лексикон производства DumpLexicon в сочетании с индексом, классифицированным wordID, учитывает PageRank и создает страницу результатов.

Само собой разумеется, что эта схема упрощена. Система, как правило, становится все более сложной с добавленным временем и функциями.

Ссылки

Анатомия широкого масштаба гипертекстуального веб-поиска движка. Ларри Пейдж и Сергей Брин.
Этот документ на английском языке, размещённый Стэнфордом, вероятно, датируется 1998 годом и подробно описывает работу поисковой системы. Настоящий документ представляет собой его резюме и содержит новую схему .com/.fr.

How search works
Очень развито объяснение работы поисковой системы Google. (Английский).

Значки либо создаются для Script, либо взяты из банка значков свободного использования.