Анатомия поисковой системы: Инфраструктура Google
Дизайн по описанию, предоставленному основателями Google Лоуренсом Пейджем и Сергеем Брином.
Начиная с 1998 года, этот документ имеет упрощенный вид, и, в частности, модуль PageRank должен быть разработан в нескольких единицах с учетом различных критериев, включая поведение пользователей.
Архитектура поисковой системы
(c) 2010 .com/.fr - Повторное использование запрещено на веб-странице
Компоненты
Кроулеры | Их несколько, раздают, они говорят страницы, находят в них ссылки и ключевые слова. |
Сервер URL-адресов | Содержит список URL-адресов для сканирования. |
Сервер банка | Краулер отправляет собранные данные на сервер банка. Он сжимает страницы и помещает их в этот вид в хранилище. Каждая сохраненная страница имеет идентификатор, docID. |
Банк | Содержит копию страниц и изображений, позволяет проводить сравнения и кэширование. |
Индексатор | Он индексирует страницы, чтобы предоставить их СЕРП (результаты). Он распаковывает документы и преобразует их в набор слов под названием «хиты». Он раздает хиты среди ансамбля бочек. Это дает частично отсортированный индекс. Он также создает список URL-адресов на странице. Хит содержит следующую информацию: слово, его позицию в документе, размер шрифта, капитализацию . |
Баррели | Эти фигуральные бочки - базы данных, которые классифицируют документы по docID. Они создаются индексатором и используются сортировщиком. |
Якоря | Файл привязок, созданный индексатором, содержит внутренние ссылки и текст, связанный с каждой ссылкой. |
Решатель URL-адреса | Он содержит содержимое файла привязок, преобразует относительные URL-адреса в абсолютные адреса и находит или создает docID. Он создает индекс документов и базу данных связей. |
Индекс документов | Он содержит текст для каждого URL-адреса. |
Связи | База данных ссылок связывает каждую из них с docID (следовательно, также с документом в Интернете). |
PageRank | Программа использует базу ссылок для определения PageRank каждой страницы. |
Сортировщик | Он взаимодействует с бочками. В нем воспроизводятся документы, классифицированные по docID, и создается обратный список, классифицированный по wordID . |
Лексикон | Программное обеспечение под названием DumpLexicon берет список, предоставленный сортировщиком (классифицированный wordID), а также повторяет лексикон, созданный индексатором (список ключевых слов на каждой странице), и производит новый лексикон для исследователя. |
Исследователь | Он работает на веб-сервере в центре обработки данных, использует лексикон производства DumpLexicon в сочетании с индексом, классифицированным wordID, учитывает PageRank и создает страницу результатов. |
Само собой разумеется, что эта схема упрощена. Система, как правило, становится все более сложной с добавленным временем и функциями.
Ссылки
Анатомия широкого масштаба гипертекстуального веб-поиска движка. Ларри Пейдж и Сергей Брин.
Этот документ на английском языке, размещённый Стэнфордом, вероятно, датируется 1998 годом и подробно описывает работу поисковой системы. Настоящий документ представляет собой его резюме и содержит новую схему .com/.fr.
How search works
Очень развито объяснение работы поисковой системы Google. (Английский).
Значки либо создаются для Script, либо взяты из банка значков свободного использования.