Sitemap и генератор карт веб-сайтов
Карту сайта ценят роботы поисковых систем в XML-версии и пользователи в HTML-версии, чтобы при необходимости ориентироваться на сайте.
В настоящее время ситемап расширяется с помощью тегов изображения и видео, и даже с набором тегов, которые делают его эквивалентом RSS-потока.
Ты можешь создать карту сайта всего одной командой со скриптом, предоставленным здесь, и отредактировать созданный документ из встроенного средства просмотра (или любого текстового или XML-редактора), а затем загрузить файл прямо в корень своего сайта.
Кроме того, файл следует сохранить в формате XML или текстовом формате. Используемый формат XML - стандарт, созданный Google и принятый Yahoo и Live Search (Microsoft).
- Концепции
- Как создать карту сайта?
- Зачем делать карту сайта?
- XML, текст, HTML, какой формат выбрать?
- Форматы ситемапов.
- Индекс сайта.
- Множественное содержание на одном и том же сайте.
- Вещи, важные советы для карт сайта.
- Проверить файл sitemap.xml
- Отправить карту сайта.
- Генератор ситемап.
- Ресурсы.
Концепции
Как создать карту сайта?
С помощью графического интерфейса достаточно указать название домашней страницы и нажать кнопку «Generate».
Зачем делать карту сайта
?Будь то в формате XML и сохраненный в Google или HTML, карта позволяет лучше ссылаться на веб-сайт. Кроме того, Google предоставляет анализ ссылок с отчетом о проблемах при сохранении файла sitemap.xml, а также статистику.
В нем приведены результаты поиска и страницы, которые не удалось проиндексировать.
Простая карта, экран
|
![]() |
XML, текст, HTML, какой формат выбрать?
Формат XML теперь признают ведущие поисковики. Он дает указания Гуглботу и другим поисковым роботам. Этот XML-документ создается простой картой в соответствии с форматом, изначально заданным Google.
- Тег priority указывает, какие страницы являются наиболее важными.
- Тег lastmod - указывает дату последнего изменения, которая используется совместно с частотой.
- Тег changefreq - показывает, как часто робот должен разбивать страницу, какие-то always для очень большого сайта и часто меняющиеся страницы на yearly или never для статических документов (например, официальные спецификации форматов с номером версии).
Текстовый формат предоставляет только список URL-адресов страниц. Его принимает Google.
Формат HTML предназначен для посетителей вашего сайта. Он может просматривать ссылки, заголовки, описания и другую информацию. Он может перечислять только часть страниц.
Он управляется поисковиками и может использоваться для указания им неиндексированных страниц, особенно в случае наличия нескольких уровней каталогов, при этом не всегда учитываются самые глубокие.
Текстовый файл или HTML являются простыми списками URL-адресов, но XML-формат состоит из тегов, соответствующих стандартному формату.
Форматы ситемапов
Формат XML
Контейнер имеет urlset и содержит ряд тегов url, соответствующих страницам сайта.
<urlset xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap/0.9">
<url>
<loc>https://www.iqlevsha.ru/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Изображения в ситемапах
Для индексирования изображения используется следующий формат:
<url>
<loc>http://example.com/sample.html</loc>
<image:image>
<image:loc>http://example.com/image.jpg</image:loc>
</image:image>
</url>
Подробнее о Центре веб-мастеров Google.
Видео в ситемапах
Смотрите часто задаваемые вопросы о ситемапах видео, Google. (Английский )
Sitemap новостей
Для публикации ваших статей в Google News помимо URL-адреса, содержащего уникальный ID, требуется конкретный sitemap.
Это стандартная карта XML с добавленными тегами.
На самом деле эти теги превращают sitemap в RSS-файл:
- <публикация> эквивалентна каналу. Он включает в себя тег «name» и «language».
- <access> со значением «публикация», «свободный доступ» или «регистрация» ограничен.
- <жанр>, необязательно, используется для квалификации типа статьи.
- <publication_date>, дата и время публикации.
- <title>, название статьи.
- <keywords> необязательно.
- плюс теги sitemap для URL, вес...
Ситемап должен содержать только статьи, опубликованные в последние два дня.
Индекс sitemap
Индекс - это файл, содержащий список ситемапов. Он позволяет, если у тебя есть несколько ситемапов или карта сайта разбита на несколько файлов, указать их URL.
Не нужно создавать индекс для одного sitemap и даже ситемапы разного содержания теперь можно объединить в один, как мы увидим.
Индексный файл также имеет стандартный формат XML.
Контейнер sitemapindex и содержит ряд тегов sitemap.
<sitemapindex xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
</sitemapindex>
Множественное содержание на одном и том же сайте
Чтобы справиться с умножением типов файлов sitemap, Google решила интегрировать все типы контента в один файл.
Файл с множественным содержимым выглядит так:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap/0.9"
xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap-image/1.1"
xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap-video/1.1">
<url>
<loc>http://www.example.com/mapage.html</loc>
<image:image>
<image:loc>http://example.com/image.jpg</image:loc>
</image:image>
<video:video>
<video:content_loc>http://www.example.fr/mavideo.flv</video:content_loc>
<video:title>Regardez grandir le petit dernier.</video:title>
</video>
</url>
</urlset>
Итак, три типа тегов в URL-теге: loc для страницы, image и image: loc для файла изображения, и видео с video:content_loc ..
Важные советы для карт веб-сайта
XML-карта сайта
- Формат XML признаётся как минимум Google, Yahoo и Bing.
- XML-ситемапы необходимы, если ты используешь динамические ссылки на свои статьи (ссылка в JavaScript).
- Если некоторые страницы еще не проиндексированы, то они должны иметь более высокий приоритет с элементом «priority» XML-файла.
- Чтобы удалить страницу из индексации поисковиками, необходимо использовать файл Robots.txt или мета-тег «РОБОТЫ».
- Карта для всего сайта. Не создавайте карту только с теми страницами, которые еще не проиндексированы Google.
- Вариант времени («Время») - для гигантских сайтов! Одной даты в большинстве случаев достаточно.
- Sitemap, все страницы которого имеют одинаковый максимальный приоритет и частоту чтения, самый высокий, имеет нулевой интерес к Google. Задайте страницам самый низкий приоритет и частоту, если они уже проиндексированы и неизменны.
- Для видео в протокол sitemap был добавлен тег. Смотрите учебник Google по sitemap video.
Маяки видео помещаются в отдельную карту.
HTML-карта сайта
- Ты можешь создать HTML-сайтмап для посетителей и XML для поисковых систем.
- Разместите ссылку на карте сайта HTML на домашней странице.
- Когда страница добавляется на сайт, она не индексируется в течение нескольких недель. Несмотря на то, что поисковые роботы ежедневно сканируют сайт, база данных обновляется для набора сайтов в промежутке между неделями или месяцами.
Карта сайта RSS
- RSS-файл является допустимой картой сайта для Google, но только для недавно добавленных страниц.
Индекс sitemap
- Индекс может содержать URL-адреса 50 000 ситемапов, каждый из которых может содержать 50 000 URL-адресов веб-страниц.
Проверить файл sitemap.xml
Это адрес сайта, который будет проверять ваш XML-файл sitemap. Вам нужны файлы:- sitemap.xsd, схема формата, включена в архив.
- sitemap.xml, список страниц на вашем веб-сайте или локальном компьютере.
См. ресурсы.
Отправить карту сайта sitemap.xml
XML-файл должен быть помещен в корень сайта, например, в файл index.html или index.php.
По sitemaps.org мнению, xml-файл можно отправить тремя способами:
- Сохранить карту на сайте поисковой системы.
- Добавить строку в файл robots.txt.
- Выполнение запроса на сервер с помощью сценария или браузера.
Добавить карту
Создать аккаунт в средстве веб-мастера Google, если у вас его еще нет.
Google предоставит вам файл идентификации для скачивания на ваш сайт, и после этого вы все еще вернетесь в свой аккаунт в Google и нажмите кнопку «Verify»... Тогда забудьте о них за день до того, как вернетесь на счет для получения результатов.
Сделать пинг
Вы также можете сохранить карту через ping, см. «Что такое I do after I create my Sitemap?» в FAQ, упомянутом ниже в ресурсах.
Когда ваш sitemap обновляется, вы не должны регистрировать его снова, вы можете сообщить поисковику через ping:
https://www.google.com/ping?sitemap=http://www.example.com/sitemap.xml
Заменить iqlevsha.ru на URL вашего сайта, а google.com на соответствующий домен поисковой системы: yahoo, ask и т.д.
Использовать файл robots.txt
Согласно блогу Google, теперь можно добавить запись в файл robots.txt для карты сайта, и она будет усыплена при встрече роботов Google и других поисковиков с этим файлами.
Синтаксис выглядит следующим образом:
User-Agent:*
Disallow:
Sitemap: http://www.example.com/sitemap.xml
Файл robots.txt помещается в корень сайта, например, файл sitemap и домашняя страница index.html или другая.
Можно, если у тебя есть несколько сайтов, дать в файле robots.txt одного сайта, URL-адрес ситемапов каждого сайта, по одному на строку. Ссылка.
User-Agent:*
Disallow:
Sitemap: http://www.example.fr/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
Генератор sitemap
Как это работает
Программа рекурсивно сопоставляет содержимое сайта, начиная с домашней страницы, с каждой связанной с ним страницей и строит список всех страниц, на которые будут ссылаться поисковики.
Допустимый список расширений в исходном коде определяет тип файлов, которые нужно отменить.
В настоящее время программа работает на локальном образе сайта. Есть количество сайтов, которые предлагают построить карту сайта прямо на сайте-хостинге.
Синтаксис:
php smap.php [options] site-url dépôt-local
Пример:
php smap.php http://www.example.com c:\example.com
Для просмотра параметров введите:
php smap.php
Список признанных расширений и файлов для исключения находится в файле options.php. Можно автоматически исключить файлы с метаметкой:
<meta name="robots" content="noindex">
Придавать форму
Ты можешь адаптировать программу под свой сайт, изменив переменные в файле options.php (или option.sol для источника).
- Имя карты сайта. Изменить его можно и в smap.ini.
- Список допустимых расширений.
- Список файлов для исключения.
- Список каталогов для исключения. Можно исключать только файлы из каталога, но не подкаталоги со звездочкой.
По умолчанию программа может работать со статическими файлами WordPress. Затем содержимое следует добавить в карту динамического узла.
Получить программу
- Загрузить последнюю версию простой карты с
- Загрузить версию 1.4 исполняемыми файлами и графическим интерфейсом.
См. руководство по старой версии (английский).
Получить исходный код
Исходный код сценария командной строки включен в архив. Это программа на языке Script, она понятна и компактна благодаря функциям обработки текста этого языка программирования.
Лицензия от Simple Map: Mozilla 1.1.
Изменения
- 2.0 - 13 октября 2016
Полностью переписана программа для построения карты из единственного содержимого каталогов. Требуется список файлов для исключения (или непризнанных мета-роботов или расширений). - 1.7 - 1 июля 2015 года
Подходит для компилятора Script 2. - 1.6 - 13 июля 2009 года
Исправлена проблема совместимости с PHP 5 в функции addLink для smap.sol.
Бинарная версия программного обеспечения не изменилась. - 1.5 - 14 марта 2008 года
Сейчас программа работает в командной строке с PHP 5.
Проблема с заглавными буквами в Linux устранена.
Алгоритм полностью переписан, источник легче читать и при необходимости редактировать.
Бинарная программа не была изменена для этой версии. - 1.4 - май 2007 года
Интерфейс не меняется, это все равно версия 1.3, но использованная программа командной строки переписывается.
Теперь мета-тег «роботы» учитывается при устранении страниц в «noindex» или «none».
Алгоритм был переписан для лучшей обработки подкаталогов.
Исходный код можно скомпилировать с последней версией компилятора. - 1.3 - август 2006 года
Файл smap.log иногда не найден. Это было исправлено. - 1.2 - 24 февраля 2006 года
Теперь можно генерировать сразу несколько типов карт.
Лучшая обработка ссылок, содержащих протокол Интернета. - 1,1 - 23 февраля 2006 года
Теги с пустым значением больше не добавляются к элементам. - 1.0 - 22 февраля 2006 года
Первоначальное распространение.
Ресурсы
- Sitemaps.org - Официальный сайт, общий для Google и Bing с полной спецификацией.
- Robotstxt.org. Подробнее о файле robots.txt.