XML-формат файлу Sitemap

Зміст:

У цьому документі описано XML-схеми протоколу Sitemap.

Формат протоколу Sitemap складається з XML-тегів. Для всіх значень даних у файлі Sitemap повинне використовуватися маскування . У файлі необхідно використовувати кодування UTF-8.

Sitemap повинен:

  • На початку поставте відкриває тег < urlset > , а в кінці поставте закриває тег </urlset> .
  • Вкажіть область імен (стандарт протоколу) в тезі <urlset> .
  • Увімкніть запис < url > для кожного URL-адреси як батьківський тег XML.
  • Увімкніть дочірню запис < loc > для кожного батьківського тега <url> .

Всі теги необов'язкові. Підтримка необов'язкових тегів може відрізнятися в залежності від пошукового сервера. Щоб отримати більш детальну інформацію, зверніться до документації пошукового сервера.

Також всі URL-адреси у файлі Sitemap повинні бути з одного вузла, наприклад www.example.com або store.example.com. Додаткові відомості див. У розділі Розташування файлу Sitemap

Приклад XML-файла Sitemap

Нижче наведено приклад файлу Sitemap, в якому міститься тільки один URL-адресу та використані всі необов'язкові теги. Необов'язкові теги виділені курсивом.

<?xml version="1.0" encoding="UTF-8"?> < urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < url > < loc >http://www.example.com/</loc> < lastmod >2005-01-01</lastmod> < changefreq >monthly</changefreq> < priority >0.8</priority> </url> </urlset>

Див. Також приклад з декількома URL-адресами .

Визначення XML-тегів

Нижче описані доступні XML-теги.

Атрибут опис
<urlset> обов'язковий

Інкапсулює цей файл і вказує стандарт поточного протоколу.

<url> обов'язковий

Батьківський тег для кожного запису URL-адреси. Решта теги є дочірніми для цього тега.

<loc> обов'язковий

URL-адресу сторінки. Цей URL-адреса має починатися з префікса (наприклад, HTTP) і закінчуватися косою рисою, якщо Ваш веб-сервер вимагає цього. Довжина цього значення не повинна перевищувати 2048 символів.

<lastmod> не обов'язково

Дата внесення останніх змін. Ця дата повинна бути в форматі W3C Datetime . Цей формат дозволяє при необхідності опустити сегмент часу і використовувати формат РРРР-ММ-ДД.

Зверніть увагу, що цей тег не має відношення до заголовку "If-Modified-Since (304)", який може повернути сервер, тому пошукові системи можуть по-різному використовувати інформацію з цих двох джерел.

<changefreq> не обов'язково

Ймовірна частота зміни цієї сторінки. Це значення надає загальну інформацію для пошукових систем і може не відповідати точно частоті сканування цієї сторінки. Допустимі значення:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Значення "завжди" має використовуватися для опису документів, які змінюються при кожному доступі до цих документів. Значення "ніколи" має використовуватися для опису архівних URL-адрес.

Майте на увазі, що значення для цього тега розглядається як підказка, а не як команда. Незважаючи на те, що сканери пошукової системи враховують цю інформацію при прийнятті рішень, вони можуть сканувати сторінки з позначкою "щогодини" менш часто, ніж зазначено, а сторінки з позначкою "щорічно" - більш часто, ніж зазначено. Сканери можуть періодично сканувати сторінки з позначкою "ніколи", щоб відстежувати несподівані зміни на цих сторінках.

<priority> не обов'язково

Пріоритетність URL щодо інших URL на Вашому сайті. Допустимий діапазон значень - від 0,0 до 1,0. Це значення не впливає на процедуру порівняння Ваших сторінок зі сторінками на інших сайтах - воно тільки дозволяє вказати пошуковим системам, які сторінки, на Вашу думку, більш важливі для сканерів.

Пріоритет сторінки за замовчуванням - 0,5.

Слід враховувати, що пріоритет, який Ви призначили сторінці, не впливає на положення Ваших URL на сторінках результатів тієї чи іншої пошукової системи. Пошукові системи використовують цю інформацію при обробці URL, які відносяться до одного і того ж сайту, тому можна використати цей тег для збільшення ймовірності присутності в пошуковому індексі Ваших найважливіших сторінок.

Крім того, слід враховувати, що призначення високого пріоритету всім URL на Вашому сайті не має сенсу. Оскільки пріоритетність - величина відносна, цей параметр використовується для того, щоб визначити черговість обробки URL в межах сайту.

До початку

маскування символів

У файлі Sitemap повинна використовуватися кодування UTF-8 (зазвичай її можна вибрати при збереженні даного файлу). У XML-файлах для всіх значень даних (включаючи URL-адреси) повинне використовуватися маскування символів, перерахованих нижче в таблиці.

символ маскування
амперсанд & &amp;
одинарні лапки ' &apos;
Подвійні лапки " &quot;
більше > &gt;
менше < &lt;

Крім того, для всіх URL (включаючи URL з вашого файлу Sitemap) повинні використовуватися маскування і кодування для зручності читання веб-сервером, на якому вони розміщуються. Однак, якщо для створення своїх URL Ви використовуєте який-небудь вид скрипта, інструментального засобу або журналу (будь-який спосіб крім введення їх вручну), то маскування і кодування застосовуються автоматично. Переконайтеся в тому, що всі URL-адреси відповідають стандарту RFC-3986 для URI, стандарту RFC-3987 для IRI і XML-стандарту .

Нижче наведено приклад URL-адреси, в якому використовується символ, відмінний від ASCI ( ü ), а також символ, для якого необхідно маскування ( & ):

http://www.example.com/ümlat.php&q=name

Нижче цей же URL-адресу наведено в кодуванні ISO-8859-1 (для розміщення на сервері, який використовує це кодування) з маскированием:

http://www.primer.ru/%FCmlat.html&q=name

Нижче цей же URL-адресу наведено в кодуванні UTF-8 (для розміщення на сервері, який використовує це кодування) і з використанням маскування:

http://www.example.com/%C3%BCmlat.php&q=name

Нижче наведено той же URL-адресу, але з використанням маскування:

http://www.example.com/%C3%BCmlat.php&amp;q=name

Приклад XML-файла Sitemap

У наступному прикладі показано файл Sitemap в XML-форматі. Sitemap в цьому прикладі містить невелику кількість URL-адрес, кожен з яких використовує різні поєднання необов'язкових параметрів.

<?xml version="1.0" encoding="UTF-8"?> < urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < url > < loc >http://www.example.com/</loc> < lastmod >2005-01-01</lastmod> < changefreq >monthly</changefreq> < priority >0.8</priority> </url> < url > < loc >http://www.example.com/catalog?item=12&amp;desc=vacation_hawaii</loc> < changefreq >weekly</changefreq> </url> < url > < loc >http://www.example.com/catalog?item=73&amp;desc=vacation_new_zealand</loc> < lastmod >2004-12-23</lastmod> < changefreq >weekly</changefreq> </url> < url > < loc >http://www.example.com/catalog?item=74&amp;desc=vacation_newfoundland</loc> < lastmod >2004-12-23T18:00:15+00:00</lastmod> < priority >0.3</priority> </url> < url > < loc >http://www.example.com/catalog?item=83&amp;desc=vacation_usa</loc> < lastmod >2004-11-23</lastmod> </url> </urlset>

До початку

Використання файлів індексу Sitemap (для створення групи з декількох файлів Sitemap)

Можна надати декілька файлів Sitemap, однак в кожному з цих файлів має бути не більше 50000 URL, а розмір кожного з цих файлів не повинен перевищувати 10 МБ. При необхідності файл Sitemap можна стиснути за допомогою архіватора gzip, щоб зменшити вимоги до пропускної здатності каналу. Однак розмір файлу sitemap без стиснення не повинен перевищувати 10 МБ. Якщо необхідно перерахувати більше 50000 URL-адрес, слід створити декілька файлів Sitemap.

Якщо потрібно передати декілька файлів Sitemap, необхідно перерахувати кожний з цих файлів у файлі індексу Sitemap. У файлі індексу Sitemap може бути перераховано не більше 1000 файлів Sitemap. Розмір цього файлу не повинен перевищувати 10 МБ (10 485 60 байт) і може бути стиснутий. У вас може бути кілька файлів Sitemap. Формат XML-файла індексу Sitemap дуже схожий на формат XML-файла Sitemap.

Файл індексу Sitemap повинен:

  • На початку поставте відкриває тег < sitemapindex > , а потім поставте закриває тег </sitemapindex> .
  • Додайте запис < sitemap > для кожного файлу Sitemap як батьківський XML-тег.
  • Увімкніть дочірню запис < loc > для кожного батьківського тега <sitemap> .

Необов'язковий тег < lastmod > також доступний для файлів індексу Sitemap.

Примітка. Файл індексу Sitemap може вказувати тільки файли Sitemap, які знаходяться на тому ж сайті, що і файл індексу Sitemap. Наприклад, файл індексу http://www.vashsait.ru/sitemap_index.xml може включати файли Sitemap, розміщені на сайті http://www.vashsait.ru, але не на сайті http://www.primer.ru або http : //vashkhost.vashsait.ru. Для файлу індексу Sitemap, як і для файлів Sitemap, необхідно використовувати кодування UTF-8.

Приклад індексу XML Sitemap

У наступному прикладі показано файл індексу Sitemap, який містить два файли Sitemaps.

<?xml version="1.0" encoding="UTF-8"?> < sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < sitemap > < loc >http://www.example.com/sitemap1.xml.gz</loc> < lastmod >2004-10-01T18:23:17+00:00</lastmod> </sitemap> < sitemap > < loc >http://www.example.com/sitemap2.xml.gz</loc> < lastmod >2005-01-01</lastmod> </sitemap> </sitemapindex>

Примітка: для URL-адрес Sitemap, як і для всіх значень в XML-файлах, має використовуватися маскування .

Визначення XML-тегів індексу Sitemap

Атрибут опис
<sitemapindex> обов'язковий Інкапсулює інформацію про всіх файлах Sitemap в цьому файлі.
<sitemap> обов'язковий Інкапсулює інформацію про окремому файлі Sitemap.
<loc> обов'язковий

Вказує місце розташування файлу Sitemap.

Цим місцем розташування може бути файл Sitemap, файл Atom, файл RSS або простий текстовий файл.

<lastmod> не обов'язково

Вказує час зміни відповідного файлу Sitemap. Не відповідає часу зміни ні одній зі сторінок в цьому файлі Sitemap. Значення тега "lastmod" має бути представлено в форматі W3C Datetime .

Надаючи позначку часу останнього зміни, Ви дозволяєте сканерів пошукової системи витягати тільки частину файлів Sitemap в індексі, то є сканер може отримувати тільки ті файли Sitemap, які були змінені після певної дати. Цей механізм часткового вилучення файлів Sitemap дозволяє швидко виявляти нові URL на сайтах великих розмірів.

До початку

Інші формати файлу Sitemap

Протокол Sitemap дає можливість забезпечити пошукові системи докладною інформацією про сторінки, і ми рекомендуємо його використовувати, оскільки при цьому можна вказати додаткові відомості про сторінки сайту, а не тільки їх URL. Крім протоколу XML ми також підтримуємо канали RSS і текстові файли, які надають більш обмежену інформацію.

Канал синдикації

Ви можете надати канал RSS 2.0, Atom 0.3 або 1.0. Як правило, цей формат використовується тільки в тому випадку, якщо на сайті вже є канал синдикації. Зверніть увагу, що в цьому випадку пошукові системи, можливо, не отримають інформацію про всі URL на вашому сайті, оскільки даний канал надає інформацію лише за останні URL. Однак пошукові системи можуть використовувати цю інформацію, щоб виявити інші сторінки сайту, переходячи по посиланнях на сторінках каналу в процесі звичайного сканування. Переконайтеся, що канал розташований в каталозі самого високого рівня, який повинен скануватися пошуковою системою. Пошукові системи витягають інформацію з каналу наступним чином.

  • поле <link> - вказує URL
  • поле дати зміни (поле <pubDate> для каналів RSS і дата <зміни> для каналів Atom) - вказує, коли кожен URL був змінений в останній раз. Використовувати поле дати зміни необов'язково.

текстовий файл

Ви можете надати простий текстовий файл, що містить один URL в рядку. Цей текстовий файл повинен відповідати наступним вимогам.

  • У цьому текстовому файлі в кожному рядку повинен бути тільки один URL. Ці URL не можуть містити нові впроваджені рядка.
  • Необхідно вказати URL повністю, включаючи префікс http.
  • Кожен текстовий файл може містити не більше 50 000 URL, і його розмір не повинен перевищувати 10 МБ (10 485 760 байт). Якщо сайт включає понад 50000 URL, можна розділити цей список на кілька текстових файлів і передати кожен файл окремо.
  • Для цього текстового файлу необхідно використовувати кодування UTF-8. Її можна задати при збереженні файлу (наприклад, в програмі "Блокнот" вона вказана в меню "Кодування" діалогового вікна "Зберегти як").
  • Цей текстовий файл не повинен включати ніяких інших даних, крім списку URL.
  • Цей текстовий файл не повинен містити даних заголовка або нижнього колонтитула.
  • При необхідності файл Sitemap можна стиснути за допомогою архіватора gzip, щоб зменшити вимоги до пропускної здатності каналу.
  • Цьому текстового файлу можна привласнити будь-яке ім'я. Переконайтеся, що ваші URL-адреси відповідають стандарту RFC-3986 для URI-адрес і стандарту RFC-3987 для файлів IRI.
  • Завантажте цей текстовий файл в каталог самого високого рівня, який повинен скануватися пошуковою системою, і переконайтеся, що в файл не внесені адреси URL, що знаходяться в каталозі більш високого рівня.

Нижче наведено приклад рядків текстового файлу.

http://www.example.com/catalog?item=1
http://www.example.com/catalog?item=11

До початку

Місцезнаходження файлу Sitemap

Місцезнаходження файлу Sitemap визначає набір URL-адрес, які можна включити в цей Sitemap. Файл Sitemap, розташований в каталозі http://primer.ru/catalog/sitemap.xml, може включати будь-які URL-адреси, що починаються з http://primer.ru/catalog/, але не повинен включати URL-адреси, що починаються з http://primer.ru/images/.

Якщо у Вас є дозвіл на зміну файлу http://primer.org/path/sitemap.xml, можна припустити, що у Вас також є дозвіл на надання інформації для URL з префіксом http://primer.org/path/. Приклади допустимих URL в http://primer.ru/catalog/sitemap.xml включають:

http://example.com/catalog/show?item=23 http://example.com/catalog/show?item=233&user=3453

До неприпустимим URL-адресами в файлі http://primer.ru/catalog/sitemap.xml відносяться наступні:

http://example.com/image/show?item=23 http://example.com/image/show?item=233&user=3453 https://example.com/catalog/page1.php

Це означає, що всі URL-адреси, перераховані у файлі Sitemap, повинні використовувати один і той же протокол (в даному випадку - HTTP) і повинні бути розміщені на тому ж хості, що і файл Sitemap. Наприклад, якщо файл Sitemap розташований за адресою http://www.primer.ru/sitemap.xml, в ньому можуть бути вказані URL-адреси з субдомена http://subdomen.primer.ru.

URL-адреси, які вважаються неприпустимими, виключаються з подальшого розгляду. Настійно рекомендується помістити файл Sitemap в кореневий каталог Вашого веб-сервера. Наприклад, якщо адреса Вашого сервера - primer.ru, Ваш файл індексу Sitemap повинен бути розміщений за адресою http://primer.ru/sitemap.xml. Можливо, в деяких випадках потрібно буде створити різні файли Sitemap для різних шляхів на Вашому сайті (наприклад, якщо повноваження доступу в Вашої організації встановлені таким чином, що доступ з правом запису до різних каталогах надається окремо).

Якщо при передачі файлу Sitemap використовується шлях, який містить номер порту, необхідно включити цей номер порту в шлях в кожному URL, перерахованому у файлі Sitemap. Наприклад, якщо Ваш файл Sitemap знаходиться в http://www.primer.ru:100/sitemap.xml, то кожен URL, зазначений у файлі Sitemap, повинен починатися з http://www.primer.ru:100.

Файли Sitemap і перехресна відправка

Щоб відправити файли Sitemap на кілька вузлів з одного, необхідно "підтвердити" володіння вузлом (ами) для якого URL-адреси відправляються у файлі Sitemap. Нижче наведено приклад. Припустимо, необхідно відправити файли Sitemap на 3 вузли: www.host1.com с файлом Sitemap sitemap-host1.xml www.host2.com с файлом Sitemap sitemap-host2.xml www.host3.com с файлом Sitemap sitemap-host3.xml

Більш того, необхідно розмістити всі три файли Sitemap на одному вузлі: www.sitemaphost.com. Таким чином, URL-адреси Sitemaps будуть наступними: http://www.sitemaphost.com/sitemap-host1.xml http://www.sitemaphost.com/sitemap-host2.xml http://www.sitemaphost.com/sitemap-host3.xml

За замовчуванням це призведе до помилки "перехресна відправка", так як була проведена спроба відправити URL-адреси для вузла www.host1.com через файл Sitemap, який розташований на вузлі www.sitemaphost.com (те ж саме і для двох інших вузлів) . Перший спосіб уникнути цієї помилки - це довести своє володіння (наприклад право змінювати файли) вузлом www.host1.com. Це можна зробити, змінивши файл robots.txt на вузлі www.host1.com, щоб вказати на файл Sitemap на вузлі www.sitemaphost.com.

У цьому прикладі файл robots.txt на вузлі http://www.host1.com/robots.txt містив би рядок "Sitemap: http://www.sitemaphost.com/sitemap-host1.xml". Змінивши файл robots.txt на вузлі www.host1.com із зазначенням на файл Sitemap на вузлі www.sitemaphost.com, ви опосередковано довели, що є власником вузла www.host1.com. Іншими словами, хто б не керував файлом robots.txt на вузлі www.host1.com, він довіряє файлу Sitemap на вузлі http://www.sitemaphost.com/sitemap-host1.xml на предмет вмісту URL-адрес для вузла www. host1.com. Цю ж процедуру можна повторити для двох інших вузлів.

Тепер можна відправляти файли Sitemap на вузол www.sitemaphost.com.

Якщо у файлі robots.txt вказаний певний вузол, наприклад http://www.host1.com/robots.txt, це вказує на файл Sitemap або файл індексу Sitemap на іншому вузлі. Швидше за все це означає, що для кожного кінцевого файлу Sitemap, наприклад http://www.sitemaphost.com/sitemap-host1.xml, все URL-адреси належать вузлу, який на них вказує. Це відбувається тому, що, як було зазначено раніше, очікується, що файл Sitemap буде містити URL-адреси лише з одного вузла.

До початку

Перевірка файлу Sitemap

Для визначення елементів і атрибутів, які можуть з'являтися в Вашому файлі Sitemap, використовуються наступні XML-схеми. Цю схему можна завантажити за допомогою наведених нижче посилань.

Для файлів Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
Для файлів індексу Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd

Ряд інструментів може допомогти при перевірці структури файлу Sitemap на основі цієї схеми. Ви можете знайти список інструментів для роботи з XML-файлами в кожному з таких адрес:

http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html

Для перевірки Вашого файлу Sitemap або файлу індексу Sitemap по цій схемі в XML-файл потрібно додати додаткові заголовки, як показано нижче.

Sitemap:

<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> ... </url> </urlset>

Файл індексу Sitemap:

<?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> ... </sitemap> </sitemapindex>

До початку

Розширення протоколу Sitemaps

Протокол Sitemap можна розширити за допомогою Вашого власного простору імен. Просто вкажіть це простір імен в кореневому елементі. наприклад:

<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension --> <url> <example:example_tag> ... </example:example_tag> ... </url> </urlset>

До початку

Повідомлення для сканерів пошукових систем

Після того як файл Sitemap створений та розміщений на веб-сервері, необхідно повідомити про місцезнаходження цього файлу пошуковим системам, які підтримують цей протокол. Це можна зробити наступним чином.

Потім пошукові системи зможуть отримати файл Sitemap і дозволити своїм сканерів доступ до URL-адресами.

Передача файлу Sitemap за допомогою інтерфейсу пошукової системи

Щоб відправити файл Sitemap безпосередньо в пошукову систему, яка надає можливість отримувати інформацію про статус і помилки обробки, зверніться до документації пошукової системи.

Як вказати місце розташування файлу Sitemap у файлі robots.txt

Можна вказати місце розташування файлу Sitemap, використовуючи файл robots.txt. Для цього просто додайте наступний рядок:

Sitemap: <sitemap_location>

URL <sitemap_location> повинен бути повним URL для файлу Sitemap, наприклад: http://www.primer.ru/sitemap.xml

Ця інструкція не залежить від рядка агента користувача, тому неважливо, де вона розміщується в файлі. При наявності файлу індексу Sitemap можна включити місце розташування тільки цього файлу. Перераховувати кожен окремий файл Sitemap, зазначений у файлі індексу, не потрібно.

Можна вказати кілька файлів Sitemap для кожного файлу robots.txt.

Sitemap: <sitemap1_location> Sitemap: <sitemap2_location>

Передача файлу Sitemap за допомогою запиту HTTP

Щоб відправити файл Sitemap за допомогою HTTP-запиту (замініть <searchengine_URL> на URL, вказаний пошуковою системою), створіть запит для наступного URL-адреси.

<searchengine_URL>/ping?sitemap=sitemap_url

Наприклад, якщо файл Sitemap знаходиться в архівному файлі http://www.primer.ru/sitemap.gz, URL-адресу буде наступним:

<searchengine_URL>/ping?sitemap=http://www.example.com/sitemap.gz

Додайте кодування URL для всіх символів після / ping? Sitemap =:

<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.vashsait.com%2Fsitemap.gz

Можно отправить http-запрос, используя "wget", "curl" или другой механизм по выбору. Успешный запрос возвратит код отклика HTTP 200; если получен другой отклик, необходимо повторно передать запрос. Код отклика HTTP 200 указывает только на то, что поисковая система получила Ваш файл Sitemap, но это не значит, что сам файл Sitemap или содержащиеся в нем URL допустимы. Самый простой способ — создать автоматическое задание для регулярного создания и передачи файлов Sitemap.
Примітка. Предоставляя файл индекса Sitemap, необходимо инициировать только один http-запрос, который включает местоположение файла индекса Sitemap; отправлять отдельные запросы для каждого файла Sitemap, указанного в этом индексе, не нужно.

К началу

Как исключить содержание

Протокол Sitemaps предоставляет поисковым системам информацию о содержании, которое необходимо включить в индекс. Чтобы сообщить поисковым системам о содержании, которое не следует включать в индекс, используйте файл robots.txt или метатег robots. Более подробную информацию о том, как исключить содержание из поисковых систем, см. на странице robotstxt.org .

К началу

Поширені запитання

Как представлять URL в файле Sitemap?

Имеет ли значение, какой метод кодирования символов используется для создания моих файлов Sitemap?

Как указать время?

Как рассчитать дату последнего изменения?

Куда поместить мой файл Sitemap?

Какой размер файла Sitemap является допустимым?

На моем сайте десятки миллионов URL-адресов; можно ли отправить только те из них, которые изменились недавно?

Что нужно делать после создания файла Sitemap?

Нужно ли полностью указывать URL-адреса в файле Sitemap?

В URL-адресах моего сайта используются оба префикса "http" и "https". Нужно ли перечислять оба варианта?

URL-адреса на моем сайте включают идентификаторы сеанса. Нужно ли удалять эти индентификаторы?

Влияет ли положение URL-адреса в файле Sitemap на его использование?

На некоторых страницах моего сайта используются фреймы. Нужно ли включать URL-адрес набора фреймов или URL-адрес содержания фреймов?

Можно ли использовать архиватор zip для моих файлов Sitemap, или их можно сжимать только с помощью архиватора gzip?

Будет ли параметр приоритетности в XML-файле Sitemap влиять на рейтинг моих страниц в результатах поиска?

Существует ли XML-схема, по которой можно проверить мой XML-файл Sitemap?

Куда мне обратиться, если у меня возникли другие вопросы по поводу использования протокола или процедуры отправки сведений о размещении файла Sitemap?


Питання. Как представить URL-адрес в файле Sitemap?

В XML-файлах для всех значений данных (включая URL-адреса) маскирование принято использовать для следующих символов: амперсанд (&), одинарная кавычка ('), двойная кавычка ("), знак "меньше" (<) и знак "больше" (>). Кроме того, Вы должны убедиться в том, что все URL-адреса соответствуют стандарту RFC-3986 для URI, стандарту RFC-3987 для IRI и XML-стандарту . Если для создания URL-адресов используются сценарии, маскирование символов в URL-адресе обычно является частью этого сценария. Однако для них все равно необходимо применять маскирование символов. Например, следующий сценарий "python" использует маскирование http://www.primer.ru/view?widget=3&count>2

$ python Python 2.2.2 (#1, Feb 24 2003, 19:13:11) >>> import xml.sax.saxutils >>> xml.sax.saxutils.escape("http://www.example.com/view?widget=3&count>2")

В приведенном выше примере результирующим является следующий URL-адрес:

http://www.example.com/view?widget=3&amp;count&gt;2

Питання. Имеет ли значение метод кодирования символов, который используется для создания моих файлов Sitemap?

Так. Для файлов Sitemap должна использоваться кодировка UTF-8.

Питання. Как указать время?

Используйте кодировку W3C Datetime для меток времени "lastmod" и всех других дат и времен в этом протоколе. Например, 2004-09-22T14:12:14+00:00.

Эта кодировка позволяет опустить сегмент времени формата ISO8601; например, использование формата 22-09-2004 также допустимо. Однако, если Ваш сайт часто изменяется, рекомендуется включить сегмент времени, чтобы сканеры получили более полную информацию о Вашем сайте.

Питання. Как рассчитать дату последнего изменения?

Для статических файлов это фактическая дата обновления файла. Для получения этой даты можно использовать команду "UNIX date":

$ date --iso-8601=seconds -u -r /home/foo/www/bar.php >> 2004-10-26T08:56:39+00:00

Для многих динамических URL-адресов можно легко рассчитать дату последнего изменения на основе даты изменения исходных данных или с помощью приближения на основе периодических обновлений (если применимо). Даже использование приблизительной даты или отметки времени может помочь сканерам избежать сканирования URL-адресов, которые не были изменены. Это позволяет снизить требования, предъявляемые к пропускной способности канала и к процессорам веб-серверов.

Питання. Куда поместить мой Sitemap?

Настоятельно рекомендуется поместить файл Sitemap в корневой каталог на Вашем HTML-сервере по адресу http://primer.ru/sitemap.xml.

Возможно, в некоторых случаях нужно будет создать несколько файлов Sitemap для различных путей на Вашем сайте, — например, если полномочия доступа в Вашей организации установлены таким образом, что доступ с правом записи к различным каталогам предоставляется отдельно.

Если у Вас есть разрешение на загрузку файла http://primer.ru/path/sitemap.xml, то предполагается, что у Вас также имеется разрешение размещать отчеты по метаданным по адресу http://primer.ru/path/.

Все URL-адреса, указанные в том или ином файле Sitemap, должны размещаться на том же хосте, что и файл Sitemap. Например, если файл Sitemap расположен по адресу http://www.primer.ru/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://subdomen.primer.ru. Если файл Sitemap расположен по адресу http://www.primer.ru/mojapapka/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://www.primer.ru.

К началу

Питання. Какой размер файла Sitemap является допустимым?

Размер файлов Sitemap не должен превышать 10 МБ (10485760 байт), и эти файлы не должны включать более 50000 URL. Эти ограничения помогают исключить остановки веб-сервера при размещении очень больших файлов. Это означает, что если Ваш сайт содержит более 50000 URL или размер файла Sitemap превышает 10 МБ, необходимо создать несколько файлов Sitemap и использовать файл индекса Sitemap . Необходимо использовать файл индекса Sitemap даже для небольшого сайта, если предполагается, что количество URL превысит 50000 или размер файла будет больше 10 МБ. В файле индекса Sitemap может быть перечислено не более 1000 файлов Sitemap. Размер этого файла не может превышать 10 МБ. Кроме того, для сжатия файлов Sitemap можно использовать архиватор gzip.

Питання. На моем сайте десятки миллионов URL-адресов, можно ли передать только те из них, которые были изменены недавно?

Можно перечислить часто изменяемые URL-адреса лишь в некоторых файлах Sitemap, а затем использовать тег lastmod в файле индекса Sitemap для идентификации этих файлов Sitemap. После этого поисковые системы могут последовательно сканировать только измененные файлы Sitemap.

Питання. Что нужно делать после создания файла Sitemap?

После создания файла Sitemap сообщите о нем поисковым системам , передав его напрямую, проверив связь с ними или добавив местоположение файла Sitemap в файл robots.txt.

Питання. Необходимо ли полностью указывать URL-адреса в Sitemap?

Так. Необходимо включить протокол (например, HTTP) в Ваш URL-адрес. Кроме того, необходимо включить концевую косую черту, если этого требует Ваш веб-сервер. Например, адрес http://www.primer.ru/ является допустимым URL-адресом для файла Sitemap, а адрес www.primer.ru — нет.

Питання. В URL-адресах моего сайта используются оба префикса "http" и "https". Нужно ли перечислять оба варианта?

Ні. Укажите в своих файлах Sitemap только одну версию URL-адреса. Добавление нескольких версий URL-адреса может привести к неполному сканированию Вашего сайта.

Питання. URL-адреса на моем сайте включают идентификаторы сеанса. Нужно ли удалять эти идентификаторы?

Так. Включение идентификаторов сеансов в URL-адреса может привести к неполному и излишнему сканированию Вашего сайта.

Питання. Влияет ли положение URL-адреса в файле Sitemap на его использование?

Ні. Положение URL в файле Sitemap не влияет на то, как он будет использоваться или рассматриваться поисковыми системами.

Питання. На некоторых станицах моего сайта используются фреймы. Нужно ли включать URL-адреса набора фреймов или URL-адреса содержания фреймов?

Включите оба URL-адреса.

Питання. Можно ли использовать архиватор zip для моих файлов Sitemap, или их можно сжимать только с помощью архиватора gzip?

Используйте архиватор gzip для сжатия файлов Sitemap. Помните, что размер файла Sitemap (как в сжатом, так и в несжатом виде) не должен превышать 10 МБ.

Питання. Будет ли параметр приоритетности в XML-файле Sitemap влиять на рейтинг моих страниц в результатах поиска?

Параметр "приоритетность" в файле Sitemap используется для того, чтобы определить очередность обработки URL в пределах Вашего собственного сайта и не влияет на рейтинг страниц в результатах поиска.

Питання. Существует ли XML-схема, по которой можно проверить мой XML-файл Sitemap?

Так. XML-схема для файлов Sitemap приведена на странице http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd , а схема для файлов индекса Sitemap — на странице http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd . Дополнительную информацию о проверке файлов Sitemap см. здесь .

Питання. Куда мне обратиться, если у меня возникли другие вопросы по поводу использования протокола или процедуры отправки сведений о размещении файла Sitemap?

Обратитесь к доступной документации поисковых систем, чтобы получить дополнительную информацию относительно отправки сведений о размещении файла и о работе с файлами Sitemaps.