Изображение
Файл robots.txt как источник важной информации для поисковых роботов давно стал атрибутом каждого сайта. Но есть и те кто игнорируют рекомендации seo специалистов и все еще не используют данный файл. Что приводит к плохой индексации страниц в поисковой выдаче. Основная причина того что некоторые владельцы сайтов все еще не загрузили этот файлик в корень сайта очевидна - банальное незнание синтаксиса и боязнь испортить индексацию полезной информации.

Важно понимать что для поисковых роботов, файл robots.txt всего лишь рекомендация. Поэтому гарантии того что закрытые от общего доступа страницы не полезут в индекс нет.
Основной синтаксис
  • User-Agent: робот для которого будут применяться следующие правила (пример, «Googlebot»).
  • Disallow: страницы, доступ к которым должен быть закрыт (каждая директива с новой строки).
  • Каждая группа User-Agent / Disallow должны быть разделены пустой строкой. Но, не пустые строки не должны быть в рамках группы (между User-Agent и последней директивой Disallow).
  • Символ хэш (#) комментарий которые в процессе чтения файла будут игнорироваться.
  • Важно знать что каталоги и имена файлов чувствительны к регистру: «cat», «Cat» и «CAT» – для поисковых систем являются разными директивами.
  • Host: применяется для указания основного зеркала сайта.
  • Crawl-delay: ограничивает скорость обхода поисковыми роботами вашего сайта. Полезно когда у вас большая посещаемость, частые обходы приведут излишней нагрузке сервера.
  • Регулярные выражения: для более гибкой настройки своих директив вы можете использовать эти символы:

    * (звездочка) – означает любую последовательность символов.
    $ (знак доллара)– обозначает конец строки.
Надеемся информация была полезной, используйте её при построении своего robots.txt.