Файл Robots.txt

  1. Что вы можете ожидать от этой статьи В этой статье объясняется, что такое файл robots.txt и как его...
  2. Синонимов для
  3. Почему файл robots.txt так важен?
  4. Ваш robots.txt работает против вас?
  5. Это похоже на файл?
  6. Пользовательский агент в robots.txt
  7. Запретить в robots.txt
  8. Разрешить в robots.txt
  9. Использование подстановочного знака *
  10. Укажите конец URL с помощью $
  11. Карта сайта в robots.txt
  12. комментарии
  13. Задержка сканирования в файле robots.txt
  14. Google
  15. Бинг, Yahoo и Яндекс
  16. Baidu
  17. Когда мне нужен файл robots.txt?
  18. Лучшие практики для файла robots.txt
  19. Порядок руководства
  20. Только одна группа с рекомендациями для каждого робота
  21. Будьте максимально конкретны
  22. В то же время, определите руководящие указания, которые предназначены для всех роботов, и руководящие...
  23. Файл Robots.txt для каждого (под) домена.
  24. Противоречивые указания: robots.txt vs. Google Search Console
  25. Проверьте robots.txt после запуска
  26. Не используйте noindex в вашем файле robots.txt
  27. Примеры файлов robots.txt
  28. Все роботы имеют доступ ко всему сайту
  29. Нет доступа для всех роботов
  30. Нет доступа для всех ботов Google
  31. Нет доступа ко всем роботам Google, кроме новостей Googlebot
  32. Нет доступа для Googlebot и Slurp
  33. Нет доступа к двум каталогам для всех роботов
  34. Нет доступа к одному конкретному файлу для всех роботов
  35. Нет доступа к / admin / для Googlebot и / private / для Slurp
  36. Robots.txt для WordPress
  37. Каковы ограничения robots.txt?
  38. Страницы по-прежнему отображаются в результатах поиска
  39. кэширование
  40. Размер файла
  41. Часто задаваемые вопросы об Opent
  42. 1. Могу ли я использовать файл robots.txt, чтобы страницы не отображались на страницах результатов поиска?
  43. 2. Нужно ли быть осторожным с файлом robots.txt?
  44. 3. Запрещено ли игнорировать файл robots.txt при сканировании веб-сайта?
  45. 4. У меня нет файла robots.txt. Поисковые системы сканируют мой сайт?
  46. 5. Могу ли я использовать Noindex в файле robots.txt вместо Disallow?
  47. 6. Какие поисковые системы поддерживают файл robots.txt?
  48. 7. Как я могу запретить поисковым системам индексировать результаты поиска на моем сайте WordPress?

Что вы можете ожидать от этой статьи

В этой статье объясняется, что такое файл robots.txt и как его эффективно использовать для:

  1. Поисковые системы запрещают доступ к определенным частям вашего сайта
  2. Избегайте дублирования контента
  3. Заставьте поисковые системы сканировать ваш сайт более эффективно.

Что такое файл robots.txt?

Файл robots.txt содержит правила обработки вашего сайта для поисковых систем.

Перед тем, как поисковая система посещает обычные страницы вашего сайта, она сначала пытается получить файл robots.txt, чтобы узнать, есть ли специальные инструкции для сканирования вашего сайта. Мы называем эти инструкции «руководящими принципами».

Если файл robots.txt отсутствует или не определены соответствующие рекомендации, поисковые системы предполагают, что они могут сканировать весь веб-сайт.

Хотя все основные поисковые системы уважают файл robots.txt, поисковые системы по-прежнему могут игнорировать файл robots.txt или его отдельные части. Поэтому важно понимать, что файл robots.txt - это просто набор рекомендаций, а не мандат.

Синонимов для

Файл robots.txt также называется протоколом исключения роботов, стандартом исключения роботов или протоколом robots.txt .

Почему файл robots.txt так важен?

Файл robots.txt очень важен с точки зрения поисковой оптимизации (SEO). Он сообщает поисковым системам, как лучше всего сканировать ваш сайт.

С файлом robots.txt вы можете запретить поисковым системам доступ к определенным частям вашего сайта, предотвратить проблемы с дублированным контентом и указать поисковым системам, как они могут более эффективно сканировать ваш сайт .

пример

Возьмем следующую ситуацию в качестве примера:

Вы управляете сайтом электронной коммерции, на котором посетители с фильтром могут легко искать товары. Тем не менее, этот фильтр генерирует страницы, которые показывают почти то же содержимое, что и другие страницы. Этот фильтр очень полезен для посетителей, но вводит в заблуждение поисковые системы, поскольку он вызывает дублирование контента. Вы хотите запретить поисковым системам индексировать эти отфильтрованные страницы, а скорее не тратить свое время на сканирование этих URL с отфильтрованным контентом.

Вы также можете предотвратить проблемы с дублированным содержимым с помощью канонический URL или метатег роботов, но оба не гарантируют, что поисковые системы сканируют только самые важные страницы на вашем сайте. Канонический URL и тег meta robots не препятствуют поисковым системам сканировать страницы , а только гарантируют, что поисковые системы не отображают страницы в результатах поиска . Поскольку поисковые системы могут тратить только ограниченное количество времени на сканирование веб-сайта, убедитесь, что поисковые системы проводят это время на страницах, которые вы хотите отобразить в результатах поиска.

Ваш robots.txt работает против вас?

Неправильная настройка файла robots.txt может негативно отразиться на вашем SEO. Проверьте быстро, если это так!

Это похоже на файл?

Ниже приведен простой пример того, как может выглядеть файл robots.txt для WordPress:

Пользовательский агент: * Disallow: / wp-admin /

Структура файла robots.txt выше выглядит следующим образом:

Пользовательский агент: пользовательский агент указывает, для каких поисковых систем предназначены рекомендации.

*: Это указывает на то, что рекомендации предназначены для всех поисковых систем.

Disallow: это руководство указывает, какой контент недоступен для пользовательского агента.

/ wp-admin /: это путь, который не доступен для пользовательского агента.

В итоге: этот файл robots.txt сообщает всем поисковым системам, что каталог / wp-admin / для них недоступен.

Пользовательский агент в robots.txt

Каждый поисковик должен идентифицировать себя с так называемым пользовательским агентом. Например, роботы Google идентифицируют себя как Googlebot, роботы Yahoo как Slurp, роботы Bing как BingBot и так далее.

Пользовательский агент объявляет о начале ряда рекомендаций. Рекомендации, включенные между первым пользовательским агентом и следующим пользовательским агентом, используются в качестве рекомендаций первым пользовательским агентом.

Рекомендации могут быть нацелены на конкретных пользовательских агентов, но также могут применяться ко всем пользовательским агентам. В последнем случае мы используем следующий подстановочный знак: User-agent: *.

Запретить в robots.txt

Вы можете запретить поисковым системам доступ к определенным файлам, разделам или страницам на вашем веб-сайте с помощью директивы Disallow. После директивы Disallow указывается путь, который недоступен. Если путь не определен, руководство игнорируется.

пример

Пользовательский агент: * Disallow: / wp-admin /

Приведенный выше пример запрещает всем поисковым системам доступ к каталогу / wp-admin /.

Разрешить в robots.txt

Директива Allow противоположна директиве Disallow и поддерживается только Google и Bing. Используя вместе правила Разрешить и Запретить, вы можете предоставить поисковым системам доступ к определенному файлу или странице в каталоге, который в противном случае был бы недоступен. После директивы Allow идет доступный путь. Если путь не определен, руководство игнорируется.

пример

Пользователь-агент: * Разрешить: /media/terms-and-conditions.pdf Запретить: / media /

В приведенном выше примере всем поисковым системам запрещен доступ к каталогу / media /, кроме доступа к файлу /media/terms-and-conditions.pdf.

Важно: при одновременном использовании рекомендаций Allow и Disallow не включайте подстановочные знаки в файл robots.txt, так как это может привести к противоречивым рекомендациям.

Пример противоречивых рекомендаций

User-agent: * Разрешить: / directory Disallow: /*.html

В этом случае поисковые системы не знают, что делать с URL http://www.domein.nl/directory.html. Для поисковых систем неясно, имеют ли они доступ к этому URL.

Размещайте каждую директиву отдельно, потому что в противном случае поисковые системы могут запутаться при анализе файла robots.txt.

Поэтому избегайте файла robots.txt, как показано ниже:

Агент пользователя: * Disallow: / directory-1 / Disallow: / directory-2 / Disallow: / directory-3 /

Использование подстановочного знака *

Помимо определения пользовательского агента, подстановочный знак также используется для определения URL-адресов, содержащих определенную строку. Подстановочный знак поддерживается Google, Bing, Yahoo и Ask.

пример

Пользовательский агент: * Disallow: / *?

Приведенный выше пример запрещает всем поисковым системам доступ к URL-адресам, содержащим знак вопроса (?).

Укажите конец URL с помощью $

Используйте знак доллара ($) в конце пути, чтобы указать конец URL.

пример

Пользовательский агент: * Disallow: /*.php$

Приведенный выше пример запрещает всем поисковым системам доступ к URL-адресам, заканчивающимся на .php.

Карта сайта в robots.txt

Хотя файл robots.txt в первую очередь предназначен для указания поисковым системам, какие страницы им запрещено сканировать , он также может использоваться для ссылки поисковых систем на карту сайта XML. Это поддерживается Google, Bing, Yahoo и Ask.

Карта сайта XML должна быть включена в файл robots.txt как абсолютный URL. URL-адрес не обязательно должен работать на том же хосте, что и файл robots.txt. В качестве наилучшей практики мы всегда рекомендуем обращаться к карте сайта XML из файла robots.txt, даже если вы уже отправили карту сайта XML вручную в Google Search Console или в Bing Webmaster Tools. Помните, что есть больше поисковых систем.

Обратите внимание, что в файле robots.txt можно сослаться на несколько XML-файлов Sitemap.

примеров

Несколько XML-карт сайта:

Пользовательский агент: * Disallow: / wp-admin / Карта сайта: https://www.example.com/sitemap1.xml Карта сайта: https://www.example.com/sitemap2.xml

Приведенный выше пример запрещает всем поисковым системам доступ к каталогу / wp-admin / и ссылается на два файла сайта XML: https://www.example.com/sitemap1.xml
и https://www.example.com/sitemap2.xml.

Единая карта сайта XML:

Пользовательский агент: * Disallow: / wp-admin / Карта сайта: https://www.example.com/sitemap_index.xml

Приведенный выше пример запрещает всем поисковым системам доступ к каталогу / wp-admin / и ссылается на карту сайта XML с абсолютным URL-адресом https://www.example.com/sitemap_index.xml.

комментарии

Комментарии размещаются после «#» и могут быть размещены в начале новой строки, а также после направляющей в той же строке. Комментарии предназначены только для использования человеком.

Пример 1

# Не разрешает доступ к каталогу / wp-admin / для всех роботов. User-agent: * Disallow: / wp-admin /

Пример 2

User-agent: * # Применимо для всех роботов Disallow: / wp-admin / # Не разрешает доступ к каталогу / wp-admin /.

Приведенные выше примеры сообщают то же самое.

Задержка сканирования в файле robots.txt

Директива Crawl-delay является неофициальной директивой, которая предотвращает перегрузку серверов запросами. Если поисковые системы могут перегружать сервер, добавление директивы Crawl-delay является лишь временным решением. Настоящая проблема - плохая хостинговая платформа, на которой работает ваш сайт. Мы советуем вам решить эту проблему как можно быстрее.

Поисковые системы по-разному относятся к директиве Crawl-delay. Ниже мы объясним, как с этим справляются крупнейшие поисковые системы.

Google

Google не поддерживает директиву Crawl-delay. Однако в Google Search Console есть функция для настройки скорости сканирования. Выполните следующие шаги, чтобы установить скорость сканирования:

  1. Войдите в консоль поиска Google.
  2. Выберите веб-сайт, для которого вы хотите установить скорость сканирования.
  3. Нажмите на значок шестеренки в правом верхнем углу и выберите «Настройки сайта».
  4. На этом экране есть возможность установить скорость сканирования с помощью ползунка. Скорость сканирования по умолчанию установлена ​​на "Позволить Google оптимизировать для моего сайта (рекомендуется)".

Скорость сканирования по умолчанию установлена ​​на Позволить Google оптимизировать для моего сайта (рекомендуется)

Бинг, Yahoo и Яндекс

Bing, Yahoo и Yandex поддерживают правила задержки сканирования для установки максимальной скорости сканирования (см. Документацию для Bing, Yahoo и Yandex). Поместите указание на задержку сканирования сразу после указаний Запретить или Разрешить.

Пример:

Агент пользователя: BingBot Disallow: / private / Crawl-delay: 10

Baidu

Baidu не поддерживает директиву Crawl-delay. Тем не менее, вы можете установить скорость сканирования в своей учетной записи Baidu для веб-мастеров. Это работает примерно так же, как в Google Search Console.

Когда мне нужен файл robots.txt?

Мы советуем вам всегда использовать файл robots.txt. Добавление файла robots.txt на ваш сайт не имеет недостатков и является эффективным способом передачи инструкций поисковым системам о том, как лучше всего сканировать ваш сайт.

Лучшие практики для файла robots.txt

Всегда размещайте файл robots.txt в корне вашего сайта (самый высокий каталог хоста) и присваивайте ему имя файла robots.txt, например: https://www.example.com/robots.txt. URL для файла robots.txt чувствителен к регистру, как и любой другой URL.

Если поисковые системы не могут найти файл robots.txt в расположении по умолчанию, они предполагают, что для сканирования вашего веб-сайта нет рекомендаций, и сканируют все.

Порядок руководства

Важно знать, что все поисковые системы по-разному используют файл robots.txt. Первое общее правило выигрывает по умолчанию.

Тем не менее, Google и Bing смотрят на специфику . Например: Allow richtlin выигрывает из директивы Disallow, если количество символов больше.

пример

User-agent: * Разрешить: / about / company / Disallow: / about /

В приведенном выше примере всем поисковым системам, включая Google и Bing, запрещен доступ к каталогу / about /, кроме подкаталога / about / company /.

пример

Пользовательский агент: * Disallow: / about / Allow: / about / company /

Приведенный выше пример запрещает всем поисковым системам, кроме Google и Bing, доступ к каталогу / about /, включая / about / company /.

Google и Bing действительно имеют доступ, потому что директива Allow длиннее директивы Disallow.

Только одна группа с рекомендациями для каждого робота

Вы можете определить только одну группу рекомендаций для каждой поисковой системы. Включение нескольких групп рекомендаций в файл robots.txt приводит в замешательство поисковые системы.

Будьте максимально конкретны

Директива Disallow также работает с частичными соглашениями. Будьте максимально точны при определении директивы Disallow, чтобы предотвратить доступ нежелательных поисковых систем к файлам.

пример

Пользовательский агент: * Disallow: / каталог

В приведенном выше примере запрещается доступ поисковых систем к:

/ каталог /
/ directory-name-1
/directory-name.html
/directory-name.php
/directory-name.pdf

В то же время, определите руководящие указания, которые предназначены для всех роботов, и руководящие указания, которые предназначены для конкретного робота.

Если за рекомендациями для всех роботов следуют указания для одного конкретного робота, то упомянутые первые рекомендации игнорируются специально названным роботом. Единственный способ следовать указаниям конкретного робота для всех роботов - это переопределить их для конкретного робота.

Давайте посмотрим на пример, который проясняет это:

пример

Пользовательский агент: * Запретить: / secret / Disallow: / еще не запущен / User-agent: googlebot Запретить: / еще не запущен /

Приведенный выше пример запрещает всем поисковым системам, кроме Google, доступ к / secret / и / not-launch-still /. Этот файл robots.txt только запрещает Google доступ к / не запущен-пока /, но просто имеет доступ к / secret /.

Если вы не хотите, чтобы у googlebot был доступ к / secret / и / not-launch-while /, повторите рекомендации googlebot:

Пользовательский агент: * Disallow: / secret / Disallow: / еще не запущен / User-agent: googlebot Disallow: / secret / Disallow: / еще не запущен /

Файл Robots.txt для каждого (под) домена.

Рекомендации в файле robots.txt применяются только к хосту, на котором размещен файл.

примеров

http://example.com/robots.txt относится к http://example.com, но не к http://www.example.com или https://example.com.

Противоречивые указания: robots.txt vs. Google Search Console

Если рекомендации в файле robots.txt конфликтуют с настройками, заданными вами в консоли поиска Google, во многих случаях Google будет выбирать настройки, определенные вами в консоли поиска Google, вместо рекомендаций в файле robots.txt. файл.

Проверьте robots.txt после запуска

После запуска новых функций или нового веб-сайта из тестовой среды в производственную среду всегда проверяйте файл robots.txt на Disallow /.

Не используйте noindex в вашем файле robots.txt

Хотя некоторые рекомендуют использовать директиву noindex в вашем файле robots.txt, это не является официальным стандартом. Кроме того, Google публично указал не использовать это. Не понятно почему, но мы рекомендуем серьезно относиться к их рекомендациям.

Примеры файлов robots.txt

В этой главе мы приведем несколько примеров файлов robots.txt.

Все роботы имеют доступ ко всему сайту

Есть несколько способов сообщить поисковым системам, что они имеют доступ ко всему сайту:

Пользовательский агент: * Disallow:

или

Наличие пустого файла robots.txt или отсутствие файла robots.txt.

Нет доступа для всех роботов

Пользовательский агент: * Disallow: /

Совет профессионала: дополнительный знак может изменить ситуацию.

Нет доступа для всех ботов Google

Пользовательский агент: googlebot Disallow: /

Имейте в виду, что если вы не разрешите Googlebot, это относится ко всем роботам Google. Так же и роботы Google, которые ищут новости (googlebot-news) или изображения (googlebot-images).

Нет доступа ко всем роботам Google, кроме новостей Googlebot

Пользовательский агент: googlebot Disallow: / Пользовательский агент: googlebot-news Disallow:

Нет доступа для Googlebot и Slurp

Пользовательский агент: Slurp Пользовательский агент: googlebot Disallow: /

Нет доступа к двум каталогам для всех роботов

Агент пользователя: * Disallow: / admin / Disallow: / private /

Нет доступа к одному конкретному файлу для всех роботов

Пользователь-агент: * Disallow: /directory/some-pdf.pdf

Нет доступа к / admin / для Googlebot и / private / для Slurp

Пользовательский агент: googlebot Disallow: / admin / Пользовательский агент: Slurp Disallow: / private /

Robots.txt для WordPress

Файл robots.txt ниже был специально оптимизирован для WordPress, предполагая, что:

  • Вы не хотите, чтобы раздел администратора сканировался.
  • Не хотите, чтобы ваши страницы результатов внутреннего поиска на вашем сайте сканировались.
  • Вы не хотите сканировать страницы архива тегов и авторов.
  • Вы не хотите, чтобы страница 404 сканировалась.

Агент пользователя: * Запретить: / wp-admin / # нет доступа к разделу администратора. Disallow: /wp-login.php#no доступ к разделу администратора. Disallow: / search / #no доступ к внутренним страницам результатов поиска. Disallow: *? S = * # нет доступа к внутренним страницам результатов поиска. Disallow: *? P = * # нет доступа к страницам, если постоянные ссылки не работают. Disallow: * & p = * # нет доступа к страницам, если постоянные ссылки не работают. Disallow: * & preview = * # нет доступа к страницам предварительного просмотра. Disallow: / tag / #no доступ к страницам архива тегов Disallow: / author / #no доступ к страницам архива автора. Disallow: / 404 ошибка / # нет доступа к странице 404. Карта сайта: https://www.example.com/sitemap_index.xml

Примечание: этот файл robots.txt работает в большинстве случаев. Тем не менее, убедитесь, что вы всегда корректируете и применяете это к вашей конкретной ситуации .

Каковы ограничения robots.txt?

Файл Robots.txt содержит рекомендации

Хотя файл robots.txt пользуется уважением в поисковых системах, он остается руководством, а не мандатом.

Страницы по-прежнему отображаются в результатах поиска

Страницы, которые robots.txt недоступен для поисковых систем, могут по-прежнему появляться в результатах поиска, если они связаны с просматриваемой страницей. Это выглядит так:

Подсказка: можно удалить эти URL-адреса из результатов поиска с помощью инструмента удаления URL-адресов консоли поиска Google. Помните, что Google только временно удаляет эти URL. Удаляйте URL-адреса вручную каждые 90 дней, чтобы они не появлялись в результатах поиска.

кэширование

Google указал, что файл robots.txt обычно кэшируется в течение 24 часов. Помните об этом при внесении изменений в файл robots.txt.

Неясно, как другие поисковые системы обрабатывают кэширование файлов robots.txt.

Размер файла

В настоящее время Google поддерживает максимальный размер файла 500 КБ для файлов robots.txt. Весь контент после этого максимума можно игнорировать.

Неясно, используют ли другие поисковые системы максимальный размер файла.

Часто задаваемые вопросы об Opent

  1. Можно ли использовать файл robots.txt, чтобы страницы не отображались на страницах результатов поиска?
  2. Нужно ли быть осторожным с файлом robots.txt?
  3. Незаконно ли игнорировать файл robots.txt при сканировании веб-сайта?
  4. У меня нет файла robots.txt. Поисковые системы сканируют мой сайт?
  5. Могу ли я использовать Noindex в файле robots.txt вместо Disallow?
  6. Какие поисковые системы поддерживают файл robots.txt?
  7. Как запретить поисковым системам индексировать результаты поиска на моем веб-сайте WordPress?

1. Могу ли я использовать файл robots.txt, чтобы страницы не отображались на страницах результатов поиска?

Нет, это будет выглядеть так:

Более того: если у Google нет доступа к странице через файл robots.txt, а сама страница содержит тег <meta name = "robots" content = "noindex, nofollow">, поисковые системы будут индексировать страницу. Они не знают о <meta name = "robots" content = "noindex, nofollow">, потому что у них нет доступа к странице.

2. Нужно ли быть осторожным с файлом robots.txt?

Да, но не бойтесь использовать это. Это отличный инструмент для лучшего сканирования вашего сайта Google.

3. Запрещено ли игнорировать файл robots.txt при сканировании веб-сайта?

Не в теории. Файл robots.txt является дополнительным руководством для поисковых систем. Однако с юридической точки зрения мы ничего не можем сказать по этому поводу. В случае сомнений обратитесь за советом к юристу.

4. У меня нет файла robots.txt. Поисковые системы сканируют мой сайт?

Да. Если поисковые системы не находят файл robots.txt, они предполагают, что руководящих принципов нет, и сканируют весь сайт.

5. Могу ли я использовать Noindex в файле robots.txt вместо Disallow?

Нет, мы не рекомендуем это. Google также советует против этого ,

6. Какие поисковые системы поддерживают файл robots.txt?

Все основные поисковые системы поддерживают файл robots.txt:

7. Как я могу запретить поисковым системам индексировать результаты поиска на моем сайте WordPress?

Включите следующие инструкции в ваш файл robots.txt. Это не позволяет поисковым системам индексировать эти страницы, предполагая, что в работу страниц результатов поиска не было внесено никаких изменений.

Пользовательский агент: * Disallow: /? S = Disallow: / search /

Узнайте больше о robots.txt:

Txt так важен?
Txt работает против вас?
Это похоже на файл?
Txt?
Txt?
Txt, чтобы страницы не отображались на страницах результатов поиска?
Txt?
Txt при сканировании веб-сайта?
Поисковые системы сканируют мой сайт?
Txt вместо Disallow?