robots.txt: как управлять роботом и не уничтожить раскрутку
 

robots.txt: как управлять роботом и не уничтожить раскрутку

robots.txt — это текстовый файл, который в первую очередь анализируют поисковые роботы заходящие на сайт. В нем описаны инструкции для роботов: какие страницы нужно индексировать, а какие нет, где находится карта сайта для роботов (sitemap.xml) и какой основной адрес сайта.

Зачем скрывать определенное содержимое сайта?

Восновном с целью SEO-оптимизации в robots.txt закрываются дублирующиеся либо не несущие содержательной нагрузки страницы. Так же, наверняка Вы не захотите чтобы в индекс поисковика попали тестовые страницы, не готовые переводы или страницы и файлы скрытых разделов, к которым Вы даете доступ только по ссылке.

Как это работает

Текстовій файл должен находиться в корне сайта и быть доступен по адресу http://ваш_сайт/robots.txt.
Внимание! Если вы не нашли такого файла зайдя на сервер по ftp не спешите его создавать, проверьте сперва его доступность по адресу http://ваш_сайт/robots.txt, так как, возможно, он генерируется каждый раз движком сайта в момент обращения. Так, например, происходит в CMS RASUS в связи с тем, что система мультисайтовая и должна отдавать разное содержимое roborts.txt при запросах кразным сайтам, находящимся под её управлением.

Поисковик анализирует директивы, находящиеся в файле и игнорирует указанные в нем запрещенные страницы.

Для различных поисковиков можно указать свои директивы. Для примера рассмотрим содержание robots.txt нашего сайта:

User-Agent: *
Disallow: /includes/
Disallow: /logs/

User-agent: Yandex
Disallow: /includes/
Disallow: /logs/

Host: https://bila-vorona.net
Sitemap: https://bila-vorona.net/sitemap.xml

User-Agent: * - означает что дальнейшие строки с директивами относятся ко всем поисковым роботам

Disallow: /logs/ - запрещает индексирование папки с логами

Host: https://bila-vorona.net - указывает роботу основной адрес сайта.

Обратите внимание, что так как сайт использует защищенное соединение (https), то необходимо указывать протокол, в другом слу чае директива выглядела бы так: Host: bila-vorona.net

Sitemap: https://bila-vorona.net/sitemap.xml - указывает поисковому роботу где исакать карту сайта, если такая имеется.

И наконец, к самому интересному: разберемся как не завалить позиции и не уничтожить раскрутку сайта.

Чтобы правильно настроить robots.txt нужно понимать что запрет доступа поисковика к следующим файлам самым негативным образом влияет на SEO-продвижение:

  • Главная и другие продвигаемые страницы
  • Файлы стилей сайта
  • Скрипты и плагины учавствующие в формировании интерфейса
  • Папки с изображениями шаблона и содержания

Если вы скопировали файл с другого сайта и забыли изменить значение Hosts или Sitemap - сделайте это как можно скорее, так как это приведет ошибкам сканирования вашего сайта.

И "контрольный" - если Вы обнаружили в вашем robots.txt запись: Disallow: * , это значит, что доступ роботам к сайту закрыт и позициям вашего скоро стремительно начнут падать.

Всем добра!

robots.txt

Комментарии
Вы будет первым кто добавит свой комментарий.
Загрузка...

Читайте также:

Интересные предложения от Белой вороны

Как мы продвигаем сайты наших клиентов в ТОП-10, ТОП-5 и ТОП-3. При комплексном продвиженим по высококонкурентным запросам основное внимание нужно уделять...

Независимый анализ на предмет наличия технических ошибок, SEO-оптимизации, функционала и дизайна сайта. Отчет включает инструкции по исправлению и рекомендации по улучшению.