Поисковый робот (робот поисковой системы) — специальное приложение, которое сканирует и индексирует страницы веб-ресурсов. Предоставляет поисковой системе (ПС) данные касаемо страниц сайта, после чего они вносятся в базу данных и обрабатываются, чтобы в будущем появиться в поисковой выдаче по запросу пользователя. Роботы не проводят анализ страниц, а только передают данные о них на сервер ПС. Чтобы мероприятия по SEO проходили максимально успешно, нужно всегда учитывать особенности поведения роботов. У роботов поисковых систем есть масса названий (боты, веб-пауки, краулеры и др.). В любом случае под всеми этими названиями нужно понимать одинаковые приложения.
Работу ботов можно описать так: они переходят на ресурс, затем отправляют его содержимое в индекс и определяют линки, которые открывают ему остальные страницы анализируемого сайта. Чтобы ускорить такой анализ, нужно создать и правильно заполнить файл robots.txt и sitemap.
Выдача ПС формируется в 3 шага:
В robots.txt веб-мастер прописывает параметры для проведения сканирования, которые могут учитывать роботы (на индексацию это никак не влияет). Если этого файла нет, робот все равно может найти новую страницу, перейдя на нее по ссылке со стороннего ресурса, и внести ее в базу ПС.
Используя файл sitemap.xml, можно повлиять на ботов ПС, прописав в нем частоту обновления контента и указав приоритет для каждой страницы. Для этого применяются теги <priority> и <changefreq>. Частота обновления указывается, опираясь на тип сайта и конкретную его страницу. Приоритетность прописывается, опираясь на важность страницы (в пределах от 0 до 1).
В robots.txt также можно задать некоторые правила для роботов:
User-agent: *
Disallow:
Прописывать эти директивы разрешено в любом порядке. Для открытия доступа роботам нужно использовать директиву Allow.