25 февраля 2021

Поисковый робот (бот, паук, агент)

Поисковый робот (робот поисковой системы) — специальное приложение, которое сканирует и индексирует страницы веб-ресурсов. Предоставляет поисковой системе (ПС) данные касаемо страниц сайта, после чего они вносятся в базу данных и обрабатываются, чтобы в будущем появиться в поисковой выдаче по запросу пользователя. Роботы не проводят анализ страниц, а только передают данные о них на сервер ПС. Чтобы мероприятия по SEO проходили максимально успешно, нужно всегда учитывать особенности поведения роботов. У роботов поисковых систем есть масса названий (боты, веб-пауки, краулеры и др.). В любом случае под всеми этими названиями нужно понимать одинаковые приложения.

Работу ботов можно описать так: они переходят на ресурс, затем отправляют его содержимое в индекс и определяют линки, которые открывают ему остальные страницы анализируемого сайта. Чтобы ускорить такой анализ, нужно создать и правильно заполнить файл robots.txt и sitemap.

SEO продвижение для бизнеса

Узнать больше

Как работают роботы ПС и какие функции выполняют

Выдача ПС формируется в 3 шага:

Сканирование. Сбор роботами информации со страниц сайта (тексты, графика, видео и т. д.). Этот процесс систематически повторяется.
Индексация. Добавление полученных данных в базу ПС и присвоение ей конкретного индекса для обеспечения доступа в будущем. На раскрученных крупных сайтах контент индексируется буквально за пару часов после публикации.
Выдача. Обнаружение ПС данных с необходимыми индексами в базе и вывод страниц в поисковой выдаче с учетом запроса пользователя.

В robots.txt веб-мастер прописывает параметры для проведения сканирования, которые могут учитывать роботы (на индексацию это никак не влияет). Если этого файла нет, робот все равно может найти новую страницу, перейдя на нее по ссылке со стороннего ресурса, и внести ее в базу ПС.

Как сделать процесс обхода ресурса ботами эффективным

Используя файл sitemap.xml, можно повлиять на ботов ПС, прописав в нем частоту обновления контента и указав приоритет для каждой страницы. Для этого применяются теги <priority> и <changefreq>. Частота обновления указывается, опираясь на тип сайта и конкретную его страницу. Приоритетность прописывается, опираясь на важность страницы (в пределах от 0 до 1).

В robots.txt также можно задать некоторые правила для роботов:

Указать параметры сканирования сайта. Для SEO очень важно, чтобы в индексе поисковой системы нее было служебных страниц сайта, дублей и остального бесполезного контента (все это нужно указать). Данные из robots.txt — это лишь рекомендации для ботов, и они могут не придерживаться их, если посчитают нужным.
Запретить для индексации определенные страницы. Для этого применяется директива Disallow. Если необходимо полностью закрыть доступ ботам к ресурсу, указывается следующее:

User-agent: *

Disallow:

Прописывать эти директивы разрешено в любом порядке. Для открытия доступа роботам нужно использовать директиву Allow.