Что такое поисковый робот

Понятие “поисковый робот” обозначает совокупность сетевых программ, каждая из которых исполняет собственную функцию. Среди краулеров поисковиков “большой двойки” стоит выделить следующие:

  • YandexBot, Googlebot — основные боты, отвечают за поиск и обработку текстового контента, проверяя публикации на релевантность, уникальность, частоту вхождений ключевых запросов и другие параметры;
  • YandexImages, Googlebot Images — специализируются на графическом контенте (картинках, фотографиях);
  • YandexVideo, Googlebot Video — обрабатывают видеоролики;
  • YandexNews, Googlebot News — индексируют новостные порталы;
  • YandexImageResizer, Googlebot Mobile — сканируют мобильные версии сайтов;
  • YandexDirect, Google AdSense — боты рекламных сетей, обходят сайты-партнеры сервисов контекстной рекламы поисковых систем.

Среди специализированных роботов Яндекса также упомянуть YandexAddurl, проверяющий ссылки, добавленные через форму Яндекс.Вебмастера “Добавить URL” и так называемого зеркальщика (YandexBot/3.0; MirrorDetector). Последний ищет зеркала (точные копии) веб-ресурса, осуществляя их “склейку”, то есть, полностью исключая из индекса.

Настройка индексации сайта

Вебмастер имеет возможность самостоятельно определить, каким образом будет индексироваться интернет-площадка, прописав необходимые команды для поискового робота в специальном файле robots.txt, располагающемся в корневом каталоге веб-ресурса. Существуют следующие директивы:

  1. User-agent — позволяет обратиться напрямую к конкретному роботу, используя уникальный идентификатор. Конструкция User-agent: * декларирует, что все последующие команды актуальны для краулеров любого типа;
  2. Host — указывает зеркальщику, какая именно версия сайта является основной;
  3. Disallow — закрывает от индексации отдельные страницы, разделы или папки. В первую очередь, используется для скрытия административной части CMS, где хранятся личные данные администраторов и пользователей.