Большинство владельцев сайтов не различают AI-ботов. В логах сервера видно «какой-то странный краулер» — и дальше либо игнорируют, либо паникуют и блокируют всех скопом. Оба варианта плохие. AI-боты — это не единая категория: один обучает модель, другой обслуживает поиск пользователя, третий парсит для reasoning. Решение «разрешать/блокировать» должно приниматься индивидуально для каждого.

По данным Dark Visitors (анализ 50 000+ доменов, март 2026), AI-боты генерируют 3–8% всего трафика на контентных сайтах в РФ. Часть этого трафика — потенциальные клиенты через Я.Нейро и ChatGPT Search. Часть — тренировочные пайплайны без прямого ROI. Различать важно.

Какие AI-боты сейчас сканируют сайты?

Семь основных AI-ботов в 2026: GPTBot (OpenAI обучение), ChatGPT-User и OAI-SearchBot (OpenAI поиск), ClaudeBot (Anthropic поиск/индексация), PerplexityBot (Perplexity AI-поиск), YandexBot AI-варианты (Я.Нейро), GoogleOther/Google-Extended (Google AIO + Bard), CCBot (Common Crawl — данные для десятков моделей).

Каждый из них имеет уникальный User-Agent, который декларируется в официальной документации провайдера. Бот, который не декларирует User-Agent или маскируется под браузер — это уже не «AI-бот в классическом смысле», а нелегальный scraper. Их блокируют через WAF/Cloudflare, а не через robots.txt.

User-Agent Назначение Разрешать?
GPTBotОбучение моделей OpenAI (ChatGPT, GPT-5)По выбору
ChatGPT-UserBrowse-режим ChatGPT в момент запросаДа
OAI-SearchBotИндексация для ChatGPT SearchДа
ClaudeBotПоиск и индексация AnthropicДа
anthropic-aiОбучение моделей ClaudeПо выбору
PerplexityBotПоиск Perplexity AIДа
YandexBotВсе продукты Яндекса, включая НейроДа (для РФ — критично)
GoogleOtherGoogle AI Overview, Bard, GeminiДа
Google-ExtendedОбучение моделей GoogleПо выбору
CCBotCommon Crawl — открытые датасетыПо выбору

Чем AI-боты отличаются от обычных поисковых?

Три ключевых различия. Первое — назначение. Googlebot и YandexBot строят индекс для классической SERP. AI-боты делают одно из двух: либо обучают модель на вашем контенте (GPTBot, anthropic-ai, Google-Extended, CCBot), либо обслуживают запрос пользователя в реальном времени (ChatGPT-User, OAI-SearchBot, PerplexityBot).

Второе — частота обхода. Googlebot пересканирует среднюю страницу раз в 7–30 дней. AI-боты ходят реже: GPTBot и CCBot — раз в 1–3 месяца, потому что обучение модели не требует свежих данных. Поисковые AI-боты (OAI-SearchBot, PerplexityBot, ClaudeBot) ходят чаще — примерно как Googlebot. Третье — уважение к robots.txt. Крупные провайдеры (OpenAI, Anthropic, Perplexity, Yandex, Google) соблюдают директивы. Менее известные scraper'ы — часто нет.

Как идентифицировать AI-ботов по User-Agent?

Полный User-Agent каждого бота публикуется провайдером. Сводный список — в репозитории ai.robots.txt на GitHub, обновляется ежемесячно. Для ручной идентификации в логах сервера ищите по ключевым подстрокам.

  • OpenAI: GPTBot, ChatGPT-User, OAI-SearchBot
  • Anthropic: ClaudeBot, anthropic-ai, Claude-User
  • Perplexity: PerplexityBot, Perplexity-User
  • Google: Google-Extended, GoogleOther
  • Yandex: YandexBot, YandexImages, YandexRenderResourcesBot
  • Common Crawl: CCBot

Для проверки подлинности — reverse DNS lookup IP-адреса бота. У легитимных OpenAI/Anthropic/Yandex есть официальные диапазоны IP, опубликованные в документации. Если User-Agent говорит «GPTBot», но IP не из диапазона OpenAI — это подделка, блокируйте.

Стоит ли блокировать GPTBot и ClaudeBot?

Зависит от стратегии. Если ваш контент — основной актив (медиа, образование, паид-исследования), блокировка GPTBot и anthropic-ai защищает от использования в обучении без компенсации. По данным Dark Visitors, около 3% сайтов в РФ блокируют GPTBot — чаще всего это новостные СМИ и нишевые контентные проекты.

Для большинства бизнесов — разрешать. ClaudeBot и OAI-SearchBot обслуживают пользовательский поиск: если их заблокировать, ваш бренд исчезнет из ответов ChatGPT и Claude. Цена блокировки выше, чем выгода. Для Я.Нейро по нашим замерам Citation Rate падает на 100% при блокировке YandexBot — контент просто исчезает из AI-выдачи. Это критично для РФ-рынка.

7+
AI-ботов сканируют сайты в 2026
~3%
сайтов в РФ блокируют GPTBot
100%
падение Citation Rate при блокировке Я.Нейро

Готовый блок robots.txt для AI-ботов (разрешить всё)

Рекомендуемый вариант для бизнесов, которые хотят видимости в Я.Нейро, ChatGPT Search и Google AIO. Явно перечисляем основные AI-боты и разрешаем им весь сайт. Это страховка от ситуации, когда новый бот появится — дефолт Allow: / уже стоит.

📋 Скопируй: robots.txt для разрешения всех AI-ботов
# Разрешить все AI-боты на полный сайт
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: YandexBot
Allow: /

User-agent: GoogleOther
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

Sitemap: https://example.com/sitemap.xml

Готовый блок robots.txt (блокировать обучение, разрешить поиск)

Компромиссный вариант: ваш контент попадает в AI-поисковики (Я.Нейро, ChatGPT Search, Perplexity), но НЕ используется для обучения новых моделей. Подходит медиа, b2b-блогам и проектам с уникальным экспертным контентом.

# Блокировать обучение моделей
User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# Разрешить AI-поиск
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: YandexBot
Allow: /

User-agent: GoogleOther
Allow: /

Проверьте, индексируется ли ваш сайт ИИ-ботами

GEO-аудит покажет, цитируется ли ваш сайт в Я.Нейро и Google AIO, а также диагностирует блокировки в robots.txt, которые мешают цитированию. 15 минут, 20 запросов, 4 метрики.

Заказать GEO-аудит за 2 990 ₽

Что делать, если бот игнорирует robots.txt?

Три уровня защиты. Первый — robots.txt — честные боты соблюдают. Второй — блокировка по User-Agent через nginx/Apache: возвращайте 403 на запросы с недопустимым User-Agent. Это уже жёсткий запрет, не рекомендация. Третий — блокировка по IP через WAF (Cloudflare, AWS WAF, Imperva). Cloudflare с 2024 года предлагает категорию «AI Bots» в Bot Management — один чекбокс, и все известные AI-краулеры блокируются на уровне сети.

Для большинства бизнесов достаточно robots.txt — легальные AI-боты подчиняются. Жёсткие меры нужны только для премиум-контента (платные исследования, эксклюзивная аналитика), где нелегальный парсинг прямо угрожает монетизации. Подробнее о разнице в индексации — в статье про SEO vs GEO и основах GEO-аудита.

Частые вопросы

Что будет, если заблокировать GPTBot?
Контент перестанет попадать в обучающие данные ChatGPT. Но это не влияет на ChatGPT-Search и OAI-SearchBot — поисковый бот OpenAI имеет отдельный User-Agent. Если хотите остаться в ChatGPT Search, но не в обучении моделей — блокируйте только GPTBot, разрешая OAI-SearchBot и ChatGPT-User.
Может ли AI-бот игнорировать robots.txt?
Технически — да. robots.txt — это рекомендация, а не запрет. Крупные боты (GPTBot, ClaudeBot, PerplexityBot, YandexBot) соблюдают директивы. Менее известные scraper'ы могут игнорировать. Для жёсткого блокирования нужны firewall-правила по IP или Cloudflare AI Audit.
Где найти полный список AI-ботов?
Официальные источники: docs OpenAI (GPTBot, ChatGPT-User, OAI-SearchBot), Anthropic (ClaudeBot, anthropic-ai, Claude-User), Perplexity (PerplexityBot, Perplexity-User). Сводный список ведёт Dark Visitors и проект ai.robots.txt на GitHub — обновляется ежемесячно.
Влияет ли блокировка AI-ботов на SEO?
Прямо — нет. Google и Яндекс используют отдельных ботов (Googlebot, YandexBot) для SEO-индексации. Блокировка GPTBot или ClaudeBot не влияет на классический поиск. Но при блокировке YandexBot или его AI-вариантов вы выпадаете и из SEO, и из Я.Нейро одновременно.
Можно ли заблокировать только обучение моделей, но разрешить поиск?
Да. У OpenAI: GPTBot — обучение, OAI-SearchBot и ChatGPT-User — поиск и пользовательские запросы. Заблокируйте GPTBot, оставьте остальные. У Anthropic: anthropic-ai — обучение, ClaudeBot и Claude-User — поиск. Аналогичная логика.
Помогает ли блокировка против ChatGPT-User?
ChatGPT-User — это бот, который OpenAI запускает в момент пользовательского запроса в ChatGPT (например, browse-режим). Блокировка через robots.txt работает, но вы лишаетесь возможности быть процитированным в ChatGPT Search. Большинство брендов оставляют его разрешённым.