robots.txt для AI-ботов: разрешать GPTBot или блокировать

Большинство владельцев сайтов не различают AI-ботов. В логах сервера видно «какой-то странный краулер» — и дальше либо игнорируют, либо паникуют и блокируют всех скопом. Оба варианта плохие. AI-боты — это не единая категория: один обучает модель, другой обслуживает поиск пользователя, третий парсит для reasoning. Решение «разрешать/блокировать» должно приниматься индивидуально для каждого.

По данным Dark Visitors (анализ 50 000+ доменов, март 2026), AI-боты генерируют 3–8% всего трафика на контентных сайтах в РФ. Часть этого трафика — потенциальные клиенты через нейроответы Яндекса (Алиса AI, ранее — «Нейро») и ChatGPT Search. Часть — тренировочные пайплайны без прямого ROI. Различать важно.

Какие AI-боты сейчас сканируют сайты?

Семь основных AI-ботов в 2026: GPTBot (OpenAI обучение), ChatGPT-User и OAI-SearchBot (OpenAI поиск), ClaudeBot (Anthropic поиск/индексация), PerplexityBot (Perplexity AI-поиск), YandexBot AI-варианты (Алиса AI), GoogleOther/Google-Extended (Google AIO + Bard), CCBot (Common Crawl — данные для десятков моделей).

Каждый из них имеет уникальный User-Agent, который декларируется в официальной документации провайдера. Бот, который не декларирует User-Agent или маскируется под браузер — это уже не «AI-бот в классическом смысле», а нелегальный scraper. Их блокируют через WAF/Cloudflare, а не через robots.txt.

User-Agent	Назначение	Разрешать?
GPTBot	Обучение моделей OpenAI (ChatGPT, GPT-5)	По выбору
ChatGPT-User	Browse-режим ChatGPT в момент запроса	Да
OAI-SearchBot	Индексация для ChatGPT Search	Да
ClaudeBot	Поиск и индексация Anthropic	Да
anthropic-ai	Обучение моделей Claude	По выбору
PerplexityBot	Поиск Perplexity AI	Да
YandexBot	Все продукты Яндекса, включая Алису AI	Да (для РФ — критично)
GoogleOther	Google AI Overview, Bard, Gemini	Да
Google-Extended	Обучение моделей Google	По выбору
CCBot	Common Crawl — открытые датасеты	По выбору

Чем AI-боты отличаются от обычных поисковых?

Три ключевых различия. Первое — назначение. Googlebot и YandexBot строят индекс для классической SERP. AI-боты делают одно из двух: либо обучают модель на вашем контенте (GPTBot, anthropic-ai, Google-Extended, CCBot), либо обслуживают запрос пользователя в реальном времени (ChatGPT-User, OAI-SearchBot, PerplexityBot).

Второе — частота обхода. Googlebot пересканирует среднюю страницу раз в 7–30 дней. AI-боты ходят реже: GPTBot и CCBot — раз в 1–3 месяца, потому что обучение модели не требует свежих данных. Поисковые AI-боты (OAI-SearchBot, PerplexityBot, ClaudeBot) ходят чаще — примерно как Googlebot. Третье — уважение к robots.txt. Крупные провайдеры (OpenAI, Anthropic, Perplexity, Yandex, Google) соблюдают директивы. Менее известные scraper'ы — часто нет.

Как идентифицировать AI-ботов по User-Agent?

Полный User-Agent каждого бота публикуется провайдером. Сводный список — в репозитории ai.robots.txt на GitHub, обновляется ежемесячно. Для ручной идентификации в логах сервера ищите по ключевым подстрокам.

OpenAI: GPTBot, ChatGPT-User, OAI-SearchBot
Anthropic: ClaudeBot, anthropic-ai, Claude-User
Perplexity: PerplexityBot, Perplexity-User
Google: Google-Extended, GoogleOther
Yandex: YandexBot, YandexImages, YandexRenderResourcesBot
Common Crawl: CCBot

Для проверки подлинности — reverse DNS lookup IP-адреса бота. У легитимных OpenAI/Anthropic/Yandex есть официальные диапазоны IP, опубликованные в документации. Если User-Agent говорит «GPTBot», но IP не из диапазона OpenAI — это подделка, блокируйте.

Стоит ли блокировать GPTBot и ClaudeBot?

Зависит от стратегии. Если ваш контент — основной актив (медиа, образование, паид-исследования), блокировка GPTBot и anthropic-ai защищает от использования в обучении без компенсации. По данным Dark Visitors, около 3% сайтов в РФ блокируют GPTBot — чаще всего это новостные СМИ и нишевые контентные проекты.

Для большинства бизнесов — разрешать. ClaudeBot и OAI-SearchBot обслуживают пользовательский поиск: если их заблокировать, ваш бренд исчезнет из ответов ChatGPT и Claude. Цена блокировки выше, чем выгода. Для Алисы AI по нашим замерам Citation Rate падает на 100% при блокировке YandexBot — контент просто исчезает из AI-выдачи. Это критично для РФ-рынка.

AI-ботов сканируют сайты в 2026

~3%

сайтов в РФ блокируют GPTBot

100%

падение Citation Rate в Алисе AI при блокировке YandexBot

Готовый блок robots.txt для AI-ботов (разрешить всё)

Рекомендуемый вариант для бизнесов, которые хотят видимости в Алисе AI, ChatGPT Search и Google AIO. Явно перечисляем основные AI-боты и разрешаем им весь сайт. Это страховка от ситуации, когда новый бот появится — дефолт Allow: / уже стоит.

📋 Скопируй: robots.txt для разрешения всех AI-ботов

# Разрешить все AI-боты на полный сайт
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: YandexBot
Allow: /

User-agent: GoogleOther
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

Sitemap: https://example.com/sitemap.xml

Готовый блок robots.txt (блокировать обучение, разрешить поиск)

Компромиссный вариант: ваш контент попадает в AI-поисковики (Алиса AI, ChatGPT Search, Perplexity), но НЕ используется для обучения новых моделей. Подходит медиа, b2b-блогам и проектам с уникальным экспертным контентом.

# Блокировать обучение моделей
User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# Разрешить AI-поиск
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: YandexBot
Allow: /

User-agent: GoogleOther
Allow: /

Проверьте, индексируется ли ваш сайт ИИ-ботами

GEO-аудит покажет, цитируется ли ваш сайт в нейроответах Яндекса и Google AIO, а также диагностирует блокировки в robots.txt, которые мешают цитированию. 15 минут, 20 запросов, 4 метрики.

Заказать GEO-аудит за 2 990 ₽

Что делать, если бот игнорирует robots.txt?

Три уровня защиты. Первый — robots.txt — честные боты соблюдают. Второй — блокировка по User-Agent через nginx/Apache: возвращайте 403 на запросы с недопустимым User-Agent. Это уже жёсткий запрет, не рекомендация. Третий — блокировка по IP через WAF (Cloudflare, AWS WAF, Imperva). Cloudflare с 2024 года предлагает категорию «AI Bots» в Bot Management — один чекбокс, и все известные AI-краулеры блокируются на уровне сети.

Для большинства бизнесов достаточно robots.txt — легальные AI-боты подчиняются. Жёсткие меры нужны только для премиум-контента (платные исследования, эксклюзивная аналитика), где нелегальный парсинг прямо угрожает монетизации. Подробнее о разнице в индексации — в статье про SEO vs GEO и основах GEO-аудита.

Частые вопросы

Что будет, если заблокировать GPTBot?

Контент перестанет попадать в обучающие данные ChatGPT. Но это не влияет на ChatGPT-Search и OAI-SearchBot — поисковый бот OpenAI имеет отдельный User-Agent. Если хотите остаться в ChatGPT Search, но не в обучении моделей — блокируйте только GPTBot, разрешая OAI-SearchBot и ChatGPT-User.

Может ли AI-бот игнорировать robots.txt?

Технически — да. robots.txt — это рекомендация, а не запрет. Крупные боты (GPTBot, ClaudeBot, PerplexityBot, YandexBot) соблюдают директивы. Менее известные scraper'ы могут игнорировать. Для жёсткого блокирования нужны firewall-правила по IP или Cloudflare AI Audit.

Где найти полный список AI-ботов?

Официальные источники: docs OpenAI (GPTBot, ChatGPT-User, OAI-SearchBot), Anthropic (ClaudeBot, anthropic-ai, Claude-User), Perplexity (PerplexityBot, Perplexity-User). Сводный список ведёт Dark Visitors и проект ai.robots.txt на GitHub — обновляется ежемесячно.

Влияет ли блокировка AI-ботов на SEO?

Прямо — нет. Google и Яндекс используют отдельных ботов (Googlebot, YandexBot) для SEO-индексации. Блокировка GPTBot или ClaudeBot не влияет на классический поиск. Но при блокировке YandexBot или его AI-вариантов вы выпадаете и из SEO, и из нейроответов Яндекса (Алиса AI) одновременно.

Можно ли заблокировать только обучение моделей, но разрешить поиск?

Да. У OpenAI: GPTBot — обучение, OAI-SearchBot и ChatGPT-User — поиск и пользовательские запросы. Заблокируйте GPTBot, оставьте остальные. У Anthropic: anthropic-ai — обучение, ClaudeBot и Claude-User — поиск. Аналогичная логика.

Помогает ли блокировка против ChatGPT-User?

ChatGPT-User — это бот, который OpenAI запускает в момент пользовательского запроса в ChatGPT (например, browse-режим). Блокировка через robots.txt работает, но вы лишаетесь возможности быть процитированным в ChatGPT Search. Большинство брендов оставляют его разрешённым.

robots.txt для AI-ботов: разрешать GPTBot, ClaudeBot или блокировать

Какие AI-боты сейчас сканируют сайты?

Чем AI-боты отличаются от обычных поисковых?

Как идентифицировать AI-ботов по User-Agent?

Стоит ли блокировать GPTBot и ClaudeBot?

Готовый блок robots.txt для AI-ботов (разрешить всё)

Готовый блок robots.txt (блокировать обучение, разрешить поиск)

Проверьте, индексируется ли ваш сайт ИИ-ботами

Что делать, если бот игнорирует robots.txt?

Частые вопросы

Узнайте свой Visibility Score

robots.txt для AI-ботов: разрешать GPTBot, ClaudeBot или блокировать

Какие AI-боты сейчас сканируют сайты?

Чем AI-боты отличаются от обычных поисковых?

Как идентифицировать AI-ботов по User-Agent?

Стоит ли блокировать GPTBot и ClaudeBot?

Готовый блок robots.txt для AI-ботов (разрешить всё)

Готовый блок robots.txt (блокировать обучение, разрешить поиск)

Проверьте, индексируется ли ваш сайт ИИ-ботами

Что делать, если бот игнорирует robots.txt?

Частые вопросы

Читать дальше

SEO vs GEO: 7 различий продвижения в ИИ-поиске

Что такое GEO-аудит и зачем он бизнесу в 2026

Как попасть в нейроответы Яндекса (Алиса AI): чеклист из 12 шагов

Узнайте свой Visibility Score