Большинство владельцев сайтов не различают AI-ботов. В логах сервера видно «какой-то странный краулер» — и дальше либо игнорируют, либо паникуют и блокируют всех скопом. Оба варианта плохие. AI-боты — это не единая категория: один обучает модель, другой обслуживает поиск пользователя, третий парсит для reasoning. Решение «разрешать/блокировать» должно приниматься индивидуально для каждого.
По данным Dark Visitors (анализ 50 000+ доменов, март 2026), AI-боты генерируют 3–8% всего трафика на контентных сайтах в РФ. Часть этого трафика — потенциальные клиенты через Я.Нейро и ChatGPT Search. Часть — тренировочные пайплайны без прямого ROI. Различать важно.
Какие AI-боты сейчас сканируют сайты?
Семь основных AI-ботов в 2026: GPTBot (OpenAI обучение), ChatGPT-User и OAI-SearchBot (OpenAI поиск), ClaudeBot (Anthropic поиск/индексация), PerplexityBot (Perplexity AI-поиск), YandexBot AI-варианты (Я.Нейро), GoogleOther/Google-Extended (Google AIO + Bard), CCBot (Common Crawl — данные для десятков моделей).
Каждый из них имеет уникальный User-Agent, который декларируется в официальной документации провайдера. Бот, который не декларирует User-Agent или маскируется под браузер — это уже не «AI-бот в классическом смысле», а нелегальный scraper. Их блокируют через WAF/Cloudflare, а не через robots.txt.
| User-Agent | Назначение | Разрешать? |
|---|---|---|
| GPTBot | Обучение моделей OpenAI (ChatGPT, GPT-5) | По выбору |
| ChatGPT-User | Browse-режим ChatGPT в момент запроса | Да |
| OAI-SearchBot | Индексация для ChatGPT Search | Да |
| ClaudeBot | Поиск и индексация Anthropic | Да |
| anthropic-ai | Обучение моделей Claude | По выбору |
| PerplexityBot | Поиск Perplexity AI | Да |
| YandexBot | Все продукты Яндекса, включая Нейро | Да (для РФ — критично) |
| GoogleOther | Google AI Overview, Bard, Gemini | Да |
| Google-Extended | Обучение моделей Google | По выбору |
| CCBot | Common Crawl — открытые датасеты | По выбору |
Чем AI-боты отличаются от обычных поисковых?
Три ключевых различия. Первое — назначение. Googlebot и YandexBot строят индекс для классической SERP. AI-боты делают одно из двух: либо обучают модель на вашем контенте (GPTBot, anthropic-ai, Google-Extended, CCBot), либо обслуживают запрос пользователя в реальном времени (ChatGPT-User, OAI-SearchBot, PerplexityBot).
Второе — частота обхода. Googlebot пересканирует среднюю страницу раз в 7–30 дней. AI-боты ходят реже: GPTBot и CCBot — раз в 1–3 месяца, потому что обучение модели не требует свежих данных. Поисковые AI-боты (OAI-SearchBot, PerplexityBot, ClaudeBot) ходят чаще — примерно как Googlebot. Третье — уважение к robots.txt. Крупные провайдеры (OpenAI, Anthropic, Perplexity, Yandex, Google) соблюдают директивы. Менее известные scraper'ы — часто нет.
Как идентифицировать AI-ботов по User-Agent?
Полный User-Agent каждого бота публикуется провайдером. Сводный список — в репозитории ai.robots.txt на GitHub, обновляется ежемесячно. Для ручной идентификации в логах сервера ищите по ключевым подстрокам.
- OpenAI:
GPTBot,ChatGPT-User,OAI-SearchBot - Anthropic:
ClaudeBot,anthropic-ai,Claude-User - Perplexity:
PerplexityBot,Perplexity-User - Google:
Google-Extended,GoogleOther - Yandex:
YandexBot,YandexImages,YandexRenderResourcesBot - Common Crawl:
CCBot
Для проверки подлинности — reverse DNS lookup IP-адреса бота. У легитимных OpenAI/Anthropic/Yandex есть официальные диапазоны IP, опубликованные в документации. Если User-Agent говорит «GPTBot», но IP не из диапазона OpenAI — это подделка, блокируйте.
Стоит ли блокировать GPTBot и ClaudeBot?
Зависит от стратегии. Если ваш контент — основной актив (медиа, образование, паид-исследования), блокировка GPTBot и anthropic-ai защищает от использования в обучении без компенсации. По данным Dark Visitors, около 3% сайтов в РФ блокируют GPTBot — чаще всего это новостные СМИ и нишевые контентные проекты.
Для большинства бизнесов — разрешать. ClaudeBot и OAI-SearchBot обслуживают пользовательский поиск: если их заблокировать, ваш бренд исчезнет из ответов ChatGPT и Claude. Цена блокировки выше, чем выгода. Для Я.Нейро по нашим замерам Citation Rate падает на 100% при блокировке YandexBot — контент просто исчезает из AI-выдачи. Это критично для РФ-рынка.
Готовый блок robots.txt для AI-ботов (разрешить всё)
Рекомендуемый вариант для бизнесов, которые хотят видимости в Я.Нейро, ChatGPT Search и Google AIO. Явно перечисляем основные AI-боты и разрешаем им весь сайт. Это страховка от ситуации, когда новый бот появится — дефолт Allow: / уже стоит.
# Разрешить все AI-боты на полный сайт
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: YandexBot
Allow: /
User-agent: GoogleOther
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
Sitemap: https://example.com/sitemap.xml
Готовый блок robots.txt (блокировать обучение, разрешить поиск)
Компромиссный вариант: ваш контент попадает в AI-поисковики (Я.Нейро, ChatGPT Search, Perplexity), но НЕ используется для обучения новых моделей. Подходит медиа, b2b-блогам и проектам с уникальным экспертным контентом.
# Блокировать обучение моделей
User-agent: GPTBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
# Разрешить AI-поиск
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: YandexBot
Allow: /
User-agent: GoogleOther
Allow: /
Проверьте, индексируется ли ваш сайт ИИ-ботами
GEO-аудит покажет, цитируется ли ваш сайт в Я.Нейро и Google AIO, а также диагностирует блокировки в robots.txt, которые мешают цитированию. 15 минут, 20 запросов, 4 метрики.
Заказать GEO-аудит за 2 990 ₽Что делать, если бот игнорирует robots.txt?
Три уровня защиты. Первый — robots.txt — честные боты соблюдают. Второй — блокировка по User-Agent через nginx/Apache: возвращайте 403 на запросы с недопустимым User-Agent. Это уже жёсткий запрет, не рекомендация. Третий — блокировка по IP через WAF (Cloudflare, AWS WAF, Imperva). Cloudflare с 2024 года предлагает категорию «AI Bots» в Bot Management — один чекбокс, и все известные AI-краулеры блокируются на уровне сети.
Для большинства бизнесов достаточно robots.txt — легальные AI-боты подчиняются. Жёсткие меры нужны только для премиум-контента (платные исследования, эксклюзивная аналитика), где нелегальный парсинг прямо угрожает монетизации. Подробнее о разнице в индексации — в статье про SEO vs GEO и основах GEO-аудита.