robots.txt e bots de IA

Resposta direta: o robots.txt é um arquivo na raiz do site que diz a cada robô o que ele pode acessar. Hoje é o mecanismo reconhecido para controlar tanto bots de busca (Googlebot) quanto bots de IA (GPTBot, Google-Extended, ClaudeBot, PerplexityBot). Para uma vitrine que quer ser lida e citada por IAs, o normal é permitir esses robôs.

Tipos de robôs

Bots de busca

Googlebot, Bingbot — indexam para resultados de busca.

Bots de treinamento

GPTBot, ClaudeBot, Google-Extended — coletam conteúdo para treinar modelos.

Bots de busca por IA

OAI-SearchBot, PerplexityBot, Claude-SearchBot — buscam em tempo real para responder o usuário.

Ações de usuário IA

ChatGPT-User, Claude-User, Perplexity-User — acessam porque alguém pediu à IA.

Como NÃO derrubar o Google sem querer

Nunca use Disallow: / para User-agent: * ou para Googlebot — isso esconde o site inteiro.
Para tirar uma página dos resultados, use noindex na página, não o robots.txt.
Bloquear Google-Extended não afeta o ranking no Google Search — ele controla só o treino do Gemini.

A política do HubAutomocao é permitir os robôs (é uma vitrine para ser lida por IAs). Bloquear bots de treinamento é uma escolha possível — decisão do grupo, sem custo de SEO no caso do Google-Extended.

Perguntas rápidas

robots.txt garante bloqueio?

Robôs sérios respeitam, mas não é uma trava de segurança. Conteúdo sensível não deve ficar público — não basta "esconder" no robots.txt.

E o llms.txt?

É complementar e experimental. Nenhum provedor de IA confirma oficialmente que o obedece. Priorize o robots.txt.

Checklist GEO O que é GEO