robots.txt e bots de IA
Resposta direta: o
robots.txt é um arquivo na raiz do site que diz a cada robô o
que ele pode acessar. Hoje é o mecanismo reconhecido para controlar tanto bots de busca
(Googlebot) quanto bots de IA (GPTBot, Google-Extended, ClaudeBot, PerplexityBot). Para uma vitrine que
quer ser lida e citada por IAs, o normal é permitir esses robôs.
Tipos de robôs
Bots de busca
Googlebot, Bingbot — indexam para resultados de busca.
Bots de treinamento
GPTBot, ClaudeBot, Google-Extended — coletam conteúdo para treinar modelos.
Bots de busca por IA
OAI-SearchBot, PerplexityBot, Claude-SearchBot — buscam em tempo real para responder o usuário.
Ações de usuário IA
ChatGPT-User, Claude-User, Perplexity-User — acessam porque alguém pediu à IA.
Como NÃO derrubar o Google sem querer
- Nunca use
Disallow: /paraUser-agent: *ou paraGooglebot— isso esconde o site inteiro. - Para tirar uma página dos resultados, use
noindexna página, não orobots.txt. - Bloquear
Google-Extendednão afeta o ranking no Google Search — ele controla só o treino do Gemini.
A política do HubAutomocao é permitir os robôs (é uma vitrine para ser lida por IAs).
Bloquear bots de treinamento é uma escolha possível — decisão do grupo, sem custo de SEO no caso do Google-Extended.
Perguntas rápidas
robots.txt garante bloqueio?
Robôs sérios respeitam, mas não é uma trava de segurança. Conteúdo sensível não deve ficar público — não basta "esconder" no robots.txt.
E o llms.txt?
É complementar e experimental. Nenhum provedor de IA confirma oficialmente que o obedece. Priorize o robots.txt.