Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity

A luta do ano em 2025 é a da Cloudfare X Perplexity. E isso diz muito sobre o futuro dos agentes de IA. Saiba mais.

Navegue pelo conteúdo

Example H2

O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.

Na data de redação desse artigo, estamos vivendo uma polêmica seríssima: o Cloudfare está limitando o acesso dos crawlers da Perplexity, alegando que a IA está ignorando seu robots.txt e fazendo acessos “stealth”.

E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.

A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet.

De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade.

Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet.

Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião.

Primeiro, o básico: quem são os envolvidos?

Conhecendo o Cloudfare e a Perplexity

Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico.

Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo.

Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo:

Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações.

Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados.

Para sustentar as respostas, a Perplexity mantém crawlers próprios. A documentação pública descreve o PerplexityBot (indexação/descoberta) e o Perplexity-User (fetch sob demanda iniciado por usuários).

Em poucas palavras e para entender a relevância:

É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.

Quem é a Cloudflare

A Cloudflare é uma empresa de infraestrutura e segurança web (fundada em 2009; listada na NYSE desde 2019) que opera uma rede global de CDN, DNS, mitigação de DDoS, reverse proxy e serviços “zero trust”.

Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.

A presença é massiva: estimativas apontam que a Cloudflare protege/serve uma parcela relevante da web, o que a coloca como “camada de trânsito” para tráfego legítimo e bots — inclusive os de IAs.

Veja mais alguns detalhes:

Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.

De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra.

Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo:

Resumo da situação Cloudfare X Perplexity

Em 4 de agosto de 2025, a Cloudflare tornou pública uma acusação: a Perplexity estaria usando “crawlers furtivos”, não declarados, para contornar bloqueios — inclusive regras em robots.txt e filtros de firewall.

A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada.

Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity.

A empresa afirma ter observado mudanças de user-agent para cabeçalhos de navegador comum, rotação de IPs/ASNs fora dos ranges documentados e, em alguns casos, ausência de consulta ao próprio robots.txt.

A Perplexity nega “crawling massivo”, diz que seu sistema busca páginas sob demanda a partir de ações dos usuários e que parte do tráfego citado foi de um terceiro (BrowserBase), e não dela.

A documentação pública reforça a distinção entre o PerplexityBot (que a empresa diz respeitar robots.txt) e o agente Perplexity-User, que — por ser fetch iniciado pelo usuário — “geralmente ignora” robots.txt, ponto que acirra a controvérsia.

No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal.

A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.

Para quem publica, a disputa é menos um veredito e mais um alerta: na era dos agentes, credibilidade depende de políticas claras de acesso e de um repositório estável de ideias — um blog capaz de servir de fonte citável para humanos e máquinas.

Perspectiva da Perplexity

A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real.

Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A

tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.

Diante das acusações, a empresa argumenta que parte do tráfego atribuído a ela pode refletir acessos de provedores de automação de navegador ou de usuários reais, criando ruído na identificação.

A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.

O posicionamento público enfatiza serviço ao usuário, atribuição visível e abertura a padrões mais fortes de identificação de bots, desde que preservem a capacidade de um buscador moderno de consultar a web em tempo real.

A prioridade declarada é reduzir ambiguidade técnica, melhorar transparência de agentes e manter limites para evitar coleta desnecessária, sem abdicar do princípio de respostas úteis com referências.

Perspectiva da Cloudflare

A Cloudflare se posiciona como camada de proteção e desempenho da web.

Sob essa ótica, quando sites explicitamente bloqueados por diretivas de não rastreamento têm conteúdo que aparece em respostas de terceiros, configura-se quebra de expectativa e de convenções que sustentam a internet aberta.

Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.

A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas.

Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.

O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis.

A premissa é simples: agentes de busca, IA e monitoramento devem se identificar de forma verificável e respeitar políticas de acesso claras. Isso preserva os direitos dos publishers, reduz falsos positivos e mantém a inovação compatível com a governança da web.

O que isso significa para a internet pós-IA?

Se esse conflito caminhar para um acordo técnico — bots identificados de forma verificável, respeito a robots/llms.txt e auditoria de acesso — a experiência do usuário na web pós-IA melhora em três frentes: confiança, clareza e qualidade.

As respostas deixam de ser “opiniões do modelo” e passam a vir com bibliografia estável; fica explícito de onde cada afirmação saiu, quando houve busca em tempo real e quais páginas foram consultadas.

O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.

Há também uma mudança editorial. Com blogs tratados como fonte canônica — endereço perene, autoria, método e histórico de revisões — o mercado publica menos enchimento “para ranquear” e mais tese, dados e bastidores.

Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA.

Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.

Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”.

Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras.

‍

E aí, o que você achou desse duelo de gigantes?

A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações.

Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa.

E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt.

Saiba mais no nosso próximo artigo sobre o tema:

➡️ Entendendo melhor o llms.txt e o rankeamento nas IAs

Escrito por:

André Bonanomi

CRO

O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.

E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.

A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet.

De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade.

Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet.

Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião.

Primeiro, o básico: quem são os envolvidos?

Conhecendo o Cloudfare e a Perplexity

Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico.

Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo.

Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo:

Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações.

Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados.

Em poucas palavras e para entender a relevância:

É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.

Quem é a Cloudflare

Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.

Veja mais alguns detalhes:

Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.

De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra.

Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo:

Resumo da situação Cloudfare X Perplexity

A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada.

Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity.

No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal.

A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.

Perspectiva da Perplexity

A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real.

Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A

tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.

A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.

Perspectiva da Cloudflare

A Cloudflare se posiciona como camada de proteção e desempenho da web.

Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.

A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas.

Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.

O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis.

O que isso significa para a internet pós-IA?

O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.

Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA.

Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.

Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”.

Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras.

‍

E aí, o que você achou desse duelo de gigantes?

A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações.

Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa.

E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt.

Saiba mais no nosso próximo artigo sobre o tema:

➡️ Entendendo melhor o llms.txt e o rankeamento nas IAs

André Bonanomi

CRO

Posts recentes

Nosso blog tem conteúdos semanais feitos por especialistas

Ver mais

Marketing

De onde vêm os resultados da IA? Veja 7 estatísticas de SEO e GEO

Como a IA entrega resultados? De onde ela tira os links? Veja algumas estatísticas globais e brasileiras.

Ler mais

Marketing

As novidades sobre voice commerce em 2025

É possível fazer voice commerce hoje? Quais são as ferramentas? Há suporte dos marketplaces no Brasil? Vamos descobrir juntos.

Ler mais

Marketing

Prospecção B2B em três métodos [+ automação com IA]

Veja como fazer prospecção B2B de três formas diferentes, inclusive com automações usando IA

Ler mais

Ver todos

Torne seu marketing digital mais estratégico

Agende uma conversa e receba o contato da nossa equipe. Temos um time de especialistas em desenvolver soluções e entregar resultados.