
O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.
Na data de redação desse artigo, estamos vivendo uma polêmica seríssima: o Cloudfare está limitando o acesso dos crawlers da Perplexity, alegando que a IA está ignorando seu robots.txt e fazendo acessos “stealth”.
E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.
A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet.
De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade.
Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet.
Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião.
Primeiro, o básico: quem são os envolvidos?
Conhecendo o Cloudfare e a Perplexity
Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico.
Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo.
Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo:
Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações.
Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados.
Para sustentar as respostas, a Perplexity mantém crawlers próprios. A documentação pública descreve o PerplexityBot (indexação/descoberta) e o Perplexity-User (fetch sob demanda iniciado por usuários).
Em poucas palavras e para entender a relevância:
- É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
- Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
- Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.
Quem é a Cloudflare

A Cloudflare é uma empresa de infraestrutura e segurança web (fundada em 2009; listada na NYSE desde 2019) que opera uma rede global de CDN, DNS, mitigação de DDoS, reverse proxy e serviços “zero trust”.
Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.
A presença é massiva: estimativas apontam que a Cloudflare protege/serve uma parcela relevante da web, o que a coloca como “camada de trânsito” para tráfego legítimo e bots — inclusive os de IAs.
Veja mais alguns detalhes:
- Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
- Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
- Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.
De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra.
Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo:
Resumo da situação Cloudfare X Perplexity
Em 4 de agosto de 2025, a Cloudflare tornou pública uma acusação: a Perplexity estaria usando “crawlers furtivos”, não declarados, para contornar bloqueios — inclusive regras em robots.txt e filtros de firewall.
A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada.
Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity.
A empresa afirma ter observado mudanças de user-agent para cabeçalhos de navegador comum, rotação de IPs/ASNs fora dos ranges documentados e, em alguns casos, ausência de consulta ao próprio robots.txt.
A Perplexity nega “crawling massivo”, diz que seu sistema busca páginas sob demanda a partir de ações dos usuários e que parte do tráfego citado foi de um terceiro (BrowserBase), e não dela.
A documentação pública reforça a distinção entre o PerplexityBot (que a empresa diz respeitar robots.txt) e o agente Perplexity-User, que — por ser fetch iniciado pelo usuário — “geralmente ignora” robots.txt, ponto que acirra a controvérsia.
No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal.
A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.
Para quem publica, a disputa é menos um veredito e mais um alerta: na era dos agentes, credibilidade depende de políticas claras de acesso e de um repositório estável de ideias — um blog capaz de servir de fonte citável para humanos e máquinas.
Perspectiva da Perplexity
A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real.
Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A
tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.
Diante das acusações, a empresa argumenta que parte do tráfego atribuído a ela pode refletir acessos de provedores de automação de navegador ou de usuários reais, criando ruído na identificação.
A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.
O posicionamento público enfatiza serviço ao usuário, atribuição visível e abertura a padrões mais fortes de identificação de bots, desde que preservem a capacidade de um buscador moderno de consultar a web em tempo real.
A prioridade declarada é reduzir ambiguidade técnica, melhorar transparência de agentes e manter limites para evitar coleta desnecessária, sem abdicar do princípio de respostas úteis com referências.
Perspectiva da Cloudflare
A Cloudflare se posiciona como camada de proteção e desempenho da web.
Sob essa ótica, quando sites explicitamente bloqueados por diretivas de não rastreamento têm conteúdo que aparece em respostas de terceiros, configura-se quebra de expectativa e de convenções que sustentam a internet aberta.
Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.
A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas.
Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.
O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis.
A premissa é simples: agentes de busca, IA e monitoramento devem se identificar de forma verificável e respeitar políticas de acesso claras. Isso preserva os direitos dos publishers, reduz falsos positivos e mantém a inovação compatível com a governança da web.
O que isso significa para a internet pós-IA?

Se esse conflito caminhar para um acordo técnico — bots identificados de forma verificável, respeito a robots/llms.txt e auditoria de acesso — a experiência do usuário na web pós-IA melhora em três frentes: confiança, clareza e qualidade.
As respostas deixam de ser “opiniões do modelo” e passam a vir com bibliografia estável; fica explícito de onde cada afirmação saiu, quando houve busca em tempo real e quais páginas foram consultadas.
O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.
Há também uma mudança editorial. Com blogs tratados como fonte canônica — endereço perene, autoria, método e histórico de revisões — o mercado publica menos enchimento “para ranquear” e mais tese, dados e bastidores.
Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA.
Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.
Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”.
Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras.
E aí, o que você achou desse duelo de gigantes?
A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações.
Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa.
E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt.
Saiba mais no nosso próximo artigo sobre o tema:
Posts recentes
Nosso blog tem conteúdos semanais feitos por especialistas
.webp)
Como será (e está sendo) o marketing do futuro?
.webp)
Marketing Digital: o guia completo para transformar estratégia em resultado real

Onde produzir conteúdo após o apagão do tráfego orgânico?
Torne seu marketing digital mais estratégico
Agende uma conversa e receba o contato da nossa equipe. Temos um time de especialistas em desenvolver soluções e entregar resultados.