Home
Sobre

Content & Creativity

  • Sobre nós
    Somos muito mais do que performance
  • Carreiras
    #VemPraAdtail
Soluções

Strategy & Performance

  • Business & Strategy
    Maximize o seu impacto no mundo digital
  • Mídias pagas
    Aumente suas conversões
  • Otimização SEO
    Conquiste posições de destaque

Content & Creativity

  • Inbound Marketing
    Aumente a geração de oportunidades
  • Social Media
    Crie conexões, gere negócios
  • Produção Criativa
    Design estratégico que gera resultados

Data & Technology

  • CRM Marketing
    Automatize processos, conquiste clientes
  • otimização CRO
    Transforme visitantes em clientes
  • Data intelligence
    Transforme dados em insights estratégicos

Precisa de ajuda?

Agende uma conversa e receba um diagnóstico completo.
Entre em contato

E-commerce

  • Implementação novo
    Aprimore o posicionamento online
  • Evolução novo
    Potencialize suas vendas
  • Migração novo
    Maximize a performance
Conteúdo

Content

  • Blog
    Temos novidades para você
  • Materiais
    Confira guias, e-books e webinars
Sobre
Sobre nós
Carreiras
Soluções

Performance & Estratégia

Business & Strategy
Mídia Paga
Otimização SEO

Conteúdo & Criatividade

Inbound Marketing
Social Media
Produção Criativa

Dados & Tecnologia

CRM Marketing
Otimização CRO
Data Intelligence
Cases
Fale com um especialista
Blog

Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity

A luta do ano em 2025 é a da Cloudfare X Perplexity. E isso diz muito sobre o futuro dos agentes de IA. Saiba mais.
Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity
Blog

Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity

A luta do ano em 2025 é a da Cloudfare X Perplexity. E isso diz muito sobre o futuro dos agentes de IA. Saiba mais.
Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity

Navegue pelo conteúdo

Example H2
Example H3
Example H4
Example H5
Example H6

O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.

Na data de redação desse artigo, estamos vivendo uma polêmica seríssima: o Cloudfare está limitando o acesso dos crawlers da Perplexity, alegando que a IA está ignorando seu robots.txt e fazendo acessos “stealth”. 

E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.

A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet. 

De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade. 

Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet. 

Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião. 

Primeiro, o básico: quem são os envolvidos? 

Conhecendo o Cloudfare e a Perplexity 

Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico. 

Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo. 

Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo: 

Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações. 

Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados. 

Para sustentar as respostas, a Perplexity mantém crawlers próprios. A documentação pública descreve o PerplexityBot (indexação/descoberta) e o Perplexity-User (fetch sob demanda iniciado por usuários).

Em poucas palavras e para entender a relevância: 

  • É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
  • Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
  • Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.

Quem é a Cloudflare

A Cloudflare é uma empresa de infraestrutura e segurança web (fundada em 2009; listada na NYSE desde 2019) que opera uma rede global de CDN, DNS, mitigação de DDoS, reverse proxy e serviços “zero trust”. 

Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.

A presença é massiva: estimativas apontam que a Cloudflare protege/serve uma parcela relevante da web, o que a coloca como “camada de trânsito” para tráfego legítimo e bots — inclusive os de IAs.

Veja mais alguns detalhes: 

  • Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
  • Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
  • Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.

De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra. 

Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo: 

Resumo da situação Cloudfare X Perplexity

Em 4 de agosto de 2025, a Cloudflare tornou pública uma acusação: a Perplexity estaria usando “crawlers furtivos”, não declarados, para contornar bloqueios — inclusive regras em robots.txt e filtros de firewall. 

A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada. 

Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity. 

A empresa afirma ter observado mudanças de user-agent para cabeçalhos de navegador comum, rotação de IPs/ASNs fora dos ranges documentados e, em alguns casos, ausência de consulta ao próprio robots.txt. 

A Perplexity nega “crawling massivo”, diz que seu sistema busca páginas sob demanda a partir de ações dos usuários e que parte do tráfego citado foi de um terceiro (BrowserBase), e não dela. 

A documentação pública reforça a distinção entre o PerplexityBot (que a empresa diz respeitar robots.txt) e o agente Perplexity-User, que — por ser fetch iniciado pelo usuário — “geralmente ignora” robots.txt, ponto que acirra a controvérsia.

No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal. 

A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.

Para quem publica, a disputa é menos um veredito e mais um alerta: na era dos agentes, credibilidade depende de políticas claras de acesso e de um repositório estável de ideias — um blog capaz de servir de fonte citável para humanos e máquinas.

Perspectiva da Perplexity

A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real. 

Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A

 tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.

Diante das acusações, a empresa argumenta que parte do tráfego atribuído a ela pode refletir acessos de provedores de automação de navegador ou de usuários reais, criando ruído na identificação. 

A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.

O posicionamento público enfatiza serviço ao usuário, atribuição visível e abertura a padrões mais fortes de identificação de bots, desde que preservem a capacidade de um buscador moderno de consultar a web em tempo real. 

A prioridade declarada é reduzir ambiguidade técnica, melhorar transparência de agentes e manter limites para evitar coleta desnecessária, sem abdicar do princípio de respostas úteis com referências.

Perspectiva da Cloudflare

A Cloudflare se posiciona como camada de proteção e desempenho da web. 

Sob essa ótica, quando sites explicitamente bloqueados por diretivas de não rastreamento têm conteúdo que aparece em respostas de terceiros, configura-se quebra de expectativa e de convenções que sustentam a internet aberta. 

Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.

A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas. 

Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.

O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis. 

A premissa é simples: agentes de busca, IA e monitoramento devem se identificar de forma verificável e respeitar políticas de acesso claras. Isso preserva os direitos dos publishers, reduz falsos positivos e mantém a inovação compatível com a governança da web.

O que isso significa para a internet pós-IA?

Se esse conflito caminhar para um acordo técnico — bots identificados de forma verificável, respeito a robots/llms.txt e auditoria de acesso — a experiência do usuário na web pós-IA melhora em três frentes: confiança, clareza e qualidade. 

As respostas deixam de ser “opiniões do modelo” e passam a vir com bibliografia estável; fica explícito de onde cada afirmação saiu, quando houve busca em tempo real e quais páginas foram consultadas. 

O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.

Há também uma mudança editorial. Com blogs tratados como fonte canônica — endereço perene, autoria, método e histórico de revisões — o mercado publica menos enchimento “para ranquear” e mais tese, dados e bastidores. 

Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA. 

Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.

Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”. 

Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras. 

‍

E aí, o que você achou desse duelo de gigantes? 

A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações. 

Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa. 

E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt. 

Saiba mais no nosso próximo artigo sobre o tema: 

➡️ Entendendo melhor o llms.txt e o rankeamento nas IAs

Escrito por:
André Bonanomi
CRO

O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.

Na data de redação desse artigo, estamos vivendo uma polêmica seríssima: o Cloudfare está limitando o acesso dos crawlers da Perplexity, alegando que a IA está ignorando seu robots.txt e fazendo acessos “stealth”. 

E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.

A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet. 

De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade. 

Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet. 

Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião. 

Primeiro, o básico: quem são os envolvidos? 

Conhecendo o Cloudfare e a Perplexity 

Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico. 

Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo. 

Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo: 

Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações. 

Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados. 

Para sustentar as respostas, a Perplexity mantém crawlers próprios. A documentação pública descreve o PerplexityBot (indexação/descoberta) e o Perplexity-User (fetch sob demanda iniciado por usuários).

Em poucas palavras e para entender a relevância: 

  • É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
  • Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
  • Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.

Quem é a Cloudflare

A Cloudflare é uma empresa de infraestrutura e segurança web (fundada em 2009; listada na NYSE desde 2019) que opera uma rede global de CDN, DNS, mitigação de DDoS, reverse proxy e serviços “zero trust”. 

Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.

A presença é massiva: estimativas apontam que a Cloudflare protege/serve uma parcela relevante da web, o que a coloca como “camada de trânsito” para tráfego legítimo e bots — inclusive os de IAs.

Veja mais alguns detalhes: 

  • Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
  • Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
  • Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.

De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra. 

Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo: 

Resumo da situação Cloudfare X Perplexity

Em 4 de agosto de 2025, a Cloudflare tornou pública uma acusação: a Perplexity estaria usando “crawlers furtivos”, não declarados, para contornar bloqueios — inclusive regras em robots.txt e filtros de firewall. 

A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada. 

Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity. 

A empresa afirma ter observado mudanças de user-agent para cabeçalhos de navegador comum, rotação de IPs/ASNs fora dos ranges documentados e, em alguns casos, ausência de consulta ao próprio robots.txt. 

A Perplexity nega “crawling massivo”, diz que seu sistema busca páginas sob demanda a partir de ações dos usuários e que parte do tráfego citado foi de um terceiro (BrowserBase), e não dela. 

A documentação pública reforça a distinção entre o PerplexityBot (que a empresa diz respeitar robots.txt) e o agente Perplexity-User, que — por ser fetch iniciado pelo usuário — “geralmente ignora” robots.txt, ponto que acirra a controvérsia.

No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal. 

A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.

Para quem publica, a disputa é menos um veredito e mais um alerta: na era dos agentes, credibilidade depende de políticas claras de acesso e de um repositório estável de ideias — um blog capaz de servir de fonte citável para humanos e máquinas.

Perspectiva da Perplexity

A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real. 

Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A

 tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.

Diante das acusações, a empresa argumenta que parte do tráfego atribuído a ela pode refletir acessos de provedores de automação de navegador ou de usuários reais, criando ruído na identificação. 

A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.

O posicionamento público enfatiza serviço ao usuário, atribuição visível e abertura a padrões mais fortes de identificação de bots, desde que preservem a capacidade de um buscador moderno de consultar a web em tempo real. 

A prioridade declarada é reduzir ambiguidade técnica, melhorar transparência de agentes e manter limites para evitar coleta desnecessária, sem abdicar do princípio de respostas úteis com referências.

Perspectiva da Cloudflare

A Cloudflare se posiciona como camada de proteção e desempenho da web. 

Sob essa ótica, quando sites explicitamente bloqueados por diretivas de não rastreamento têm conteúdo que aparece em respostas de terceiros, configura-se quebra de expectativa e de convenções que sustentam a internet aberta. 

Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.

A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas. 

Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.

O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis. 

A premissa é simples: agentes de busca, IA e monitoramento devem se identificar de forma verificável e respeitar políticas de acesso claras. Isso preserva os direitos dos publishers, reduz falsos positivos e mantém a inovação compatível com a governança da web.

O que isso significa para a internet pós-IA?

Se esse conflito caminhar para um acordo técnico — bots identificados de forma verificável, respeito a robots/llms.txt e auditoria de acesso — a experiência do usuário na web pós-IA melhora em três frentes: confiança, clareza e qualidade. 

As respostas deixam de ser “opiniões do modelo” e passam a vir com bibliografia estável; fica explícito de onde cada afirmação saiu, quando houve busca em tempo real e quais páginas foram consultadas. 

O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.

Há também uma mudança editorial. Com blogs tratados como fonte canônica — endereço perene, autoria, método e histórico de revisões — o mercado publica menos enchimento “para ranquear” e mais tese, dados e bastidores. 

Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA. 

Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.

Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”. 

Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras. 

‍

E aí, o que você achou desse duelo de gigantes? 

A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações. 

Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa. 

E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt. 

Saiba mais no nosso próximo artigo sobre o tema: 

➡️ Entendendo melhor o llms.txt e o rankeamento nas IAs

André Bonanomi
André Bonanomi
CRO

Posts recentes

Nosso blog tem conteúdos semanais feitos por especialistas

Ver mais
Como será (e está sendo) o marketing do futuro?
Marketing

Como será (e está sendo) o marketing do futuro?

O marketing do futuro é o resultado das ferramentas de marketing sendo desenvolvidas agora. E como ele será?
Ler mais
Marketing Digital: o guia completo para transformar estratégia em resultado real

Marketing Digital: o guia completo para transformar estratégia em resultado real

Descubra tudo sobre marketing digital: estratégias, canais, cases, ferramentas, métricas e muito mais. Um guia completo com a expertise da Adtail.
Ler mais
Onde produzir conteúdo após o apagão do tráfego orgânico?
Marketing

Onde produzir conteúdo após o apagão do tráfego orgânico?

Onde produzir conteúdo depois do “fim” do SEO? Veja algumas alternativas e sua viabilidade em uma estratégia de marketing.
Ler mais
Ver todos

Torne seu marketing digital mais estratégico

Agende uma conversa e receba o contato da nossa equipe. Temos um time de especialistas em desenvolver soluções e entregar resultados.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
E-mail de contato:
comercial@adtail.ag
HomeSobre nósCarreirasBlogCasesContato
Mídia PagaBusiness & StrategyOtimização SEOInbound MarketingSocial Media
Produção CriativaCRM MarketingOtimização CROData Intelligence
by
©
XXXX
Adtail Serviços de Publicidade Ltda. CNPJ 24.411.984/0001-61. Todos os direitos reservados.
Privacy PolicyTerms of Service