Índice do Artigo

A internet parou

Cloudflare explica problema que deixou grande parte da internet fora do ar ontem

Entenda por que um arquivo duplicado travou serviços globais e derrubou metade da internet na última terça (18).

Cloudflare explica problema que deixou grande parte da internet fora do ar ontem
Créditos: Divulgação/Cloudflare

A interrupção global que derrubou sites, apps e serviços inteiros na manhã de 18 de novembro foi causada por um erro em um único arquivo distribuído pela Cloudflare.

A empresa confirmou oficialmente que não se tratou de um ataque e descreveu o ocorrido como um evento “profundamente doloroso” para sua equipe.

O incidente afetou plataformas como X, ChatGPT, Spotify e diversos serviços corporativos ao redor do mundo, tornando páginas indisponíveis ou extremamente lentas por horas.

Divulgação/Cloudflare

O que é a Cloudflare e por que tantas empresas dependem dela?

A Cloudflare opera uma das maiores redes globais dedicadas a acelerar tráfego, distribuir conteúdo e filtrar ameaças digitais em tempo real.

Ela funciona como uma camada entre os servidores de um site e o usuário final, absorvendo picos de acesso, bloqueando atividades maliciosas e reduzindo a latência ao aproximar conteúdo de quem acessa. A infraestrutura cobre centenas de cidades e se integra a provedores, operadoras e serviços corporativos no mundo inteiro.

A presença massiva faz com que a companhia esteja embutida no funcionamento diário de milhares de plataformas, de redes sociais a sistemas bancários.

Inúmeros sites adotam a Cloudflare para lidar com grandes volumes de tráfego sem sobrecarregar seus servidores e para proteger APIs e aplicativos de ataques automatizados, inclusive o Adrenaline.

Estimativas de mercado apontam que a Cloudflare atende aproximadamente 20% de todos os sites ativos da internet, criando uma dependência direta entre sua infraestrutura e o funcionamento diário de plataformas globais

Por isso, quando algo falha nesse ecossistema, a interrupção deixa de ser pontual e atinge cadeias inteiras que dependem desse roteamento global.

Além da rapidez, outro aspecto que explica sua onipresença é o modelo que combina CDN, firewall, mitigação de bots e serviços de DNS em um único fluxo. Ao centralizar essas camadas num ponto único, empresas simplificam suas operações, mas também aumentam a dependência de que essa engrenagem funcione sem desvios.

A pane de 18 de novembro expôs exatamente essa interdependência.

Divulgação/Cloudflare

Como a falha começou e por que parecia um ataque

Pouco depois das 11h20 UTC (8:20 no Brasil), a Cloudflare viu seu tráfego despencar enquanto erros 5xx se espalhavam pela rede.

O comportamento intermitente, com ciclos de aproximadamente cinco minutos entre quedas e breves recuperações, confundiu a equipe técnica. O padrão lembrava um DDoS massivo, principalmente porque até a página de status (hospedada fora da infraestrutura da empresa) caiu por coincidência no mesmo período.

O cenário no momento alimentou a hipótese de que a companhia estava sob ataque coordenado. Dados internos mostravam conexões oscilando entre estados saudáveis e travados, o que reforçava a impressão de que uma força externa submetia o sistema a picos de carga.

No entanto, a causa era muito mais interna e prosaica: mudanças recentes num cluster de banco de dados ClickHouse alteraram permissões e passaram a gerar informações duplicadas ao montar o arquivo de recursos usado pela tecnologia de detecção de bots.

Divulgação/Cloudflare

O arquivo que derrubou quase um terço da internet

O arquivo em questão reúne “features”, parâmetros usados pelo modelo de machine learning que classifica requisições suspeitas. Ele é atualizado automaticamente a cada poucos minutos e distribuído para toda a malha global.

Uma alteração de controle de acesso fez com que o banco de dados duplicasse metadados de tabelas durante a consulta que alimenta o arquivo. O resultado foi que o documento final dobrou de tamanho ao incluir centenas de linhas que não deveriam estar lá.

O software responsável por processá-lo tem um limite rígido de capacidade. Quando o arquivo ultrapassou a quantidade de features suportadas, o módulo de bots entrou em pânico e interrompeu o fluxo de requisições.

Divulgação/Cloudflare

Como o arquivo era regenerado a cada cinco minutos, versões boas e ruins se alternavam enquanto a atualização avançava pelo cluster, criando a oscilação vista no início do incidente.

Em palavras da própria equipe, incluídas no meio da documentação interna do caso, “o padrão enganou parte do time porque a falha se resolvia por conta própria antes de voltar a aparecer, comportamento incomum para um problema de configuração”.

Impacto sobre os serviços e efeito cascata

Com o módulo quebrado, o proxy central da Cloudflare falhou, e qualquer solicitação que dependesse dele começou a retornar erros. Isso afetou:

  • CDN e serviços de segurança
  • Workers KV
  • Cloudflare Access
  • Turnstile
  • Painel de administração

Alguns sistemas não chegaram a travar, mas ficaram inutilizáveis por perda de autenticação, lentidão extrema ou comportamento inconsistente.

O painel, por exemplo, continuou carregando, mas muitos usuários sequer conseguiam efetuar login devido à falha do Turnstile.

A detecção de spam em e-mails também sofreu redução temporária de precisão, e regras baseadas em bot score passaram a apresentar falsos positivos.

Divulgação/Cloudflare

Como a equipe encontrou o problema e restabeleceu a rede

Às 10h05, as equipes iniciaram um desvio interno para aliviar a pressão sobre o Workers KV e o Access, reduzindo parte dos sintomas. A virada veio às 11h24, quando o time identificou definitivamente o arquivo de bots como origem do colapso e interrompeu sua geração automática, substituindo-o por uma versão estável.

Às 11h30, o tráfego global começou a voltar ao normal. A restauração completa, incluindo serviços remanescentes que haviam ficado em estados inconsistentes, terminou às 14h06.

Dane Knecht, executivo da empresa, se pronunciou afirmando que “hoje mais cedo, falhamos com nossos clientes e com a internet em geral. Sabemos o impacto real que isso gerou e vamos fazer o necessário para reconquistar essa confiança”.

O que acontece agora dentro da Cloudflare

A companhia iniciou uma revisão profunda dos processos que permitem que arquivos internos sejam distribuídos globalmente sem validações de segurança mais rígidas. Entre as medidas imediatas estão:

  • Criação de bloqueios globais para impedir a propagação de arquivos defeituosos
  • Revisão dos modos de falha de todos os módulos do proxy
  • Ajustes para que relatórios de erro não consumam recursos a ponto de prejudicar o tráfego
  • Fortalecimento da ingestão de configurações para evitar duplicações silenciosas

Embora a Cloudflare tenha passado por outros incidentes nos últimos anos, a empresa reconheceu que esta foi sua interrupção mais ampla desde 2019.

A falha expôs fragilidades no fluxo de configuração automatizado e reacendeu debates sobre como sistemas distribuídos podem sofrer impactos massivos a partir de erros pequenos.

Leia também:

Quando um arquivo vira um ponto único de colapso

A interrupção de 18 de novembro mostrou como pequenas mudanças em ambientes distribuídos podem criar falhas globais mesmo em estruturas desenhadas para absorver problemas localizados.

A velocidade com que um arquivo defeituoso se propagou dá dimensão de como a internet moderna depende de automatizações em tempo real — e de como qualquer descuido nesses processos pode escalar rapidamente.

Será que não estamos dependentes demais de um oligopólio em que poucas empresas conseguem afetar tantos serviços ao mesmo tempo?

Fonte: Cloudflare

Participe do grupo de ofertas do Adrenaline

Participe do grupo de ofertas do Adrenaline

Confira as principais ofertas de hardware, componentes e outros eletrônicos que encontramos pela internet. Placa de vídeo, placa-mãe, memória RAM e tudo que você precisa para montar o seu PC. Ao participar do nosso grupo, você recebe promoções diariamente e tem acesso antecipado a cupons de desconto.

Entre no grupo e aproveite as promoções