O dia em que a Amazon derrubou a internet

Enquanto o brasileiro médio pulava Carnaval pelas ruas do país, os engenheiros da Amazon pularam nos datacenters para corrigir um problema que derrubou diversos sites e serviços na web nessa terça-feira.

Uma falha no serviço de armazenamento de documentos S3 da Amazon Web Services afetou inúmeros sites conhecidos do dia a dia dos usuários, como o Slack, o IFTTT, Imgur, Quora, Adobe e outros.

A natureza da falha não foi esclarecida até o momento, mas, de acordo com os comunicados da Amazon, começou por volta das 16:45 (convertido para o Horário de Brasília) e se estendeu por mais de duas horas, até as 19:08. Entretanto, alguns sites e serviços que dependiam da plataforma de nuvem da empresa demoraram mais tempo para voltarem ao seu estado normal de funcionamento. A princípio estão descartados falha mecânica nos servidores e ataques de hackers e algumas fontes alegam um problema na atualização de um software interno.

O serviço de armazenamento de documentos S3 é um dos mais antigos produtos de nuvem oferecidos pela Amazon, tendo sido lançado em 2006. Sua comprovada estabilidade até ontem o tornou uma escolha quase obrigatória para muitas empresas que preferem terceirizar o armazenamento de recursos na nuvem: segundo a própria página do S3, a Amazon garante uma confiabilidade de “99.999999999%”. No último dia de Fevereiro, aconteceu o 0.00000001% que ninguém queria.

Mas o impacto da queda do S3 vai além do armazenamento de arquivos. Dave Bartoletti, especialista em nuvem da consultoria Forrester, explicou que o incidente é “significativo, porque o S3 é um serviço essencial para o AWS. Virtualmente todo mundo que utiliza o AWS usa o S3”. Em outras palavras, a própria Amazon dependia da estabilidade do S3 para operar sua carteira de produtos baseados em nuvem, de processamento a bancos de dados, além de serviços web, amplamente usados por outras empresas.

Para Lydia Leong, analista de computação na nuvem da consultoria Gartner, “esse é o problema com tencologia: algo sempre dá errado. Ela minimizou o impacto do incidente na avaliação do S3 para os clientes, que tenderiam a ver essas raríssimas interrupções como “parte do risco operacional normal”. De acordo com a analista, mesmo empresas rivais como Google e Microsoft, que também oferecem serviços de nuvem, não estão livres de passar por situações semelhantes.

Queremos saber sua opinião