Amazon pede desculpas e explica falha que derrubou AWS

A Amazon concluiu suas investigações sobre o incidente acontecido com o Amazon Web Services (AWS) nessa terça-feira e pediu desculpas pela queda dos serviços que provocou instabilidade na internet.

De acordo com a empresa, um simples erro de digitação durante a manutenção de um sistema provocou uma cascata de falhas, mas seus engenheiros estão implementando mecanismos para evitar problemas similares.

“Nós gostaríamos de nos desculpar pelo impacto que esse evento causou para nossos consumidores”, diz o comunicado da Amazon. E acrescenta: “enquanto nós estamos orgulhosos de nosso longo registro de disponibilidade com o Amazon S3, nós sabemos o quão crítico esse serviço é para nossos clientes, suas aplicações e usuários finais, e seus negócios. Nós iremos fazer tudo que nós pudermos para aprender com esse evento e utilizá-lo para aperfeiçoar nossa disponibilidade ainda mais”.

O problema aconteceu em meio a um debug de uma falha no sistema de cobrança do AWS que fazia com que ele fosse executado de forma mais lenta do que deveria. Seguindo o manual de procedimentos internos, um engenheiro autorizado do time de manutenção do AWS deveria desabilitar um pequeno número dos subservidores utilizados no processo de cobrança para testes.

“Infelizmente, um dos inputs para o comando foi inserido incorretamente e um número muito maior de servidores foi removido”, explica o comunicado. “Os servidores que foram desabilitados inadvertidamente davam suporte a dois outros subsistemas do S3”. Foi o gatilho para uma sucessão de quedas. Até o sistema que monitorava o status de funcionamento de diversos serviços foi afetado, comunicando aos usuários que tudo estava bem, quando, claramente, os serviços tinham caído, porque dependia dos servidores afetados.

Queremos saber sua opinião