No dia 18/12/2013 tivemos um incidente crítico em nossa infraestrutura, que causou a indisponibilidade do ERP Bluesoft por 8 horas para todos os clientes.

O problema teve início às 04:33 (horário de Brasília) e estendeu-se até às 12:32.

downtime

Durante a tarde ainda houve lentidão no acesso, voltando ao estado normal por volta das 17:00.

Sabemos o quão grave é esta “parada” em nossos serviços e pedimos sinceras desculpas pelo acontecimento.

Segue abaixo uma explicação técnica dos fatos e nosso plano de ação.

 

Falha do datacenter da Amazon Web Services em São Paulo

A maior parte de nossos servidores está localizada nos datacenters da empresa Amazon Web Services na região de São Paulo (sa-east).

aws_regions

A empresa ainda não se pronunciou oficialmente, mas informa em sua página de status que teve problemas de conectividade dentro de seus datacenters, afetando dezenas de clientes no Brasil.

Nossos bancos de dados estavam preparados para uma falha desse tipo pois trabalham com o serviço RDS Multi-AZ, que mantém os dados sincronizados em pelo menos 2 locais. Sendo assim, não houve perda de nenhum dado.

A indisponibilidade do ERP ocorreu pois nossos servidores de aplicação encontravam-se exatamente no datacenter que foi afetado e não havia uma política de redundância para estas máquinas.

 

Plano de ação

Para evitar que situações como essas afetem-nos novamente no futuro, modificaremos detalhes importantes em nossa infraestrutura ao longo das próximas semanas, sem que os usuários percebam lentidão ou falha nos serviços.

Utilizaremos serviços como Route 53 (DNS), Elastic Load Balancer (balanceamento de carga e distribuição entre datacenters) e Cloud Front (armazenamento e distribuição de arquivos estáticos). Segue abaixo um diagrama do modelo de arquitetura:

arquitetura

 

Referências

http://crn.itweb.com.br/48065/nuvem-aws-chove-no-brasil-da-para-vender-guarda-chuva

http://computerworld.uol.com.br/tecnologia/2013/12/18/nuvem-da-amazon-web-services-tem-problema-de-conectividade-em-sp

http://aws.amazon.com/pt/disaster-recovery/

http://media.amazonwebservices.com/pt/DataSheet_Architecture/RefArch_FaultToleranceHighAvailability_5Ar.pdf