Ambiente produtivo indisponível
Incident Report for IUGU
Postmortem

📢 Olá cliente,

Esperamos que esteja bem. No dia 30 de Março de 2024, enfrentamos um incidente que afetou significativamente a operação da plataforma Iugu. Gostaríamos de fornecer uma descrição detalhada do ocorrido e das medidas tomadas para mitigar futuros problemas similares.

Resumo do Incidente:

  • 03h20m: Recebemos um alarme indicando degradação de performance no serviço PIX.
  • 03h40m: Identificamos a presença de um Deadlock em nosso banco de dados principal em uma tabela muito importante.

Neste ponto, reconhecemos a seriedade do problema. Descobrimos que uma tabela crítica, responsável pelo armazenamento de informações de transações financeiras, havia atingido o limite máximo em uma de suas colunas, que registra identificadores de transação.

  • 04h00m: Iniciamos a manobra de dados na tentativa de reduzir o período de impacto.

Dada a importância e complexidade da tabela, a resolução do problema exigiu cuidado meticuloso. Criamos uma nova tabela, a particionamos e ajustamos o tipo de campo necessário.

  • 15h00m: Conseguimos finalizar a manobra e liberar todo o sistema para operação.

Medidas Preventivas:

  • Implementação de rotinas mais agressivas de limpeza de dados em tabelas com alta atividade.
  • Particionamento de tabelas críticas para distribuir a carga e minimizar futuros impactos.

Essas ações são parte de nossos esforços contínuos para assegurar que problemas similares não voltem a ocorrer.

Lamentamos profundamente qualquer inconveniência causada. Reiteramos nosso compromisso constante em aprimorar a qualidade e disponibilidade de nossos serviços.

Estamos à disposição para quaisquer esclarecimentos adicionais que possam ser necessários.

Atenciosamente,

Posted Apr 04, 2024 - 15:06 GMT-03:00

Resolved
O incidente foi resolvido com sucesso e todas as operações afetadas foram restauradas para funcionamento normal. No entanto, estamos mantendo vigilância contínua para garantir que não ocorram recorrências do problema e para mitigar quaisquer impactos residuais que possam surgir.
Posted Mar 30, 2024 - 15:22 GMT-03:00
Update
Pedimos desculpas pela inconveniência causada pela interrupção anterior. Identificamos a necessidade de realizar um procedimento adicional para garantir a estabilidade e integridade de nossos sistemas. Este procedimento adicional exigirá mais tempo do que o inicialmente previsto. Antecipamos que serão necessárias mais 5 horas para completar todas as etapas com segurança. Lamentamos profundamente qualquer impacto que isso possa causar em suas operações e agradecemos sua compreensão enquanto trabalhamos para resolver completamente essa situação. Estamos comprometidos em restaurar completamente nossos serviços o mais rápido possível.
Posted Mar 30, 2024 - 10:53 GMT-03:00
Monitoring
Identificamos uma falha nos nossos bancos de dados e já estamos trabalhando para restabelecer os serviços.

Previsão de uma hora.
Posted Mar 30, 2024 - 09:17 GMT-03:00
This incident affected: Ambiente de Testes (Teste de Cartão de Crédito), Core Services (API, Alia (APP), Faturas, Gatilhos (Webhook), Renovação de Assinaturas/Régua de Cobrança, Authentication), and Serviços Financeiros (Boletos, Cartão de Crédito, Pix, Saque / TED de saída, Antecipação de Recebíveis).