As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Teste cargas de trabalho integradas em Detecção e Resposta a Incidentes
Depois de Ingestão de alarmes concluído, o AWS Incident Detection and Response habilita a monitorar sua carga de trabalho e envia uma Go-Live confirmação. Sua carga de trabalho é monitorada ativamente a partir de agora.
O teste de alarme valida que seus alarmes integrados ativam o AWS Incident Detection and Response conforme o esperado, acionam os runbooks apropriados e quaisquer outras ações desejadas, como a criação automática de casos, caso você a tenha selecionado durante a ingestão do alarme.
O teste é opcional, mas altamente recomendado. Você é responsável por validar seus arranjos de resposta antes que ocorra um incidente real.
Opções de teste
O AWS Incident Detection and Response oferece duas opções de teste.
Opção 1: Programado GameDay (recomendado)
Um agendado GameDay é uma simulação ao vivo de ponta a ponta do que pode acontecer durante um incidente real. O AWS Incident Detection and Response segue as etapas prescritas pelo runbook para fornecer uma visão de como um incidente real pode se desenrolar. GameDay É uma oportunidade para você fazer perguntas ou refinar instruções para melhorar o engajamento.
Para agendar um GameDay, conclua as seguintes etapas:
-
Notifique o AWS Incident Detection and Response com uma data preferida e uma janela horária de 1 hora, incluindo fuso horário. Forneça pelo menos 48 horas de prazo de entrega.
-
Planeje recursos para o GameDay, incluindo sua SRE/Ops equipe e contatos de escalonamento.
GameDay cronograma:
-
Você e o AWS Incident Detection and Response participam da chamada.
-
Você desativa as ações de alarme, se aplicável.
-
Você configura manualmente seus alarmes para o estado ALARME usando as instruções emComo testar seus alarmes.
-
O AWS Incident Detection and Response confirma o recebimento da notificação de alarme.
-
O AWS Incident Detection and Response responde ao alarme e se junta à ponte prescrita em seu runbook.
-
Você e o AWS Incident Detection and Response confirmam o GameDay resultado.
Opção 2: teste de alarme off-line
Você pode testar seus alarmes de forma independente a qualquer momento, sem agendar uma chamada. O acionamento de um alarme ativa o AWS Incident Detection and Response de acordo com seu runbook, da mesma forma que faria durante um incidente real.
Para realizar o teste de alarme off-line, conclua as seguintes etapas:
-
Para evitar ações não intencionais, desative todas as ações de CloudWatch alarme da Amazon.
-
Acione seus alarmes usando as instruções emComo testar seus alarmes.
-
Em 5 minutos, um caso de suporte é criado em seu nome e o AWS Incident Detection and Response envolve com você conforme especificado em seu runbook.
-
Notifique o Incident Manager de que você está realizando testes de alarme off-line.
-
O gerente de incidentes confirma quais mudanças no estado do alarme foram recebidas e valida os arranjos de resposta.
Se um caso de suporte não for criado em 5 minutos, envie uma solicitação de incidente para contratar manualmente o AWS Incident Detection and Response para solucionar problemas.
Como testar seus alarmes
CloudWatch Alarmes da Amazon
nota
O AWS Identity and Access Management usuário ou a função que você usa para o teste de alarme deve ter cloudwatch:SetAlarmState permissão.
Use o AWS Command Line Interface ou AWS CloudShellpara definir manualmente o alarme para o estado ALARME. Esses comandos alteram o estado do alarme sem afetar sua carga de trabalho.
Para evitar ações não intencionais, por exemplo, reinicializações de instâncias do Amazon EC2, desative CloudWatch todas as ações de alarme antes de alterar o estado do alarme. Você pode reativar as ações CloudWatch de alarme após a conclusão do teste. Para saber mais sobre como desativar ou ativar ações de alarme, consulte DisableAlarmActionse EnableAlarmActionsna Amazon CloudWatch API Reference.
Desative as ações de alarme:
aws cloudwatch disable-alarm-actions --alarm-names "ExampleAlarm" --regionus-east-1
Defina o estado do alarme para ALARM:
aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --regionus-east-1
Re-enable ações de alarme após o teste:
aws cloudwatch enable-alarm-actions --alarm-names "ExampleAlarm" --regionus-east-1
O estado do alarme é revertido para OK automaticamente em alguns segundos.
Alarmes compostos
O set-alarm-state comando não garante que os alarmes compostos voltem ao estado OK. Como prática recomendada, verifique o estado dos alarmes compostos após o teste. Para redefinir manualmente um alarme composto, use o seguinte comando:
aws cloudwatch set-alarm-state --alarm-name "ExampleCompositeAlarm" --state-value OK --state-reason "Testing AWS Incident Detection and Response" --regionus-east-1
Para saber mais sobre como alterar manualmente o estado dos CloudWatch alarmes, consulte SetAlarmStatea Amazon CloudWatch API Reference.
Para saber mais sobre as permissões necessárias para operações de CloudWatch API, consulte a referência de CloudWatch permissões da Amazon.
Third-party Alarmes APM
As cargas de trabalho que usam uma ferramenta de monitoramento de desempenho de aplicativos (APM) de terceiros, como Datadog, Splunk, New Relic ou Dynatrace, exigem instruções diferentes para simular um alarme.
-
Desative as ações de alarme em seu APM para evitar ações não intencionais.
-
Modifique seu limite de alarme ou operador de comparação para forçar o alarme a entrar no status ALARM. Isso aciona uma carga para o AWS Incident Detection and Response.
-
Após a conclusão do teste, reverta o limite ou as alterações do operador de comparação para restaurar o status OK do alarme.
Principais resultados
Após o teste bem-sucedido:
A ingestão de alarmes foi confirmada e sua configuração de alarme está correta.
Os alarmes são recebidos pelo AWS Incident Detection and Response.
Um caso de suporte é criado e seus contatos prescritos são notificados.
O AWS Incident Detection and Response envolve você de acordo com os meios de conferência prescritos.
Todos os alarmes e casos de suporte gerados durante o teste são resolvidos.
Perguntas frequentes
- O teste de alarme é obrigatório?
-
Não. O teste é opcional, mas é altamente recomendável para validar seus arranjos de resposta de ponta a ponta antes que ocorra um incidente real.
- Minha carga de trabalho será afetada?
-
Não. No entanto, durante o teste, todas as ações de alarme configuradas em seus alarmes são acionadas, a menos que você as desative. Desative as ações de alarme antes do teste para evitar impactos não intencionais.
- Quem é notificado durante o teste?
-
Durante um agendamento GameDay, todos os contatos e caminhos de escalonamento em seu runbook são contatados para verificação. Durante o teste de alarme off-line, somente o contato inicial especificado durante a integração do alarme é notificado.
- Posso responder por e-mail às atualizações do caso?
-
Não. Cópias por e-mail das correspondências do Suporte caso são enviadas de um endereço sem resposta. Para atualizar um caso, use AWS Support Center Console
o. - Como faço para solicitar um GameDay after go-live?
-
Responda ao seu caso de suporte de integração existente, se ele existir, ou crie umSolicite alterações em uma carga de trabalho integrada na Detecção e Resposta a Incidentes.