View a markdown version of this page

Questionários de integração da carga de trabalho e ingestão de alarmes em Detecção e Resposta a Incidentes (caminho de exceção) - Guia do usuário do AWS Incident Detection and Response

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Questionários de integração da carga de trabalho e ingestão de alarmes em Detecção e Resposta a Incidentes (caminho de exceção)

nota

Se você não puder usar a CLI do IDR para integrar sua carga de trabalho, use os seguintes questionários para integração de cargas de trabalho e alarmes.

Este tópico fornece os questionários que você precisa preencher ao integrar uma carga de trabalho ao AWS Incident Detection and Response e ao configurar alarmes a serem ingeridos no serviço. O questionário de integração da carga de trabalho abrange informações gerais sobre sua carga de trabalho, detalhes de sua arquitetura e contatos para resposta a incidentes. No questionário de ingestão de alarmes, você especifica os alarmes críticos que acionam a criação de incidentes em Detecção e Resposta a Incidentes para sua carga de trabalho, bem como informações do caderno de execução sobre quem contatar e quais ações tomar. O preenchimento adequado desses questionários é uma etapa fundamental na configuração dos processos de monitoramento e resposta a incidentes para suas AWS cargas de trabalho.

Baixe o questionário de integração da carga de trabalho:

Baixe o questionário de ingestão de alarmes:

Questionário de integração da carga de trabalho - Perguntas gerais

Perguntas gerais
Pergunta Exemplo de resposta
Nome da empresa

Amazon Inc.

Nome dessa carga de trabalho (inclua quaisquer abreviações)

Operações de varejo da Amazon (ARO)

Usuário final primário e a função dessa carga de trabalho.

Essa carga de trabalho é um aplicativo de comércio eletrônico que permite que os usuários finais comprem vários itens. Essa carga de trabalho é o principal gerador de receita para nossos negócios.

Questionário de integração da carga de trabalho - Perguntas sobre arquitetura

Perguntas sobre arquitetura
Pergunta Exemplo de resposta

Uma lista de tags de AWS recursos usadas para definir recursos que fazem parte dessa carga de trabalho. AWS usa essas tags para identificar os recursos dessa carga de trabalho para agilizar o suporte durante incidentes.

nota

As tags diferenciam letras maiúsculas de minúsculas. Se você fornecer várias tags, todos os recursos usados por essa carga de trabalho deverão ter as mesmas tags.

Nome do aplicativo: Optimax

ambiente: Produção

Uma lista de AWS service (Serviço da AWS)(s) utilizados por essa carga de trabalho, os Conta da AWS(s) e Região da AWS(s) em que eles estão.

Serviços da AWS: Rota 53, ALB, ECS,...

Contas: 123456789101, 123456789102,...

Regiões: US-EAST-1, US-WEST-2,...

Questionário de ingestão de alarmes - Visão geral

No questionário de ingestão de alarmes, você especifica os alarmes críticos para sua carga de trabalho que deseja engajar no AWS Incident Detection and Response, bem como os contatos que você deseja que um engenheiro de gerenciamento de incidentes entre em contato quando esses alarmes forem acionados.

O questionário de ingestão de alarmes é dividido nas seguintes seções:

  • Seção de contato: Primeiro, especifique os contatos principais a serem incluídos no Suporte caso criado com o AWS Incident Detection and Response quando um alarme é acionado, bem como seu aplicativo de conferência preferido para pontes de incidentes. Se nenhuma preferência de ponte for fornecida, o AWS Incident Detection and Response criará uma ponte de incidentes durante incidentes. Em seguida, especifique os contatos de escalonamento e os intervalos de tempo para envolvê-los quando os contatos principais estiverem inacessíveis. Por fim, liste todos os contatos que devem receber atualizações regulares do status do incidente por meio do caso de suporte durante o incidente.

  • Matriz de alarmes: liste o conjunto de alarmes que acionarão o AWS Incident Detection and Response quando acionados. Consulte os “Critérios críticos de alarme” definidos pelo AWS Incident Detection and Response ao selecionar alarmes para integração. Para obter mais informações, consulte Definição de alarme.

Questionário de ingestão de alarmes - Perguntas do Runbook

Perguntas do Runbook
Pergunta Exemplo de resposta

AWS envolve os contatos da carga de trabalho por meio do Suporte caso. Quem é o contato principal quando um alarme é acionado para essa carga de trabalho?

Especifique seu aplicativo de conferência preferido e AWS solicitará esses detalhes durante um incidente.

nota

Se um aplicativo de conferência preferencial não for fornecido, AWS entrará em contato durante um incidente e fornecerá uma ponte Chime para você participar.

Equipe de aplicação

app@example.com

+61 2 3456 7890

Se o contato principal não estiver disponível durante um incidente, forneça os contatos de escalonamento e o cronograma na ordem de comunicação preferida.

1. Após 10 minutos, se não houver resposta do contato principal, entre em contato com:

John Smith - Supervisor de aplicativos

john.smith@example.com

+61 2 3456 7890

2. Após 10 minutos, se não houver resposta de John Smith, entre em contato com:

Jane Smith - Gerente de operações

jane.smith@example.com

+61 2 3456 7890

Matriz de alarme

Forneça as seguintes informações para identificar o conjunto de alarmes que envolverá o AWS Incident Detection and Response para criar incidentes em nome da sua carga de trabalho. Depois que os engenheiros da AWS Incident Detection and Response analisarem seus alarmes, etapas adicionais de integração serão fornecidas.

Critérios críticos de detecção e resposta a incidentes da AWS:

  • Os alarmes de detecção e resposta a incidentes da AWS só devem entrar no estado de “Alarme” se houver um impacto comercial significativo na carga de trabalho monitorada (perda da experiência do revenue/degraded cliente) que exija atenção imediata do operador.

  • Os alarmes de detecção e resposta a incidentes da AWS também devem envolver seus resolvedores para a carga de trabalho ao mesmo tempo ou antes do engajamento. AWS Os gerentes de incidentes colaboram com seus solucionadores no processo de mitigação e não atuam como socorristas de primeira linha, que depois recorrem a você.

  • Os limites de alarme de detecção e resposta de incidentes da AWS devem ser definidos com um limite e uma duração apropriados para que, sempre que um alarme for acionado, uma investigação ocorra. Se um alarme estiver se movendo entre o estado “Alarme” e “OK”, um impacto suficiente está ocorrendo para garantir a resposta e a atenção do operador.

Política de detecção e resposta a incidentes da AWS para violações de critérios:

Esses critérios só podem ser avaliados caso a caso, à medida que os eventos ocorrem. A equipe de gerenciamento de incidentes trabalha com seus gerentes técnicos de contas (TAMs) para ajustar os alarmes e, em casos raros, desativar o monitoramento se houver suspeita de que os alarmes do cliente não cumprem esses critérios e esteja contratando a equipe de gerenciamento de incidentes desnecessariamente a uma taxa regular.

Importante

Forneça endereços de e-mail de distribuição em grupo ao fornecer endereços de contato, para que você possa controlar as adições e exclusões de destinatários sem atualizações do runbook.

Forneça o número de telefone de contato da sua equipe de engenharia de confiabilidade do site (SRE) se quiser que a equipe de Detecção e Resposta de Incidentes da AWS ligue para eles depois de enviar um e-mail de engajamento inicial.

Tabela de matriz de alarmes para CloudWatch alarmes

CloudWatch ARN de alarme

Contato principal para este alarme.

(Se for diferente do contato principal da carga de trabalho)

Especifique o mais relevante AWS service (Serviço da AWS) para esse alarme para acionar o engenheiro certo. Insira N/A se não for necessário.

Exemplo:

arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response

Exemplo:

Sam Smith - Gerente de aplicativos

sam.smith@example.com

+61 2 3456 7890

Exemplo:

ECS

Tabela de matriz de alarmes para alarmes de APM de terceiros

EventBridge Ônibus de eventos ARN

(Isso é criado como parte da integração de APM de terceiros para rotear alertas para o AWS Incident Detection and Response.)

Exemplo: (Haverá um ônibus de eventos por Account/Region combinação)

arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

Identificador de alarme

O que essa métrica representa?

Por que esse alarme é importante?

Contato principal para este alarme.

(Se for diferente do contato principal da carga de trabalho)

Especifique o mais relevante AWS service (Serviço da AWS) para esse alarme para acionar o engenheiro certo. Insira N/A se não for necessário.

Exemplo:

ALB_5xX_ Target_Response

ID da conta: 123456789012

Região: us-east-1

Exemplo:

Essa métrica representa as respostas das transações dos alvos por trás do ALB. Se os erros 5XX excederem o limite, isso representará uma falha crítica no processamento de transações comerciais.

Exemplo:

Sam Smith - Gerente de aplicativos

sam.smith@example.com

+61 2 3456 7890

Exemplo:

ECS