View a markdown version of this page

Cuestionarios de incorporación de cargas de trabajo e ingesta de alarmas en Incident Detection and Response (ruta de excepciones) - Guía del usuario de detección y respuesta a incidentes de AWS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cuestionarios de incorporación de cargas de trabajo e ingesta de alarmas en Incident Detection and Response (ruta de excepciones)

nota

Si no puede usar la CLI de IDR para incorporar su carga de trabajo, utilice los siguientes cuestionarios para la incorporación de cargas de trabajo y alarmas.

En este tema se proporcionan los cuestionarios que debe completar al incorporar una carga de trabajo a AWS Incident Detection and Response y al configurar las alarmas para incorporarlas al servicio. El cuestionario de incorporación de la carga de trabajo incluye información general sobre la carga de trabajo, los detalles de su arquitectura y los contactos necesarios para responder a los incidentes. En el cuestionario de ingesta de alarmas, debe especificar las alarmas críticas que desencadenan la creación de incidentes en Incident Detection and Response para su carga de trabajo, así como información resumida sobre con quién contactar y qué medidas tomar. Completar correctamente estos cuestionarios es un paso clave a la hora de configurar los procesos de supervisión y respuesta a incidentes para sus cargas de trabajo. AWS

Descargue el cuestionario de incorporación de la carga de trabajo:

Descargue el cuestionario de ingestión de alarmas:

Cuestionario sobre la incorporación de la carga de trabajo: preguntas generales

Preguntas generales
Pregunta Respuesta de ejemplo
Nombre de la empresa

Amazon Inc.

Nombre de esta carga de trabajo (incluya cualquier abreviatura)

Amazon Retail Operations (ARO)

El usuario final principal y la función de esta carga de trabajo.

Esta carga de trabajo es una aplicación de comercio electrónico que permite a los usuarios finales comprar varios artículos. Esta carga de trabajo es el principal generador de ingresos para nuestro negocio.

Cuestionario de incorporación de la carga de trabajo: preguntas sobre arquitectura

Preguntas sobre arquitectura
Pregunta Respuesta de ejemplo

Una lista de etiquetas de AWS recursos que se utilizan para definir los recursos que forman parte de esta carga de trabajo. AWS utiliza estas etiquetas para identificar los recursos de esta carga de trabajo a fin de agilizar el soporte durante los incidentes.

nota

Las etiquetas distinguen entre mayúsculas y minúsculas. Si proporciona varias etiquetas, todos los recursos utilizados por esta carga de trabajo deben tener las mismas etiquetas.

Nombre de la aplicación: Optimax

entorno: Producción

Una lista de Servicio de AWS los elementos utilizados por esta carga de trabajo, los Cuenta de AWS elementos y Región de AWS los componentes en los que se encuentran.

Servicios de AWS: Route 53, ALB, ECS,...

Cuentas: 123456789101, 123456789102,...

US-EAST-1Regiones: US-WEST-2,,...

Cuestionario de ingestión de alarmas: descripción general

En el cuestionario de ingesta de alarmas, usted especifica las alarmas críticas para su carga de trabajo que desea activar con AWS Incident Detection and Response, así como los contactos que desea que un ingeniero de gestión de incidentes active cuando se activen estas alarmas.

El cuestionario de ingesta de alarmas se divide en las siguientes secciones:

  • Sección de contactos: en primer lugar, especifique los contactos principales que se incluirán en el Soporte caso creado con AWS Incident Detection and Response cuando se active una alarma, así como la aplicación de conferencias que prefiera para los puentes de incidentes. Si no se proporciona ninguna preferencia de puente, AWS Incident Detection and Response creará un puente de incidentes durante los incidentes. A continuación, especifique los contactos de escalamiento y los intervalos de tiempo para contactarlos cuando no se pueda contactar con los contactos principales. Por último, enumere los contactos que deberían recibir actualizaciones periódicas sobre el estado del incidente a través del servicio de asistencia durante el incidente.

  • Matriz de alarmas: enumere el conjunto de alarmas que activarán AWS Incident Detection and Response cuando se activen. Consulte los «Criterios de alarma críticos» definidos por AWS Incident Detection and Response al seleccionar las alarmas para la incorporación. Para obtener más información, consulte Definición de alarma.

Cuestionario sobre la ingesta de alarmas: preguntas del manual

Preguntas del manual
Pregunta Respuesta de ejemplo

AWS involucra a los contactos relacionados con la carga de trabajo a lo largo del caso Soporte . ¿Quién es el contacto principal cuando se activa una alarma relacionada con esta carga de trabajo?

Especifique su aplicación de conferencias preferida y AWS solicitará estos detalles durante un incidente.

nota

Si no se proporciona una aplicación de conferencias preferida, nos pondremos en contacto contigo durante un incidente y te AWS proporcionaremos un Chime Bridge al que puedas unirte.

Equipo de aplicaciones

app@example.com

+61 2 3456 7890

Si el contacto principal no está disponible durante un incidente, indique los contactos de escalamiento y el cronograma en el orden de comunicación preferido.

1. Transcurridos 10 minutos, si el contacto principal no responde, interactúa con:

John Smith: supervisor de aplicaciones

john.smith@example.com

+61 2 3456 7890

2. Transcurridos 10 minutos, si John Smith no responde, póngase en contacto con:

Jane Smith, gerente de operaciones

jane.smith@example.com

+61 2 3456 7890

Matriz de alarmas

Proporcione la siguiente información para identificar el conjunto de alarmas que activarán AWS Incident Detection and Response para crear incidentes en nombre de su carga de trabajo. Una vez que los ingenieros de AWS Incident Detection and Response hayan revisado sus alarmas, se darán los pasos de incorporación adicionales.

Criterios de alarma crítica de detección y respuesta a incidentes de AWS:

  • Las alarmas de detección y respuesta a incidentes de AWS solo deben pasar al estado de «alarma» si el negocio tiene un impacto significativo en la carga de trabajo monitoreada (pérdida de experiencia del revenue/degraded cliente) que requiera la atención inmediata del operador.

  • Las alarmas de detección y respuesta a incidentes de AWS también deben involucrar a los responsables de la carga de trabajo al mismo tiempo o antes de la activación. AWS Los gestores de incidentes colaboran con los responsables de la resolución en el proceso de mitigación y no actúan como agentes de primera línea que, a su vez, se ponen en contacto con usted.

  • Los umbrales de alarma de detección y respuesta a incidentes de AWS se deben establecer con un umbral y una duración adecuados, de modo que cada vez que se active una alarma se lleve a cabo una investigación. Si una alarma se mueve entre los estados «Alarma» y «OK», se está produciendo un impacto suficiente como para justificar la respuesta y la atención del operario.

Política de detección y respuesta a incidentes de AWS en caso de incumplimiento de los criterios:

Estos criterios solo se pueden evaluar caso por caso a medida que se producen los eventos. El equipo de gestión de incidentes trabaja con sus gestores técnicos de cuentas (TAM) para ajustar las alarmas y, en raras ocasiones, inhabilitar la supervisión si se sospecha que las alarmas de los clientes no cumplen con este criterio y está interactuando con el equipo de gestión de incidentes de forma innecesaria y periódica.

importante

Proporcione direcciones de correo electrónico de distribución grupal al proporcionar las direcciones de contacto, de modo que pueda controlar las adiciones y eliminaciones de destinatarios sin necesidad de actualizar el manual.

Indique el número de teléfono de contacto del equipo de ingeniería de confiabilidad (SRE) de su sitio si desea que el equipo de detección y respuesta a incidentes de AWS lo llame después de enviar un correo electrónico de contacto inicial.

Tabla matricial de CloudWatch alarmas para alarmas

CloudWatch ARN de alarma

Contacto principal para esta alarma.

(Si es diferente del contacto principal de la carga de trabajo)

Especifique la más relevante Servicio de AWS para que esta alarma se active con el ingeniero adecuado. Introduzca N/A si no es necesario.

Ejemplo:

arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response

Ejemplo:

Sam Smith, administrador de aplicaciones

sam.smith@example.com

+61 2 3456 7890

Ejemplo:

ECS

Tabla matricial de alarmas para alarmas APM de terceros

EventBridge Autobús de eventos (ARN)

(Esto se creó como parte de la integración de APM de terceros para enrutar las alertas a AWS Incident Detection and Response).

Ejemplo: (Habrá un autobús de eventos por cada Account/Region combinación)

arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

Identificador de alarma

¿Qué representa esta métrica?

¿Por qué es importante esta alarma?

Contacto principal para esta alarma.

(Si es diferente del contacto principal de la carga de trabajo)

Especifique la más relevante Servicio de AWS para que esta alarma se active con el ingeniero adecuado. Introduzca N/A si no es necesario.

Ejemplo:

ALB_5xx_ Target_Response

ID de cuenta: 123456789012

Región: us-east-1

Ejemplo:

Esta métrica representa las respuestas a las transacciones de los objetivos detrás del ALB. Si 5XX errores superan el umbral, se trata de un fallo grave en el procesamiento de las transacciones comerciales.

Ejemplo:

Sam Smith, administrador de aplicaciones

sam.smith@example.com

+61 2 3456 7890

Ejemplo:

ECS