View a markdown version of this page

事件检测及响应服务中的工作负载接入问卷和警报摄取问卷(异常路径) - AWS 事件检测及响应服务用户指南

事件检测及响应服务中的工作负载接入问卷和警报摄取问卷(异常路径)

注意

如果您无法使用 IDR CLI 来加入工作负载,请使用以下问卷来处理工作负载和警报加入。

本主题提供了在将工作负载加入 AWS 事件检测及响应服务以及配置要摄取到该服务的警报时需要填写的问卷。工作负载加入问卷涵盖有关您工作负载、其架构详细信息以及事件响应联系人的一般信息。在警报摄取问卷中,您需要为您的工作负载指定会触发在事件检测及响应服务中创建事件的关键警报,并指定运行手册信息,说明要联系哪些人以及要采取哪些措施。正确填写这些问卷是为您的 AWS 工作负载设置监控和事件响应流程的关键步骤。

下载工作负载接入问卷:

下载警报摄取问卷:

工作负载加入问卷 - 一般问题

一般问题
问题 响应示例
企业名称

Amazon Inc.

此工作负载的名称(含任何缩写)

Amazon Retail Operations(ARO)

此工作负载的主要最终用户和功能。

此工作负载是一个电子商务应用程序,最终用户可通过它购买各种物品。此工作负载是我们业务的主要收入来源。

工作负载加入问卷 - 架构问题

架构问题
问题 响应示例

AWS 资源标签列表,用于定义属于此工作负载的资源。AWS 将使用这些标签来标识此工作负载的资源,以便在事件发生期间迅速为您提供支持。

注意

标签区分大小写。如果您提供多个标签,则此工作负载使用的所有资源都必须具有相同的标签。

应用程序名称:Optimax

环境:生产

此工作负载使用的 AWS 服务的列表,以及它们所在的 AWS 账户和 AWS 区域。

AWS 服务:Route 53、ALB、ECS、...

账户:123456789101、123456789102、...

区域:US-EAST-1、US-WEST-2、...

警报摄取问卷 - 概述

在警报摄取问卷中,您需要为您的工作负载指定要参与 AWS 事件检测及响应服务的关键警报,以及您希望事件管理工程师在这些警报触发时进行联系的联系人。

警报摄取问卷分为以下几个部分:

  • 联系人部分:首先,请指定警报触发时,要包含在 AWS 事件检测及响应服务所创建的 支持 案例中的主要联系人,以及您首选的事件沟通会议应用程序。如果未提供沟通会议首选项,AWS 事件检测及响应服务将在事件期间创建事件沟通会议。接下来,指定上报联系人以及在无法联系到主要联系人时与他们联系的时间间隔。最后,列出在事件期间应通过支持案例接收定期事件状态更新的任何联系人。

  • 警报矩阵:列出一组警报,这些警报在触发时将联系 AWS 事件检测及响应服务。在选择警报以便接入时,请参阅 AWS 事件检测及响应服务定义的“关键警报标准”。有关更多信息,请参阅 警报定义

警报摄取问卷 - 运行手册问题

运行手册问题
问题 响应示例

AWS 通过 支持 案例与工作负载联系人联系。当针对此工作负载触发警报时,谁是主要联系人?

指定您的首选会议应用程序,AWS 将在事件发生期间要求提供这些详细信息。

注意

如果未提供首选的会议应用程序,则 AWS 会在事件发生期间与您联系,并提供 Chime 桥供您加入。

应用程序团队

app@example.com

+61 2 3456 7890

如果事件发生期间联系不到主要联系人,请按首选的通信顺序提供上报联系人和时间表。

1. 10 分钟后,如果主要联系人没有回复,请联系:

John Smith - 应用程序主管

john.smith@example.com

+61 2 3456 7890

2. 10 分钟后,如果 John Smith 没有回复,请联系:

Jane Smith - 运维经理

jane.smith@example.com

+61 2 3456 7890

警报矩阵

提供以下信息以确定一组警报,这些警报将触发 AWS 事件检测及响应服务代表您的工作负载创建事件。AWS 事件检测及响应服务的工程师查看您的警报后,将提供额外的加入步骤。

AWS 事件检测及响应服务关键警报标准

  • AWS 事件检测及响应服务警报应仅在受监控的工作负载遭受重大业务影响(收入损失/客户体验降级)且需要运维人员立即给予关注时才会进入“警报”状态。

  • AWS 事件检测及响应服务警报还必须在联系的同时或联系之前与您工作负载的事件解决人员联系。AWS事件经理将会在风险缓解流程中与您的事件解决人员协作,而非充当第一响应者然后再上报给您。

  • AWS 事件检测及响应服务警报阈值必须设置为适当的阈值和持续时间,以便每当警报触发时,都会介入调查。如果警报介于“警报”和“正常”状态之间,会产生足够的影响以确保得到运维人员的响应和关注。

AWS 事件检测及响应服务标准违规策略

只有当发生事件时,才能根据具体案例评估这些标准。事件管理团队会与您的技术客户经理(TAM)协作来调整警报,并且在极少数情况下,如果怀疑客户警报不符合此标准,且不必要地定期与事件管理团队联系,则会禁用监控。

重要

在提供联系人地址时提供群组分发电子邮件地址,这样您就可以控制收件人的添加和删除而无需更新运行手册。

如果您希望 AWS 事件检测及响应服务团队在发送初始互动电子邮件后给您的站点可靠性工程(SRE)团队打电话,请提供他们的联系电话。

CloudWatch 警报的警报矩阵表

CloudWatch 警报 ARN

此警报的主要联系人。

(如果与工作负载主要联系人不同)

指定该警报最相关的 AWS 服务,以联系合适的工程师。如果不需要,请输入 N/A。

示例:

arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response

示例:

Sam Smith - 应用程序管理员

sam.smith@example.com

+61 2 3456 7890

示例:

ECS

第三方 APM 警报的警报矩阵表

EventBridge 事件总线 ARN

(这是作为第三方 APM 集成的一部分创建的,用于将警报发送到 AWS 事件检测及响应服务。)

示例:(每个账户/区域组合将有一个事件总线)

arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

警报标识符

这个指标表示什么?

为什么此警报很重要?

此警报的主要联系人。

(如果与工作负载主要联系人不同)

指定该警报最相关的 AWS 服务,以联系合适的工程师。如果不需要,请输入 N/A。

示例:

ALB_5xx_Target_Response

账户 ID:123456789012

区域:us-east-1

示例:

该指标表示来自 ALB 背后的目标的事务响应。如果 5XX 错误数超过阈值,则表示发生严重故障,而无法处理业务事务。

示例:

Sam Smith - 应用程序管理员

sam.smith@example.com

+61 2 3456 7890

示例:

ECS