

# 创建运行手册和响应计划来应对事件检测及响应服务中的事件
<a name="idr-workloads-dev-runbook"></a>

AWS 事件检测及响应服务会依据您在 IDR CLI 加入过程中捕获的信息来创建运行手册，以便管理对工作负载造成影响的事件。运行手册记录了事件经理在应对事件时采取的步骤。响应计划会至少映射到您的一个工作负载。事件管理团队会根据您在[工作负载接入](getting-started-idr.md#workload-onboarding)期间提供的信息创建这些模板。

**主要输出：**
+ 完成您工作负载在 AWS 事件检测及响应服务中的定义。
+ 完成 AWS 事件检测及响应服务中的警报和运行手册。

您也可以下载 AWS 事件检测及响应服务运行手册示例：[aws-idr-runbook-example.zip](samples/aws-idr-runbook-example.zip)。

## 示例运行手册
<a name="idr-workloads-runbook-example"></a>

**Example 示例运行手册**  
**说明**  
本文档适用于 [CustomerName] - [WorkloadName]。
**步骤：优先级**  
** Priority 操作**

1. 向买家发送有关 支持 案例的第一封信函，如下所示。

```
Hello,

This is <<Engineer's name>> from AWS Incident Detection and Response. An alarm has triggered for your workload <<Application_Name>>. I am currently investigating and will update you in a few minutes once I have finished initial investigation.

Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
```
**步骤：信息**  
**互动计划**
本节介绍适用于本运行手册的互动计划，仅包含联系详细信息。互动计划将在分步**沟通计划**中进行引用。  
+ **初始互动**

  AWS 事件检测及响应服务团队向 支持 案例中添加了以下客户利益相关者地址。AWS 利益相关者是指可能需要让他们意识到任何问题的其它利益相关者。
  + *客户利益相关者*：customeremail1；customeremail2；mobile1
  + *AWS 利益相关者*：aws-idr-oncall@amazon.com；tam-team-email；等等
  + *仅限一次性联系人*：这些是仅包含在第一次沟通中的电子邮件联系人。在第一次沟通结束后，移除这些联系人。这些可能是客户的寻呼电子邮件地址，例如 Pager-duty，不得对每封信函进行寻呼。在“优先级”部分的“沟通计划”中明确添加说明，说明仅当*仅限一次性联系人*可用时如何使用这些信息。
+ **事件呼叫设置**

  指明客户是否需要 AWS 事件检测及响应服务来创建桥，客户是否使用静态桥，或者客户是否会在事件发生时提供桥。

  （根据客户偏好选择一个选项）
  + AWS 事件检测及响应服务创建 Amazon Chime/Zoom 桥
  + 客户提供的静态桥
    + 会议号码：<插入会议号码>
  + 客户通过回复 AWS 事件检测及响应服务团队发出的沟通内容，为每个事件提供桥详情。
  + 其它 - 指定详细信息。
+ **互动升级**

  当**初始互动**计划中的联系人未对事件做出回应时，AWS 事件检测及响应服务将联系以下联系人。

  对于每位升级联系人，请指明是必须将他们添加到 支持 案例、致电，或者同时采用这两种方式。
  + 在升级之前，请确保您已致电初始互动联系人（如果适用）。
  + *第一个升级联系人*：[escalationEmailAddress\#1]/[PhoneNumber] - 等待 XX 分钟后再升级到该联系人。
    + [将联系人添加到案例/电话] 此联系人。
  + *第二个升级联系人*：[escalationEmailAddress\#2]/[PhoneNumber] - 等待 XX 分钟后再升级到该联系人。
    + [将联系人添加到案例/电话] 此联系人。
  + 等等
**沟通计划**  
本节介绍事件管理工程师如何与除事件呼叫和沟通渠道之外的指定利益相关者进行沟通。  
+ **影响沟通计划**

  当 AWS 事件检测及响应服务从**分类**步骤中确定警报会对客户造成潜在影响时，该计划即启动。

  AWS 事件检测及响应服务将要求客户加入预先确定的桥，如**互动计划 - 事件呼叫设置**中所述。

  （根据*仅限一次性联系人*是否可用，选择一个。）

  1. 确保**互动计划 - 初始互动**中的*客户利益相关者*已添加到案例 CC 中。

  或

  1. 确保**互动计划 - 初始互动**中的*客户利益相关者*和*仅限一次性联系人*已添加到案例 CC 中。

  1. 根据以下模板向客户发送互动通知：

     （请选择一个）

     *影响模板 - Amazon Chime 桥*

     ```
     The following alarm has engaged AWS Incident Detection and Response to an Incident bridge:
         Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
         Alarm State Change Reason - <insert_state_change_reason>
         Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC>
     Please join the Amazon Chime Bridge below so we can start the steps outlined in your Runbook:
         Amazon Chime Meeting ID: <insert_Meeting_ID_here>
         Link to Amazon Chime Bridge: <insert_Link_here>
         International dial-in numbers: https://chime.aws/dialinnumbers/
     ```

     *影响模板 - 客户提供的桥*

     ```
     The following alarm has engaged AWS Incident Detection and Response:
         Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
         Alarm State Change Reason - <insert_state_change_reason>
         Alarm Start Time - <Example: 1 January 2025 3:30 PM UTC>
     Please respond with your internal bridge details so we can join and start the steps outlined in your Runbook.
     ```

     *影响模板 - 客户静态桥*

     ```
     The following alarm has engaged AWS Incident Detection and Response to an Incident bridge:
         Alarm Identifier - <insert CloudWatch Alarm ARN or APM Response Identifier>
         Alarm State Change Reason - <insert_state_change_reason>
         Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC>
     Please join the Bridge below so we can start the steps outlined in your Runbook:
         Conference Number: <insert_conference_number>
         Conference URL: <insert_bridge_URL>
     ```

  1. 将案例设置为“待处理的客户操作”。

  1. 发送上述影响沟通后，从案例中移除*仅限一次性联系人*。（如果*仅限一次性联系人*可用。）

  1. 按照上面提到的**互动升级**计划进行操作。

  1. 如果客户未在 30 分钟内做出回应，请断开互动并继续监控，直到警报恢复。
+ **无影响沟通计划**

  当警报在事件检测及响应服务完成初始**分类**之前恢复时，启动此计划。

  1. 在发送无影响通知之前，请根据**互动计划 - 初始互动**互动计划中列出的联系人，从 支持 案例 CC 中移除和/或添加客户联系人。

     [“请勿添加*仅限一次性联系人*。”]（如果*仅限一次性联系人*可用，则适用。）

  1. 根据以下模板向客户发送不互动通知：

     *无影响模板*

     ```
     AWS Incident Detection and Response received an alarm that has recovered for your workload.
         Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
         Alarm State Change Reason - <insert_state_change_reason>
         Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC>
         Alarm End Time - <Example: 1 January 2025, 3:35 PM UTC>
     This may indicate a brief customer impact that is currently not ongoing.
     If there is an ongoing impact to your workload, please let us know and we will engage to assist.
     ```

  1. 将案例置于**待处理的客户操作**。

  1. 如果客户未在 30 分钟内回应，请解决案例。
**应用程序架构概述**  
本节概述了事件管理工程师和运营工程师意识的应用程序/工作负载架构。  
+ **提供关键服务的 AWS 账户和区域**：支持此应用程序的 AWS 账户及区域的列表。协助工程师评测支持应用程序的底层基础设施。
  + 123456789012
    + US-EAST-1：酌情简要描述
      + Amazon EC2：酌情简要描述
      + DynamoDB：酌情简要描述
      + 等等
    + US-WEST-1：酌情简要描述
      + 等等
  + 另一个账户
    + 等等