

# 開發執行手冊和回應計畫，以在事件偵測與回應中回應事件
<a name="idr-workloads-dev-runbook"></a>

AWS 事件偵測與回應使用從 IDR CLI 上線取得的資訊來開發執行手冊，以管理影響工作負載的事件。執行手冊中記載事件管理者在回應事件時所採取的步驟。回應計畫會對應到至少一個工作負載。事件管理團隊會根據您在[工作負載上線](getting-started-idr.md#workload-onboarding)期間提供的資訊建立這些範本。

**重要輸出：**
+ 完成 AWS 事件偵測與回應上的工作負載定義。
+ 完成 AWS 事件偵測與回應上的警示和執行手冊。

您也可以下載 AWS 事件偵測與回應執行手冊範例：[aws-idr-runbook-example.zip](samples/aws-idr-runbook-example.zip)。

## 範例執行手冊
<a name="idr-workloads-runbook-example"></a>

**Example 範例執行手冊**  
**說明**  
此文件適用於 [CustomerName] - [WorkloadName]。
**步驟：優先**  
** 優先權動作**

1. 將 支援 案例的第一個通訊傳送給客戶，如下所示。

```
Hello,

This is <<Engineer's name>> from AWS Incident Detection and Response. An alarm has triggered for your workload <<Application_Name>>. I am currently investigating and will update you in a few minutes once I have finished initial investigation.

Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
```
**步驟：資訊**  
**參與計畫**
本節說明適用此執行手冊的參與計畫，且僅包含聯絡人詳細資訊。逐步**溝通計畫**中將參考參與計畫。  
+ **初始參與**

  AWS 事件偵測與回應團隊會在 支援 案例中新增以下客戶利害關係人地址。AWS 利害關係人代表其他利害關係人，可能需要提醒其注意任何問題。
  + *客戶利害關係人*：customeremail1、customeremail2、mobile1
  + *AWS 利害關係人*：aws-idr-oncall@amazon.com、tam-team-email 等
  + *僅一次聯絡人*：[這些電子郵件聯絡人只包含在第一次通訊中。在發出第一次通訊後，移除這些聯絡人。這些可能是客戶傳呼電子郵件地址，例如 pager-duty，不得在每次通訊時傳呼。在「優先」區段、「溝通計畫」中明確新增指示，說明如何僅在可使用*僅一次聯絡人*的情況下使用這些聯絡人。]
+ **事件通話設定**

  指出客戶是否需要 AWS 事件偵測與回應來建立橋接器、客戶是否使用靜態橋接器，或客戶是否會在事件開啟時提供橋接器。

  (根據客戶偏好選擇一個選項)
  + AWS 事件偵測與回應會建立 Amazon Chime/Zoom Bridge
  + 客戶提供的靜態橋接器
    + 會議號碼：<插入會議號碼>
  + 客戶透過回應 AWS 事件偵測與回應團隊發出的通訊，提供每個事件的橋接器詳細資訊。
  + 其他 - 指定使用者詳細資訊。
+ **參與上報**

  當**初始參與**計畫的聯絡人未回應事件時，AWS 事件偵測與回應會聯絡下列聯絡人。

  對於每個上報聯絡人，指出是否必須將其新增至 支援 案例、致電，或兩者皆須。
  + 上報之前，務必確定已致電初始參與聯絡人 (如適用)。
  + *第一個上報聯絡人*：[escalationEmailAddress\#1] / [PhoneNumber] - 先等待 XX 分鐘，再上報此聯絡人。
    + [新增聯絡人至案例 / 電話] 此聯絡人。
  + *第二個上報聯絡人*：[escalationEmailAddress\#2] / [PhoneNumber] - 先等待 XX 分鐘，再上報此聯絡人。
    + [新增聯絡人至案例 / 電話] 此聯絡人。
  + 依此類推
**溝通計畫**  
本節說明事件管理工程師如何與事件通話和溝通管道外的指定利害關係人進行通訊。  
+ **影響溝通計畫**

  此計畫是在 AWS 事件偵測與回應從步驟**分類**判斷出，警示指出可能對客戶造成時啟動。

  AWS 事件偵測與回應會請求客戶加入預定的橋接器，如**參與計畫 - 事件通話設定**中所示。

  (根據*僅一次聯絡人*是否可用來選擇一項。)

  1. 確認**參與計畫 - 初始參與**的*客戶利害關係人*已新增至案例 CC。

  或

  1. 確認**參與計畫 - 初始參與**的*客戶利害關係人*和*僅一次聯絡人*已新增至案例 CC。

  1. 根據下列範本傳送參與通知給客戶：

     (選擇一項)

     *影響範本 - Amazon Chime 橋接器*

     ```
     The following alarm has engaged AWS Incident Detection and Response to an Incident bridge:
         Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
         Alarm State Change Reason - <insert_state_change_reason>
         Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC>
     Please join the Amazon Chime Bridge below so we can start the steps outlined in your Runbook:
         Amazon Chime Meeting ID: <insert_Meeting_ID_here>
         Link to Amazon Chime Bridge: <insert_Link_here>
         International dial-in numbers: https://chime.aws/dialinnumbers/
     ```

     *影響範本 - 客戶提供的橋接器*

     ```
     The following alarm has engaged AWS Incident Detection and Response:
         Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
         Alarm State Change Reason - <insert_state_change_reason>
         Alarm Start Time - <Example: 1 January 2025 3:30 PM UTC>
     Please respond with your internal bridge details so we can join and start the steps outlined in your Runbook.
     ```

     *影響範本 - 客戶靜態橋接器*

     ```
     The following alarm has engaged AWS Incident Detection and Response to an Incident bridge:
         Alarm Identifier - <insert CloudWatch Alarm ARN or APM Response Identifier>
         Alarm State Change Reason - <insert_state_change_reason>
         Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC>
     Please join the Bridge below so we can start the steps outlined in your Runbook:
         Conference Number: <insert_conference_number>
         Conference URL: <insert_bridge_URL>
     ```

  1. 將案例設定為待處理客戶動作。

  1. 在傳送上述影響溝通之後，從案例移除*僅一次聯絡人*。(如果*僅一次聯絡人*可用。)

  1. 依照上述**參與上報**計畫進行。

  1. 如果客戶未在 30 分鐘內回應，請停止參與並繼續監控，直到警示復原為止。
+ **無影響溝通計畫**

  此計畫會在警示於事件偵測與回應完成初始**分類**之前復原時啟動。

  1. 傳送無影響通知之前，務必先驗證，然後根據**參與計畫 - 初始參與**參與計畫中列出的聯絡人，從 支援 案例 CC 中移除和/或新增客戶聯絡人。

     [「請勿新增*僅一次聯絡人*」。] (*僅一次聯絡人*可使用時適用。)

  1. 根據下列範本傳送無參與通知給客戶：

     *無影響範本*

     ```
     AWS Incident Detection and Response received an alarm that has recovered for your workload.
         Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
         Alarm State Change Reason - <insert_state_change_reason>
         Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC>
         Alarm End Time - <Example: 1 January 2025, 3:35 PM UTC>
     This may indicate a brief customer impact that is currently not ongoing.
     If there is an ongoing impact to your workload, please let us know and we will engage to assist.
     ```

  1. 讓案例進入**待處理客戶動作**。

  1. 如果客戶未在 30 分鐘內回應，則解決該案例。
**應用程式架構概觀**  
本節提供事件管理工程師和營運工程師應注意的應用程式/工作負載架構概觀。  
+ **提供金鑰服務的 AWS 帳戶和區域** - 列出其區域支援此應用程式的 AWS 帳戶。協助工程師評估支援應用程式的底層基礎結構。
  + 123456789012
    + US-EAST-1 - 適當地簡述
      + Amazon EC2 - 適當地簡述
      + DynamoDB - 適當地簡述
      + 依此類推
    + US-WEST-1 - 適當地簡述
      + 依此類推
  + another-account
    + 依此類推