View a markdown version of this page

事件偵測與回應中的工作負載上線和警示擷取問卷 (例外狀況路徑) - AWS 事件偵測與回應使用者指南

事件偵測與回應中的工作負載上線和警示擷取問卷 (例外狀況路徑)

注意

如果您無法使用 IDR CLI 將工作負載上線,請使用下列問卷進行工作負載和警示上線。

本主題提供在 AWS 事件偵測與回應中將工作負載上線,以及設定警示以擷取至服務中時,需要填寫的問卷。工作負載上線問卷涵蓋有關工作負載、其架構詳細資訊和事件回應聯絡人的一般資訊。在警示擷取問卷中,您可以指定在事件偵測與回應中針對您的工作負載觸發建立事件的關鍵警示,以及有關要聯絡哪些人和採取哪些行動的執行手冊資訊。正確完成這些問卷是為您的 AWS 工作負載設定監控和事件回應程序的關鍵步驟。

下載工作負載上線問卷:

下載警示擷取問卷:

工作負載上線問卷 - 一般問題

一般問題
問題 回應範例
企業名稱

Amazon Inc.

此工作負載的名稱 (包括任何縮寫)

Amazon Retail Operations (ARO)

此工作負載的主要最終使用者和功能。

此工作負載是電子商務應用程式,可讓最終使用者購買各種商品。此工作負載是我們業務的主要營收來源。

工作負載上線問卷 - 架構問題

架構問題
問題 回應範例

用於定義屬於此工作負載之資源的 AWS 資源標籤清單。AWS 會使用這些標籤來識別此工作負載的資源,以在事件期間加速提供支援。

注意

標籤會區分大小寫。如果您提供多個標籤,此工作負載使用的所有資源都必須具有相同的標籤。

appName:Optimax

environment:生產

列出此工作負載使用的 AWS 服務 及其所在的 AWS 帳戶 和 AWS 區域。

AWS 服務:Route 53、ALB、ECS、...

帳戶:123456789101、123456789102、...

區域:US-EAST-1、US-WEST-2、...

警示擷取問卷 - 概觀

在警示擷取問卷中,您可以針對要與 AWS 事件偵測與回應互動的工作負載指定關鍵警示,以及您希望事件管理工程師在這些警示觸發時聯絡的聯絡人。

警示擷取問卷分成以下區段:

  • 聯絡人區段:首先,指定主要聯絡人,以便在警示觸發時,包含在 AWS 事件偵測與回應所建立的 支援 案例中,以及您偏好的事件電話會議應用程式。如果未提供電話會議偏好設定,AWS 事件偵測與回應將在事件期間建立事件電話會議。接著,指定呈報聯絡人和時間間隔,以便在無法聯絡到主要聯絡人時與呈報聯絡人聯絡。最後,列出應在事件期間透過支援案例定期收到事件狀態更新的任何聯絡人。

  • 警示對照表:列出一組警示,這些警示觸發時,會與 AWS 事件偵測與回應互動。選取要上線的警示時,請參閱 AWS 事件偵測與回應定義的「關鍵警示條件」。如需更多詳細資訊,請參閱 警示定義

警示擷取問卷 - 執行手冊問題

執行手冊問題
問題 回應範例

AWS 會透過 支援 案例與工作負載聯絡人聯絡。當此工作負載的警示觸發時,誰是主要聯絡人?

指定您偏好的會議應用程式,AWS 將會在事件期間請求這些詳細資訊。

注意

如果未提供偏好的會議應用程式,則 AWS 將在事件期間與您聯絡,並提供 Chime 橋接器供您加入。

應用程式團隊

app@example.com

+61 2 3456 7890

如果在事件期間無法聯繫主要聯絡人,請依偏好的通訊順序提供呈報聯絡人和時間表。

1. 10 分鐘後,如果主要聯絡人沒有回應,則聯絡:

John Smith - 應用程式主管

john.smith@example.com

+61 2 3456 7890

2. 10 分鐘後,如果 John Smith 沒有回應,則聯絡:

Jane Smith - 營運經理

jane.smith@example.com

+61 2 3456 7890

警示矩陣

提供以下資訊以識別將與 AWS 事件偵測與回應互動的一組警示,以代表您的工作負載建立事件。來自 AWS 事件偵測與回應的工程師檢閱您的警示後,就會提供其他上線步驟。

AWS 事件偵測與回應關鍵警示條件

  • AWS 事件偵測與回應警示只有在對監控的工作負載有重大業務影響 (收入損失/客戶體驗降級) 且需要操作員立即注意時,才應進入「警示」狀態。

  • AWS 事件偵測與回應警示也必須同時或在互動之前,與工作負載的解決人員互動。AWS事件管理者會在緩解過程中與您的解決人員合作,而且不會作為一線回應者,再呈報給您。

  • AWS 事件偵測與回應警示閾值必須設定為適當的閾值和持續時間,以便只要警示觸發,就必須進行調查。如果警示在「警示」和「正常」狀態之間切換,這樣的影響就足以保證操作員回應和注意。

違反條件的 AWS 事件偵測與回應政策

只有在事件發生時,才會依個別案例評估這些條件。事件管理團隊與您的技術客戶經理 (TAM) 合作調整警示,在極少數情況下才會停用監控,例如懷疑客戶警示未遵循此條件,以及定期與事件管理團隊進行不必要的互動等。

重要

在提供聯絡地址時提供群組分佈電子郵件地址,讓您可以控制收件人新增和刪除,而不需進行執行手冊更新。

如果您希望 AWS 事件偵測與回應團隊在傳送初始參與電子郵件之後致電網站可靠性工程 (SRE) 團隊,請提供該團隊的聯絡電話號碼。

CloudWatch 警示的警示矩陣表

CloudWatch 警示 ARN

此警示的主要聯絡人。

(若與工作負載主要聯絡人不同)

指定與此警示最相關的 AWS 服務,以聯絡正確的工程師。若不需要,請輸入 N/A。

範例:

arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response

範例:

Sam Smith - 應用程式管理員

sam.smith@example.com

+61 2 3456 7890

範例:

ECS

第三方 APM 警示的警示矩陣表

EventBridge 事件匯流排 ARN

(這會作為第三方 APM 整合的一部分建立,以將警示路由到 AWS 事件偵測與回應。)

範例:(每個帳戶/區域組合都會有一個事件匯流排)

arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

警示識別碼

此指標代表什麼?

為什麼此警示很重要?

此警示的主要聯絡人。

(若與工作負載主要聯絡人不同)

指定與此警示最相關的 AWS 服務,以聯絡正確的工程師。若不需要,請輸入 N/A。

範例:

ALB_5xx_Target_Response

帳戶 ID:123456789012

區域:us-east-1

範例:

此指標代表 ALB 背後目標的交易回應。如果 5XX 錯誤超過閾值,則表示處理商業交易發生嚴重失敗。

範例:

Sam Smith - 應用程式管理員

sam.smith@example.com

+61 2 3456 7890

範例:

ECS