View a markdown version of this page

Incident Detection and Response でのワークロードのオンボーディングとアラーム取り込みのアンケート (例外パス) - AWS Incident Detection and Response ユーザーガイド

Incident Detection and Response でのワークロードのオンボーディングとアラーム取り込みのアンケート (例外パス)

注記

IDR CLI を使用してワークロードをオンボーディングできない場合は、ワークロードとアラームのオンボーディングに関する次のアンケートを使用します。

このトピックでは、ワークロードを AWS Incident Detection and Response にオンボーディングする場合と、サービスに取り込むアラームを設定する場合に、回答する必要があるアンケートについて説明します。ワークロードのオンボーディングに関するアンケートでは、ワークロード、アーキテクチャの詳細、インシデント対応の問い合わせに関する一般的な情報をカバーします。アラームの取り込みに関するアンケートでは、Incident Detection and Response でワークロードのインシデント作成をトリガーする重要なアラームと、誰に連絡すべきか、どのようなアクションを実行すべきかに関するランブック情報を指定します。アンケートへの適切な入力は、AWS ワークロードのモニタリングおよびインシデント対応プロセスを設定する重要なステップです。

ワークロードオンボーディングのアンケートをダウンロードします。

アラーム取り込みのアンケートをダウンロードします。

ワークロードオンボーディングのアンケート - 一般的な質問

一般的な質問
質問 レスポンスの例
エンタープライズ名

Amazon Inc.

このワークロードの名前 (略語を含む)

Amazon Retail Operations (ARO)

プライマリエンドユーザーとこのワークロードの機能。

このワークロードは、エンドユーザーがさまざまなアイテムを購入できるようにする e コマースアプリケーションです。このワークロードは、弊社のビジネスの主要な収益源です。

ワークロードオンボーディングのアンケート - アーキテクチャに関する質問

アーキテクチャに関する質問
質問 レスポンスの例

このワークロードの一部であるリソースを定義するために使用される AWS リソースタグのリスト。AWS は、これらのタグを使用してこのワークロードのリソースを識別し、インシデント中のサポートを迅速化します。

注記

タグでは、大文字と小文字が区別されます。複数のタグを指定する場合、このワークロードで使用されるすべてのリソースに同じタグが必要です。

appName: Optimax

environment: Production

このワークロードで利用する AWS のサービス、およびそれらのサービスを利用する AWS アカウントと AWS リージョンのリスト。

AWS のサービス: Route 53、ALB、ECS、...

アカウント: 123456789101、123456789102、...

リージョン: US-EAST-1、US-WEST-2、...

アラーム取り込みのアンケート – 概要

アラーム取り込みのアンケートでは、AWS Incident Detection and Response をエンゲージするワークロードの重大なアラームと、それらのアラームがトリガーされたときにインシデント管理エンジニアがエンゲージする連絡先を指定します。

アラーム取り込みのアンケートは、以下のセクションに分かれています。

  • 連絡先セクション: 最初に、アラームがトリガーされたときに AWS Incident Detection and Response で作成される サポート ケースに含める主な連絡先と、インシデントブリッジ用の任意の会議アプリケーションを指定します。ブリッジ設定が指定されていない場合、AWS Incident Detection and Response はインシデント中にインシデントブリッジを作成します。次に、主要な連絡先と連絡がつかない場合にエンゲージする、エスカレーション連絡先と時間間隔を指定します。最後に、インシデントの期間中、サポートケースを介してインシデントステータスの定期的な更新情報を受け取る連絡先を一覧表示します。

  • アラームマトリクス: トリガーされたときに AWS Incident Detection and Response をエンゲージするアラームのセットを一覧表示します。オンボーディング用のアラームを選択するときは、AWS Incident Detection and Response で定義されている「重大なアラーム基準」を参照してください。詳細については、「アラームの定義」を参照してください。

アラーム取り込みのアンケート – ランブックの質問

ランブックに関する質問
質問 レスポンスの例

AWS は、サポート ケースを介してワークロードの連絡先をエンゲージします。このワークロードでアラームがトリガーされた場合、主な連絡先は誰ですか。

優先する会議アプリケーションを指定すると、AWS はインシデント中にこれらの詳細をリクエストします。

注記

優先する会議アプリケーションが指定されていない場合、インシデント中に AWS が連絡を取り、参加できる Chime ブリッジを提供します。

アプリケーションチーム

app@example.com

+61 2 3456 7890

インシデント中に主な連絡先が利用できない場合は、希望する通信順序でエスカレーション連絡先とタイムラインを指定してください。

1. 10 分経過しても、主要連絡先から応答がない場合は、次の連絡先と連絡を取ります。

John Smith - アプリケーションスーパーバイザー

john.smith@example.com

+61 2 3456 7890

2. 10 分経過しても、John Smith から応答がない場合は、次の連絡先と連絡を取ります。

Jane Smith - オペレーションマネージャー

jane.smith@example.com

+61 2 3456 7890

アラームのマトリックス

ワークロードに代わってインシデントを作成するために AWS Incident Detection and Response をエンゲージする一連のアラームを特定するために、次の情報を提供します。AWS Incident Detection and Response のエンジニアがアラームを確認すると、追加のオンボーディング手順が提供されます。

AWS Incident Detection and Response の重大なアラーム基準:

  • AWS Incident Detection and Response のアラームは、オペレーターの即時対応を必要とするモニタリング対象のワークロードに、重大なビジネスへの影響 (収益の損失/カスタマーエクスペリエンスの低下) がある場合にのみ、「Alarm」状態に入る必要があります。

  • AWS Incident Detection and Response のアラームは、ワークロードのリゾルバーを同時に、またはエンゲージメントの前に、エンゲージさせる必要もあります。AWSIncident Managers は、緩和プロセスでリゾルバーと連携しますが、エスカレーションする第一線の応答者としては機能しません。

  • AWS Incident Detection and Response のアラームのしきい値は、アラームが発せられたときに調査が行われるように、適切なしきい値と期間に設定する必要があります。アラームが「Alarm」状態と「OK」状態の間で移動している場合、オペレータの応答と注意を必要とする十分な影響が発生しています。

基準違反の AWS Incident Detection and Response ポリシー:

これらの基準は、イベントが発生したときにケースバイケースでのみ評価できます。インシデント管理チームは、テクニカルアカウントマネージャー (TAM) と連携して、顧客のアラームがこの基準に準拠しておらず、一定の間隔で不必要にインシデント管理チームにエンゲージしていると疑われる場合、アラームを調整し、まれにモニタリングを無効にします。

重要

連絡先アドレスを提供する際にグループ配布用の E メールアドレスを指定すると、ランブックを更新せずに受信者の追加と削除を制御できます。

最初のエンゲージメント E メールを送信した後に AWS Incident Detection and Response チームから電話をもらいたい場合は、サイト信頼性エンジニアリング (SRE) チームの連絡先電話番号を指定します。

CloudWatch アラームのアラームマトリックステーブル

CloudWatch アラーム ARN

このアラームの主要連絡先。

(ワークロードの主要連絡先と異なる場合)

このアラームに最も関連性の高い AWS のサービスを指定して、適切なエンジニアをエンゲージします。必要に応じて「N/A」と入力します。

例:

arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response

例:

Sam Smith – Application Manager

sam.smith@example.com

+61 2 3456 7890

例:

ECS

サードパーティー APM アラームのアラームマトリックステーブル

EventBridge イベントバス ARN

(これは、アラートを AWS Incident Detection and Response にルーティングするためのサードパーティー APM の統合の一部として作成されます)

例: (アカウント/リージョンの組み合わせごとにイベントバスがあります)

arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

アラーム識別子

このメトリクスが表す内容

このアラームが重要である理由

このアラームの主要連絡先。

(ワークロードの主要連絡先と異なる場合)

このアラームに最も関連性の高い AWS のサービス を指定して、適切なエンジニアをエンゲージします。必要に応じて「N/A」と入力します。

例:

ALB_5xx_Target_Response

アカウント ID: 123456789012

リージョン: us-east-1

例:

このメトリクスは、ALB の背後にあるターゲットからのトランザクション対応を表します。5XX エラーがしきい値を超えた場合、ビジネストランザクションの処理に対する重大な障害を表します。

例:

Sam Smith – Application Manager

sam.smith@example.com

+61 2 3456 7890

例:

ECS