사고 탐지 및 대응에서 온보딩된 워크로드 테스트
경보 수집이 완료되면 AWS 사고 탐지 및 대응을 통해 워크로드를 모니터링하고 가동 확인을 보냅니다. 이 시점부터 워크로드가 적극적으로 모니터링됩니다.
경보 테스트는 온보딩된 경보가 예상대로 AWS 사고 탐지 및 대응을 참여시키고, 적절한 런북을 트리거하고, 경보 수집 중에 선택한 경우 자동 사례 생성과 같은 기타 원하는 작업을 수행하는지 확인합니다.
테스트는 선택 사항이지만 강력히 권장됩니다. 실제 인시던트가 발생하기 전에 대응 조치를 검증할 책임은 사용자에게 있습니다.
테스트 옵션
AWS 사고 탐지 및 대응은 두 가지 테스트 옵션을 제공합니다.
옵션 1: 예약된 게임데이(권장)
예약된 게임데이는 실제 인시던트 중에 발생할 수 있는 상황을 전체적으로 다루는 라이브 시뮬레이션입니다. AWS 사고 탐지 및 대응은 규정된 런북 단계에 따라 실제 인시던트가 어떻게 전개될 수 있는지에 대한 인사이트를 제공합니다. 게임데이는 질문을 하거나 지침을 구체화하여 참여를 개선할 수 있는 기회입니다.
게임데이를 예약하려면 다음 단계를 완료합니다.
-
선호 날짜 및 1시간 기간(시간대 포함)을 AWS 사고 탐지 및 대응에 알립니다. 최소 48시간의 리드 타임을 제공합니다.
-
SRE/운영 팀 및 에스컬레이션 연락처를 포함하여 게임데이를 위한 리소스를 계획합니다.
게임데이 일정:
-
사용자와 AWS 사고 탐지 및 대응이 회의에 참여합니다.
-
해당하는 경우 경보 작업을 비활성화합니다.
-
경보를 테스트하는 방법의 지침에 따라 수동으로 경보를 경보 상태로 설정합니다.
-
AWS 사고 탐지 및 대응이 경보 알림 수신을 확인합니다.
-
AWS 사고 탐지 및 대응이 경보에 응답하고 런북에 규정된 브리지에 조인합니다.
-
사용자와 AWS 사고 탐지 및 대응이 게임데이 결과를 확인합니다.
옵션 2: 오프라인 경보 테스트
회의를 예약하지 않고도 언제든지 독립적으로 경보를 테스트할 수 있습니다. 경보를 트리거하면 실제 인시던트 발생 시와 마찬가지로 런북에 따라 AWS 사고 탐지 및 대응이 참여합니다.
오프라인 경보 테스트를 수행하려면 다음 단계를 완료합니다.
-
의도하지 않은 작업을 방지하려면 Amazon CloudWatch 경보 작업을 비활성화합니다.
-
경보를 테스트하는 방법의 지침에 따라 경보를 트리거합니다.
-
5분 이내에 사용자를 대신하여 지원 사례가 생성되고 런북에 지정된 대로 AWS 사고 탐지 및 대응이 사용자와 소통합니다.
-
Incident Manager에 오프라인 경보 테스트를 수행 중임을 알립니다.
-
Incident Manager는 수신된 경보 상태 변경을 확인하고 대응 조치를 검증합니다.
5분 이내에 지원 사례가 생성되지 않은 경우 인시던트 요청을 제출하여 문제 해결을 위해 AWS 사고 탐지 및 대응을 수동으로 참여시킵니다.
경보를 테스트하는 방법
Amazon CloudWatch 경보
참고
경보 테스트에 사용하는 AWS Identity and Access Management 사용자 또는 역할에 cloudwatch:SetAlarmState 권한이 있어야 합니다.
AWS Command Line Interface 또는 AWS CloudShell을 사용하여 수동으로 경보를 경보 상태로 설정합니다. 이러한 명령은 워크로드에 영향을 미치지 않고 경보 상태를 변경합니다.
Amazon EC2 인스턴스 재시작과 같은 의도하지 않은 작업을 방지하려면 경보 상태를 변경하기 전에 CloudWatch 경보 작업을 비활성화하세요. 테스트가 완료된 후 CloudWatch 경보 작업을 다시 활성화할 수 있습니다. 경보 작업 비활성화 또는 활성화에 대한 자세한 내용은 Amazon CloudWatch API 참조의 DisableAlarmActions 및 EnableAlarmActions를 참조하세요.
경보 작업을 비활성화합니다.
aws cloudwatch disable-alarm-actions --alarm-names "ExampleAlarm" --regionus-east-1
경보 상태를 경보로 설정합니다.
aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --regionus-east-1
테스트 후 경보 작업을 다시 활성화합니다.
aws cloudwatch enable-alarm-actions --alarm-names "ExampleAlarm" --regionus-east-1
경보 상태는 몇 초 내에 자동으로 정상으로 돌아갑니다.
복합 경보
set-alarm-state 명령은 복합 경보가 정상 상태로 돌아가는 것을 보장하지 않습니다. 테스트 후 복합 경보의 상태를 확인하는 것이 가장 좋습니다. 복합 경보를 수동으로 재설정하려면 다음 명령을 사용합니다.
aws cloudwatch set-alarm-state --alarm-name "ExampleCompositeAlarm" --state-value OK --state-reason "Testing AWS Incident Detection and Response" --regionus-east-1
CloudWatch 경보의 상태를 수동으로 변경하는 방법을 자세히 알아보려면 Amazon CloudWatch API 참조의 SetAlarmState를 참조하세요.
CloudWatch API 작업에 필요한 권한에 대한 자세한 내용은 Amazon CloudWatch 권한 참조를 참조하세요.
서드 파티 APM 경보
Datadog, Splunk, New Relic, Dynatrace와 같은 서드 파티 애플리케이션 성능 모니터링(APM) 도구를 사용하는 워크로드로 경보를 시뮬레이션하려면 다른 지침이 필요합니다.
-
의도하지 않은 작업을 방지하려면 APM에서 경보 작업을 비활성화합니다.
-
경보 임곗값 또는 비교 연산자를 수정하여 경보를 경보 상태로 강제로 전환합니다. 이는 AWS 사고 탐지 및 대응에 대한 페이로드를 트리거합니다.
-
테스트가 완료된 후 임곗값 또는 비교 연산자 변경 사항을 롤백하여 경보를 정상 상태로 복원합니다.
주요 결과
테스트 성공 후:
경보 수집이 확인되고 경보 구성이 정확합니다.
AWS 사고 탐지 및 대응이 경보를 수신합니다.
지원 사례가 생성되고 규정된 연락처에 알림이 전송됩니다.
AWS 사고 탐지 및 대응이 규정된 회의 수단을 통해 사용자와 소통합니다.
테스트 중에 생성된 모든 경보 및 지원 사례가 해결됩니다.
자주 묻는 질문(FAQ)
- 경보 테스트는 필수인가요?
-
아니요. 테스트는 선택 사항이지만 실제 인시던트가 발생하기 전에 전체적으로 대응 방식을 검증하는 것이 좋습니다.
- 워크로드가 영향을 받나요?
-
아니요. 하지만 경보에 구성된 모든 경보 작업은 비활성화하지 않는 한 테스트 중에 트리거됩니다. 테스트 전에 경보 작업을 비활성화하여 의도하지 않은 영향을 방지해야 합니다.
- 테스트 중에 누가 알림을 받나요?
-
예약된 게임데이 중에는 확인을 위해 런북의 모든 연락처 및 에스컬레이션 경로에 연락합니다. 오프라인 경보 테스트 중에는 경보 온보딩 중에 지정된 초기 연락처에만 알림이 전송됩니다.
- 이메일을 통해 사례 업데이트에 회신할 수 있나요?
-
아니요. 지원 사례 서신의 이메일 사본은 발신 전용 주소에서 발송됩니다. 사례를 업데이트하려면 AWS Support Center Console
을 사용합니다. - 가동 후 게임데이를 요청하려면 어떻게 해야 하나요?
-
기존 온보딩 지원 사례가 있는 경우 해당 사례에 회신하거나 사고 탐지 및 대응에서 온보딩된 워크로드에 대한 변경 요청를 생성합니다.