사고 탐지 및 대응(예외 경로)에서의 워크로드 온보딩 및 경보 수집 설문지
참고
IDR CLI를 사용하여 워크로드를 온보딩할 수 없는 경우 워크로드 및 경보 온보딩에 다음 설문지를 사용합니다.
이 주제에서는 AWS 사고 탐지 및 대응에 워크로드를 온보딩할 때와 서비스에 수집하도록 경보를 구성할 때 완료해야 하는 설문지를 제공합니다. 워크로드 온보딩 설문은 워크로드, 아키텍처 세부 정보 및 인시던트 대응을 위한 연락처에 대한 일반적인 정보를 다룹니다. 경보 수집 설문지에서는 워크로드에 대한 사고 탐지 및 대응에서 인시던트 생성을 트리거하는 중요한 경보와 누구에게 연락하고 어떤 조치를 취해야 하는지에 대한 런북 정보를 지정합니다. 이러한 설문지를 올바르게 작성하는 것은 AWS 워크로드에 대한 모니터링 및 인시던트 대응 프로세스를 설정하는 주요 단계입니다.
다음 워크로드 온보딩 설문지를 다운로드합니다.
다음 경보 수집 설문지를 다운로드합니다.
워크로드 온보딩 설문지 - 일반 질문
| 질문 | 응답의 예 |
|---|---|
| 엔터프라이즈 이름 | Amazon Inc. |
| 이 워크로드의 이름(약어 포함) | Amazon Retail Operations(ARO) |
| 기본 최종 사용자 및 이 워크로드의 함수입니다. | 이 워크로드는 최종 사용자가 다양한 항목을 구매할 수 있는 전자 상거래 애플리케이션입니다. 이 워크로드는 비즈니스의 주요 수익 창출기입니다. |
워크로드 온보딩 설문지 - 아키텍처 질문
| 질문 | 응답의 예 |
|---|---|
이 워크로드의 일부인 리소스를 정의하는 데 사용되는 AWS 리소스 태그 목록입니다. AWS는 이러한 태그를 사용하여 이 워크로드의 리소스를 식별하여 인시던트 발생 시 지원을 신속하게 처리합니다. 참고태그는 대/소문자를 구분합니다. 여러 태그를 제공하는 경우 이 워크로드에서 사용하는 모든 리소스에 동일한 태그가 있어야 합니다. |
appName: Optimax 환경: 프로덕션 |
이 워크로드에서 사용하는 AWS 서비스의 목록, 해당 서비스가 있는 AWS 계정 및 AWS 리전입니다. |
AWS 서비스: Route 53, ALB, ECS, ... 계정: 123456789101, 123456789102, ... 리전: US-EAST-1, US-WEST-2, ... |
경보 수집 설문지 - 개요
경보 수집 설문지에서 AWS 사고 탐지 및 대응에 참여하려는 워크로드에 대한 중요한 경보와 이러한 경보가 트리거될 때 인시던트 관리 엔지니어가 참여시키려는 연락처를 지정합니다.
경보 수집 설문지는 다음 섹션으로 나뉩니다.
연락처 섹션: 먼저 경보가 트리거될 때 AWS 사고 탐지 및 대응으로 생성된 지원 사례에 포함할 기본 연락처와 인시던트 브리지를 위한 선호하는 회의 애플리케이션을 지정합니다. 브리지 기본 설정이 제공되지 않은 경우 AWS 사고 탐지 및 대응은 인시던트 중에 인시던트 브리지를 생성합니다. 다음으로, 기본 연락처에 연결할 수 없는 경우 참여시키기 위한 에스컬레이션 연락처 및 시간 간격을 지정합니다. 마지막으로 인시던트 기간 동안 지원 사례를 통해 정기적인 인시던트 상태 업데이트를 받아야 하는 연락처를 나열합니다.
경보 매트릭스: 트리거될 때 AWS 사고 탐지 및 대응과 관련된 경보 세트를 나열합니다. 온보딩을 위한 경보를 선택할 때 AWS 사고 탐지 및 대응에서 정의한 ‘중요 경보 기준’을 참조하세요. 자세한 내용은 경보 정의 섹션을 참조하세요.
Amazon CloudWatch 경보(Amazon CloudWatch 경보가 없는 경우 이 섹션을 비워 둡니다.)
타사 APM 경보(타사 APM 경보가 없는 경우 이 섹션을 비워둡니다.)
EventBridge EventBus ARN: 직접 EventBridge 통합으로 APM에서 경보 수집 또는 EventBridge와 직접 통합하지 않고도 APM에서 경보 수집에서 생성한 사용자 지정 EventBus ARN의 ARN입니다.
경보 식별자: APM 경보의 계정 번호, 리전 및 이름을 공유합니다.
경보 수집 설문지 - 런북 질문
| 질문 | 응답의 예 |
|---|---|
AWS는 지원 사례를 통해 워크로드 연락처를 참여시킵니다. 이 워크로드에 대해 경보가 트리거될 때 기본 연락처는 누구인가요? 선호하는 회의 애플리케이션을 지정하면 인시던트 발생 시 AWS가 세부 정보를 요청합니다. 참고선호하는 회의 애플리케이션이 제공되지 않은 경우 AWS는 인시던트 발생 시 연락하여 조인할 수 있는 Chime 브리지를 제공합니다. |
애플리케이션 팀 app@example.com +61 2 3456 7890 |
인시던트 발생 시 기본 연락처를 사용할 수 없는 경우 선호하는 커뮤니케이션 순서로 에스컬레이션 연락처와 타임라인을 제공하세요. |
1. 10분 후 기본 연락처의 응답이 없는 경우 다음을 수행합니다. John Smith - 애플리케이션 감독자 john.smith@example.com +61 2 3456 7890 2. 10분 후 John Smith의 응답이 없는 경우 다음으로 문의하세요. Jane Smith - 운영 관리자 jane.smith@example.com +61 2 3456 7890 |
경보 매트릭스
다음 정보를 제공하여 워크로드를 대신하여 인시던트를 생성하기 위해 AWS 사고 탐지 및 대응과 관련된 경보 세트를 식별합니다. AWS 사고 탐지 및 대응의 엔지니어가 경보를 검토하면 추가 온보딩 단계가 제공됩니다.
AWS 사고 탐지 및 대응 중요 경보 기준:
AWS 사고 탐지 및 대응 경보는 즉각적인 운영자 주의가 필요한 모니터링되는 워크로드에 상당한 비즈니스 영향(수익 손실/고객 경험 저하)이 있을 때만 ‘경보’ 상태로 전환되어야 합니다.
AWS 사고 탐지 및 대응 경보는 동시에 또는 참여 전에 워크로드에 대한 해석기를 참여시켜야 합니다. AWS 인시던트 관리자는 완화 프로세스에서 해석기와 협업하며, 1차 대응 담당자 역할을 하지 않습니다. 대응 담당자는 사용자에게 에스컬레이션합니다.
AWS 사고 탐지 및 대응 경보 임곗값은 경보가 조사를 실행할 때마다 적절한 임곗값 및 기간으로 설정해야 합니다. 경보가 ‘경보’ 상태와 ‘정상’ 상태 사이에서 이동하는 경우 운영자의 응답과 주의를 끌기에 충분한 영향이 발생합니다.
기준 위반에 대한 AWS 사고 탐지 및 대응 정책:
이러한 기준은 이벤트가 발생할 때 사례별로만 평가할 수 있습니다. 인시던트 관리 팀은 기술 계정 관리자(TAM)와 협력하여 경보를 조정하고 드물게 고객 경보가 이 기준을 준수하지 않는 것으로 의심되고 인시던트 관리 팀을 정기적으로 참여시키는 경우 모니터링을 비활성화합니다.
중요
런북 업데이트 없이 수신자 추가 및 삭제를 제어할 수 있도록 연락처 주소를 제공할 때 그룹 배포 이메일 주소를 제공합니다.
초기 참여 이메일을 보낸 후 AWS 사고 탐지 및 대응 팀이 전화를 걸도록 하려면 사이트 신뢰성 엔지니어링(SRE) 팀의 연락처 전화번호를 제공합니다.
CloudWatch 경보 ARN |
이 경보의 기본 연락처입니다. (워크로드 기본 연락처와 다른 경우) |
적절한 엔지니어를 참여시키기 위해 이 경보와 가장 관련성이 높은 AWS 서비스를 지정합니다. 필요하지 않은 경우 N/A를 입력합니다. |
예제:
|
예제: Sam Smith - 애플리케이션 관리자 sam.smith@example.com +61 2 3456 7890 |
예제: ECS |
EventBridge 이벤트 버스 ARN (이 이벤트 버스는 AWS 사고 탐지 및 대응으로 경고를 라우팅하기 위한 서드 파티 APM 통합의 일부로 생성됩니다.) |
예: (계정/리전 조합당 하나의 이벤트 버스가 있음)
|
||
경보 식별자 |
이 지표는 무엇을 나타내나요? 이 경보는 왜 중요한가요? |
이 경보의 기본 연락처입니다. (워크로드 기본 연락처와 다른 경우) |
적절한 엔지니어를 참여시키기 위해 이 경보와 가장 관련성이 높은 AWS 서비스를 지정합니다. 필요하지 않은 경우 N/A를 입력합니다. |
예제: ALB_5xx_Target_Response 계정 ID: 123456789012 리전: us-east-1 |
예제: 이 지표는 ALB 뒤에 있는 대상의 트랜잭션 응답을 나타냅니다. 5XX 오류가 임곗값을 초과하면 비즈니스 트랜잭션 처리의 심각한 실패를 나타냅니다. |
예제: Sam Smith - 애플리케이션 관리자 sam.smith@example.com +61 2 3456 7890 |
예제: ECS |