View a markdown version of this page

사고 탐지 및 대응(예외 경로)에서의 워크로드 온보딩 및 경보 수집 설문지 - AWS 사고 탐지 및 대응 사용 설명서

사고 탐지 및 대응(예외 경로)에서의 워크로드 온보딩 및 경보 수집 설문지

참고

IDR CLI를 사용하여 워크로드를 온보딩할 수 없는 경우 워크로드 및 경보 온보딩에 다음 설문지를 사용합니다.

이 주제에서는 AWS 사고 탐지 및 대응에 워크로드를 온보딩할 때와 서비스에 수집하도록 경보를 구성할 때 완료해야 하는 설문지를 제공합니다. 워크로드 온보딩 설문은 워크로드, 아키텍처 세부 정보 및 인시던트 대응을 위한 연락처에 대한 일반적인 정보를 다룹니다. 경보 수집 설문지에서는 워크로드에 대한 사고 탐지 및 대응에서 인시던트 생성을 트리거하는 중요한 경보와 누구에게 연락하고 어떤 조치를 취해야 하는지에 대한 런북 정보를 지정합니다. 이러한 설문지를 올바르게 작성하는 것은 AWS 워크로드에 대한 모니터링 및 인시던트 대응 프로세스를 설정하는 주요 단계입니다.

다음 워크로드 온보딩 설문지를 다운로드합니다.

다음 경보 수집 설문지를 다운로드합니다.

워크로드 온보딩 설문지 - 일반 질문

일반 질문
질문 응답의 예
엔터프라이즈 이름

Amazon Inc.

이 워크로드의 이름(약어 포함)

Amazon Retail Operations(ARO)

기본 최종 사용자 및 이 워크로드의 함수입니다.

이 워크로드는 최종 사용자가 다양한 항목을 구매할 수 있는 전자 상거래 애플리케이션입니다. 이 워크로드는 비즈니스의 주요 수익 창출기입니다.

워크로드 온보딩 설문지 - 아키텍처 질문

아키텍처 질문
질문 응답의 예

이 워크로드의 일부인 리소스를 정의하는 데 사용되는 AWS 리소스 태그 목록입니다. AWS는 이러한 태그를 사용하여 이 워크로드의 리소스를 식별하여 인시던트 발생 시 지원을 신속하게 처리합니다.

참고

태그는 대/소문자를 구분합니다. 여러 태그를 제공하는 경우 이 워크로드에서 사용하는 모든 리소스에 동일한 태그가 있어야 합니다.

appName: Optimax

환경: 프로덕션

이 워크로드에서 사용하는 AWS 서비스의 목록, 해당 서비스가 있는 AWS 계정 및 AWS 리전입니다.

AWS 서비스: Route 53, ALB, ECS, ...

계정: 123456789101, 123456789102, ...

리전: US-EAST-1, US-WEST-2, ...

경보 수집 설문지 - 개요

경보 수집 설문지에서 AWS 사고 탐지 및 대응에 참여하려는 워크로드에 대한 중요한 경보와 이러한 경보가 트리거될 때 인시던트 관리 엔지니어가 참여시키려는 연락처를 지정합니다.

경보 수집 설문지는 다음 섹션으로 나뉩니다.

  • 연락처 섹션: 먼저 경보가 트리거될 때 AWS 사고 탐지 및 대응으로 생성된 지원 사례에 포함할 기본 연락처와 인시던트 브리지를 위한 선호하는 회의 애플리케이션을 지정합니다. 브리지 기본 설정이 제공되지 않은 경우 AWS 사고 탐지 및 대응은 인시던트 중에 인시던트 브리지를 생성합니다. 다음으로, 기본 연락처에 연결할 수 없는 경우 참여시키기 위한 에스컬레이션 연락처 및 시간 간격을 지정합니다. 마지막으로 인시던트 기간 동안 지원 사례를 통해 정기적인 인시던트 상태 업데이트를 받아야 하는 연락처를 나열합니다.

  • 경보 매트릭스: 트리거될 때 AWS 사고 탐지 및 대응과 관련된 경보 세트를 나열합니다. 온보딩을 위한 경보를 선택할 때 AWS 사고 탐지 및 대응에서 정의한 ‘중요 경보 기준’을 참조하세요. 자세한 내용은 경보 정의 섹션을 참조하세요.

경보 수집 설문지 - 런북 질문

런북 질문
질문 응답의 예

AWS는 지원 사례를 통해 워크로드 연락처를 참여시킵니다. 이 워크로드에 대해 경보가 트리거될 때 기본 연락처는 누구인가요?

선호하는 회의 애플리케이션을 지정하면 인시던트 발생 시 AWS가 세부 정보를 요청합니다.

참고

선호하는 회의 애플리케이션이 제공되지 않은 경우 AWS는 인시던트 발생 시 연락하여 조인할 수 있는 Chime 브리지를 제공합니다.

애플리케이션 팀

app@example.com

+61 2 3456 7890

인시던트 발생 시 기본 연락처를 사용할 수 없는 경우 선호하는 커뮤니케이션 순서로 에스컬레이션 연락처와 타임라인을 제공하세요.

1. 10분 후 기본 연락처의 응답이 없는 경우 다음을 수행합니다.

John Smith - 애플리케이션 감독자

john.smith@example.com

+61 2 3456 7890

2. 10분 후 John Smith의 응답이 없는 경우 다음으로 문의하세요.

Jane Smith - 운영 관리자

jane.smith@example.com

+61 2 3456 7890

경보 매트릭스

다음 정보를 제공하여 워크로드를 대신하여 인시던트를 생성하기 위해 AWS 사고 탐지 및 대응과 관련된 경보 세트를 식별합니다. AWS 사고 탐지 및 대응의 엔지니어가 경보를 검토하면 추가 온보딩 단계가 제공됩니다.

AWS 사고 탐지 및 대응 중요 경보 기준:

  • AWS 사고 탐지 및 대응 경보는 즉각적인 운영자 주의가 필요한 모니터링되는 워크로드에 상당한 비즈니스 영향(수익 손실/고객 경험 저하)이 있을 때만 ‘경보’ 상태로 전환되어야 합니다.

  • AWS 사고 탐지 및 대응 경보는 동시에 또는 참여 전에 워크로드에 대한 해석기를 참여시켜야 합니다. AWS 인시던트 관리자는 완화 프로세스에서 해석기와 협업하며, 1차 대응 담당자 역할을 하지 않습니다. 대응 담당자는 사용자에게 에스컬레이션합니다.

  • AWS 사고 탐지 및 대응 경보 임곗값은 경보가 조사를 실행할 때마다 적절한 임곗값 및 기간으로 설정해야 합니다. 경보가 ‘경보’ 상태와 ‘정상’ 상태 사이에서 이동하는 경우 운영자의 응답과 주의를 끌기에 충분한 영향이 발생합니다.

기준 위반에 대한 AWS 사고 탐지 및 대응 정책:

이러한 기준은 이벤트가 발생할 때 사례별로만 평가할 수 있습니다. 인시던트 관리 팀은 기술 계정 관리자(TAM)와 협력하여 경보를 조정하고 드물게 고객 경보가 이 기준을 준수하지 않는 것으로 의심되고 인시던트 관리 팀을 정기적으로 참여시키는 경우 모니터링을 비활성화합니다.

중요

런북 업데이트 없이 수신자 추가 및 삭제를 제어할 수 있도록 연락처 주소를 제공할 때 그룹 배포 이메일 주소를 제공합니다.

초기 참여 이메일을 보낸 후 AWS 사고 탐지 및 대응 팀이 전화를 걸도록 하려면 사이트 신뢰성 엔지니어링(SRE) 팀의 연락처 전화번호를 제공합니다.

CloudWatch 경보용 경보 매트릭스 테이블

CloudWatch 경보 ARN

이 경보의 기본 연락처입니다.

(워크로드 기본 연락처와 다른 경우)

적절한 엔지니어를 참여시키기 위해 이 경보와 가장 관련성이 높은 AWS 서비스를 지정합니다. 필요하지 않은 경우 N/A를 입력합니다.

예제:

arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response

예제:

Sam Smith - 애플리케이션 관리자

sam.smith@example.com

+61 2 3456 7890

예제:

ECS

서드 파티 APM 경보용 경보 매트릭스 테이블

EventBridge 이벤트 버스 ARN

(이 이벤트 버스는 AWS 사고 탐지 및 대응으로 경고를 라우팅하기 위한 서드 파티 APM 통합의 일부로 생성됩니다.)

예: (계정/리전 조합당 하나의 이벤트 버스가 있음)

arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

경보 식별자

이 지표는 무엇을 나타내나요?

이 경보는 왜 중요한가요?

이 경보의 기본 연락처입니다.

(워크로드 기본 연락처와 다른 경우)

적절한 엔지니어를 참여시키기 위해 이 경보와 가장 관련성이 높은 AWS 서비스를 지정합니다. 필요하지 않은 경우 N/A를 입력합니다.

예제:

ALB_5xx_Target_Response

계정 ID: 123456789012

리전: us-east-1

예제:

이 지표는 ALB 뒤에 있는 대상의 트랜잭션 응답을 나타냅니다. 5XX 오류가 임곗값을 초과하면 비즈니스 트랜잭션 처리의 심각한 실패를 나타냅니다.

예제:

Sam Smith - 애플리케이션 관리자

sam.smith@example.com

+61 2 3456 7890

예제:

ECS