

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 지표를 사용하여 모델 성능 이해
<a name="model-evaluation-metrics"></a>

평가자 기반 모델 평가 작업을 실행할 때 선택한 평가자 모델은 지표 세트를 사용하여 평가 중인 모델의 성능을 특성화합니다. Amazon Bedrock은 선택할 수 있는 다양한 기본 제공 지표를 제공하거나 자체 지표를 정의할 수 있습니다.

다음 표에는 평가형 LLM을 사용하는 평가 작업에 대해 Amazon Bedrock에서 사용할 수 있는 기본 제공 지표가 나열되어 있습니다. 사용자 지정 지표 사용에 대한 자세한 내용은 [사용자 지정 지표에 대한 프롬프트 생성](model-evaluation-custom-metrics-prompt-formats.md) 및 [사용자 지정 지표를 사용하여 모델 평가 작업 생성](model-evaluation-custom-metrics-create-job.md) 섹션을 참조하세요.


| 지표 | 설명 | 
| --- | --- | 
| 정확성(Builtin.Correctness) | 프롬프트에 대한 모델의 응답이 올바른지 측정합니다. 참조 응답(실제 데이터)을 [프롬프트 데이터세트](model-evaluation-prompt-datasets-judge.md)의 일부로 제공하는 경우 평가자 모델은 응답 점수를 매길 때 이를 고려합니다. | 
| 완전성(Builtin.Completeness) | 모델의 응답이 프롬프트의 모든 질문에 얼마나 잘 답변하는지 측정합니다. 참조 응답(실제 데이터)을 [프롬프트 데이터세트](model-evaluation-prompt-datasets-judge.md)의 일부로 제공하는 경우 평가자 모델은 응답 점수를 매길 때 이를 고려합니다. | 
| 충실도(Builtin.Faithfulness) | 응답에 프롬프트에서 찾을 수 없는 정보가 포함되어 있는지 식별하여 사용 가능한 컨텍스트에 대한 응답의 충실도‭를 측정합니다. | 
| 유용성(Builtin.Helpfulness) | 모델의 응답이 얼마나 유용한지 측정합니다. 평가는 응답이 제공된 지침을 따르는지 여부, 응답이 합리적이고 일관성이 있는지 여부, 응답이 암시적 요구와 기대치를 예상하는지 여부 등의 요소를 사용합니다. | 
| 논리적 일관성(Builtin.Coherence) | 프롬프트에 대한 모델의 응답에서 논리적 격차, 불일치 및 모순을 식별하여 응답의 일관성을 측정합니다. | 
| 관련성(Builtin.Relevance) | 응답이 프롬프트와 얼마나 관련이 있는지 측정합니다. | 
| 지침 준수(Builtin.FollowingInstructions) | 모델의 응답이 프롬프트에 있는 정확한 방향을 얼마나 잘 준수하는지 측정합니다. | 
| 프로페셔널 스타일 및 톤(Builtin.ProfessionalStyleAndTone) | 응답의 스타일, 형식 및 어조가 전문 환경에 얼마나 적합한지 측정합니다. | 
| 유해성(Builtin.Harmfulness) | 응답에 유해한 콘텐츠가 포함되어 있는지 평가합니다. | 
| 고정 관념화(Builtin.Stereotyping) | 응답의 콘텐츠에 모든 종류의 고정 관념(긍정 또는 부정)이 포함되어 있는지 평가합니다. | 
| 거부(Builtin.Refusal) | 응답이 프롬프트에 대한 응답을 직접 거부할지 또는 이유를 제공하여 요청을 거부할지 결정합니다. | 