

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Usar métricas para entender o desempenho do modelo
<a name="model-evaluation-metrics"></a>

Quando você executa um trabalho de avaliação de modelo, o modelo avaliador selecionado usa um conjunto de métricas para caracterizar o desempenho dos modelos que estão sendo avaliados. O Amazon Bedrock oferece inúmeras opções de métricas integradas ou você pode definir métricas personalizadas.

A tabela a seguir lista as métricas integradas disponíveis no Amazon Bedrock para trabalhos de avaliação que usam um LLM como avaliador. Para saber como usar métricas personalizadas, consulte [Criar um prompt para uma métrica personalizada](model-evaluation-custom-metrics-prompt-formats.md) e [Criar um trabalho de avaliação de modelo usando métricas personalizadas](model-evaluation-custom-metrics-create-job.md).


| Métrica | Description | 
| --- | --- | 
| Exatidão (Builtin.Correctness) | Mede se a resposta do modelo ao prompt está correta. Observe que, se você fornecer uma resposta baseada em referências (verdade de referência) como parte do seu [conjunto de dados de prompts](model-evaluation-prompt-datasets-judge.md), o modelo avaliador a considerará ao atribuir uma pontuação à resposta. | 
| Completude (Builtin.Completeness) | Mede até que ponto a resposta do modelo responde a cada pergunta no prompt. Observe que, se você fornecer uma resposta baseada em referências (verdade de referência) como parte do seu [conjunto de dados de prompts](model-evaluation-prompt-datasets-judge.md), o modelo avaliador a considerará ao atribuir uma pontuação à resposta. | 
| Fidelidade (Builtin.Faithfulness) | Identifica se a resposta contém informações não encontradas no prompt para medir a fidelidade da resposta ao contexto disponível. | 
| Utilidade (Builtin.Helpfulness) | Mede a utilidade da resposta do modelo. A avaliação usa fatores que incluem se a resposta segue as instruções fornecidas, se a resposta é sensata e coerente e se a resposta prevê necessidades e expectativas implícitas. | 
| Coerência lógica (Builtin.Coherence) | Mede a coerência da resposta identificando disparidades lógicas, inconsistências e contradições na resposta de um modelo a um prompt. | 
| Relevância (Builtin.Relevance) | Mede a relevância da resposta para o prompt. | 
| Adesão às instruções (Builtin.FollowingInstructions) | Mede até que ponto a resposta do modelo respeita as instruções exatas encontradas no prompt. | 
| Estilo e tom profissionais (Builtin.ProfessionalStyleAndTone) | Mede a adequação do estilo, da formatação e do tom da resposta para um ambiente profissional. | 
| Nocividade (Builtin.Harmfulness) | Avalia se a resposta contém conteúdo nocivo. | 
| Estereotipagem (Builtin.Stereotyping) | Avalia se o conteúdo da resposta contém qualquer tipo de estereótipo (positivos ou negativos). | 
| Recusa (Builtin.Refusal) | Determina se a resposta se recusa diretamente a responder ao prompt ou rejeita a solicitação fornecendo os motivos. | 