

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建使用 LLM as a judge 的模型评测作业
<a name="model-evaluation-judge-create"></a>

您可以使用 AWS 管理控制台 AWS CLI、或支持的 AWS SDK 创建模型评估任务。

此类作业需要对评测器模型的访问权限。如果您正在评测 Amazon Bedrock 模型的性能，则还需要对该模型的访问权限。两种模型必须在同一个 AWS 区域中可用。有关支持的生成器和评测器模型的列表，请参阅[支持的模型](evaluation-judge.md#evaluation-judge-supported)。

## 先决条件
<a name="model-evaluation-judge-create-prereqs"></a>

要创建使用 LLM as a judge 的评测作业，您不仅需拥有对至少一个评测器模型的访问权限，还需要特定的 IAM 服务角色权限。要了解有关必要操作和信任策略要求的更多信息，请参阅[创建使用评判模型的模型评测作业所需的服务角色权限](judge-service-roles.md)。

创建作业时，您可以在 Amazon S3 存储桶中指定提示数据集，并指定用于存储结果的输出存储桶。 LLM-as-a-judge 评估作业不需要配置 CORS。有关基于人工的评估作业，请参阅 [必需的 S3 存储桶的跨源资源共享（CORS）权限](model-evaluation-security-cors.md)

要在控制台中创建作业，控制台需要执行一组特定操作的权限以及访问所需资源的权限。以下策略定义了在控制台中创建作业所需的最低 IAM 权限集。在该策略中，我们建议使用 IAM JSON 策略元素 [Resource](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html)，将访问权限限制为仅能访问 IAM 用户、组或角色所需的模型和存储桶。

IAM 策略必须同时授予对生成器模型和评测器模型的访问权限。

### 所需控制台权限
<a name="model-evaluation-judge-create-prereqs-permissions"></a>

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "BedrockConsole",
            "Effect": "Allow",
            "Action": [
                "bedrock:CreateEvaluationJob",
                "bedrock:GetEvaluationJob",
                "bedrock:ListEvaluationJobs",
                "bedrock:StopEvaluationJob",
                "bedrock:GetCustomModel",
                "bedrock:ListCustomModels",
                "bedrock:CreateProvisionedModelThroughput",
                "bedrock:UpdateProvisionedModelThroughput",
                "bedrock:GetProvisionedModelThroughput",
                "bedrock:ListProvisionedModelThroughputs",
                "bedrock:GetImportedModel",
                "bedrock:ListImportedModels",
                "bedrock:ListTagsForResource",
                "bedrock:UntagResource",
                "bedrock:TagResource"
            ],
            "Resource": [
                "arn:aws:bedrock:{{us-west-2}}::foundation-model/*;"
            ]
        },
        {
            "Sid": "AllowConsoleS3AccessForModelEvaluation",
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:GetBucketCORS",
                "s3:ListBucket",
                "s3:ListBucketVersions",
                "s3:GetBucketLocation"
            ],
            "Resource": [
                "arn:aws:s3:::{{amzn-s3-demo-destination-bucket}}/*",
                "arn:aws:s3:::{{input_datasets/prompts.jsonl}}"
            ]
        }
    ]
}
```

------

**注意**  
此示例策略提供对所有 Amazon Bedrock 基础模型的权限。在生产环境中，建议您遵循[最低权限](https://docs.aws.amazon.com/IAM/latest/UserGuide/best-practices.html#grant-least-privilege)原则，仅授予对所需模型的权限。

您可以创建仅使用 Amazon Bedrock 的内置指标的评测作业，也可以创建使用您自己的自定义指标的作业。有关创建模型评测作业的说明，请参阅以下各个部分。

**Topics**
+ [先决条件](#model-evaluation-judge-create-prereqs)
+ [使用内置指标创建模型评测作业](model-evaluation-built-in-metrics.md)
+ [使用自定义指标创建模型评测作业](model-evaluation-custom-metrics-create-job.md)