使用 Inspect AI 评测模型

您可以借助开源评测框架 Inspect AI，完成自定义 Amazon Nova 模型评测。Inspect AI 支持 AI 研究领域标准化评测基准，可量化模型在知识问答、逻辑推理、代码编写及安全合规类任务上的表现。

选择适配工作流程的评测方案：

Inspect AI SDK – 在笔记本或本地环境中，针对 SageMaker 推理端点，以交互方式运行模型评测。适合开发调试、迭代优化与快速验证。
Inspect AI 容器 – 以 SageMaker 训练作业形式大规模批量执行评测。适合生产级评测管道、多基准串联测试及自动化工作流程。

推荐工作流程：先使用 Inspect AI SDK，依据人工智能助手引导提示搭建并调试自定义评测基准，再对接偏好的推理服务完成评测。评测基准全部验证通过后，即可利用 Inspect AI 容器无缝切换至基于作业的评测方式，无需修改任何代码。仅需将基准文件与配方文件上传至 S3，即可启动评测作业。

主题

文档惯例

删除自定义模型部署

Inspect AI SDK