View a markdown version of this page

使用 Inspect AI 评测模型 - Amazon Nova

使用 Inspect AI 评测模型

您可以借助开源评测框架 Inspect AI,完成自定义 Amazon Nova 模型评测。Inspect AI 支持 AI 研究领域标准化评测基准,可量化模型在知识问答、逻辑推理、代码编写及安全合规类任务上的表现。

选择适配工作流程的评测方案:

  • Inspect AI SDK – 在笔记本或本地环境中,针对 SageMaker 推理端点,以交互方式运行模型评测。适合开发调试、迭代优化与快速验证。

  • Inspect AI 容器 – 以 SageMaker 训练作业形式大规模批量执行评测。适合生产级评测管道、多基准串联测试及自动化工作流程。

推荐工作流程:先使用 Inspect AI SDK,依据人工智能助手引导提示搭建并调试自定义评测基准,再对接偏好的推理服务完成评测。评测基准全部验证通过后,即可利用 Inspect AI 容器无缝切换至基于作业的评测方式,无需修改任何代码。仅需将基准文件与配方文件上传至 S3,即可启动评测作业。