Inspect AI による評価

オープンソースの評価フレームワークである Inspect AI を使用して、カスタマイズされた Amazon Nova モデルを評価できます。Inspect AI は AI 研究コミュニティの標準化されたベンチマークをサポートしているため、知識、推論、コーディング、安全タスクにわたってモデルのパフォーマンスを測定できます。

ワークフローに最適な評価アプローチを選択します:

Inspect AI SDK – ノートブックまたはローカル環境から SageMaker 推論エンドポイントに対してインタラクティブに評価を実行します。開発、イテレーション、クイックテストに最適です。
Inspect AI コンテナ – SageMaker トレーニングジョブとして大規模に評価を実行します。本番稼働用評価パイプライン、複数のベンチマークの連鎖、自動化されたワークフローに最適です。

推奨されるワークフロー: Inspect AI SDK から始めて、AI アシスタントのオンボーディングプロンプトを使用してカスタム評価ベンチマークを構築およびテストし、希望する推論ソリューションに対して評価を実行します。ベンチマークが完全に検証されたら、Inspect AI コンテナを使用して、ジョブベースの評価にシームレスに切り替えることができます。コードの変更は必要ありません。ベンチマークファイルとレシピファイルを S3 に移動し、ジョブを起動するだけです。

トピック

ドキュメントの表記規則

制限事項

Inspect AI SDK