Inspect AI를 사용하는 평가

오픈 소스 평가 프레임워크인 Inspect AI를 사용하여 사용자 지정된 Amazon Nova 모델을 평가할 수 있습니다. Inspect AI는 AI 연구 커뮤니티의 표준화된 벤치마크를 지원하므로 지식, 추론, 코딩 및 안전 태스크 전반에서 모델 성능을 측정할 수 있습니다.

워크플로에 가장 적합한 평가 접근 방식을 선택합니다.

Inspect AI SDK - SageMaker 추론 엔드포인트에 대해 노트북 또는 로컬 환경에서 대화형으로 평가를 실행합니다. 개발, 반복 및 빠른 테스트에 가장 적합합니다.
Inspect AI 컨테이너 - SageMaker 훈련 작업으로 대규모 평가를 실행합니다. 프로덕션 평가 파이프라인, 여러 벤치마크 연결 및 자동화된 워크플로에 가장 적합합니다.

권장 워크플로: Inspect AI SDK로 시작하여 AI 어시스턴트 온보딩 프롬프트를 사용해 사용자 지정 평가 벤치마크를 빌드하고 테스트한 다음, 선호하는 추론 솔루션에 대해 평가를 실행합니다. 벤치마크가 완전히 검증되면 코드 변경 없이도 Inspect AI 컨테이너를 사용하여 작업 기반 평가로 원활하게 전환할 수 있습니다. 벤치마크 파일과 레시피 파일을 S3로 이동하고 작업을 시작하면 됩니다.

주제

문서 규칙

사용자 지정 모델 배포 삭제

Inspect AI SDK