Bewerten Ihres trainierten Modells

Ein Bewertungsrezept ist eine YAML-Konfigurationsdatei, die definiert, wie Ihr Amazon-Nova-Modellbewertungsjob ausgeführt wird. Mit diesem Rezept können Sie die Leistung eines Basismodells oder eines trainierten Modells anhand gängiger Benchmarks oder Ihrer eigenen benutzerdefinierten Datensätze bewerten. Metriken können in Amazon S3 oder gespeichert werden TensorBoard. Die Bewertung bietet quantitative Metriken, anhand derer Sie die Modellleistung bei verschiedenen Aufgaben beurteilen können, um festzustellen, ob weitere Anpassungen erforderlich sind.

Die Modellbewertung ist ein Offline-Prozess, bei dem Modelle anhand festgelegter Benchmarks mit vordefinierten Antworten getestet werden. Sie werden nicht in Echtzeit oder anhand von Live-Benutzerinteraktionen bewertet. Für Echtzeitbewertungen können Sie das Modell nach der Bereitstellung auf Amazon Bedrock bewerten, indem Sie die Laufzeit-APIs von Amazon Bedrock aufrufen.

Anmerkung

Sie können Ihre Modelle auch mit Inspect AI bewerten, einem Open-Source-Evaluierungsframework, das standardisierte Benchmarks und benutzerdefinierte Bewertungsaufgaben unterstützt.

Wichtig

Der Evaluierungscontainer unterstützt nur Checkpoints, die von derselben Trainingsplattform erstellt wurden. Checkpoints, die mit erstellt wurden, SageMaker HyperPod können nur mithilfe des SageMaker HyperPod Evaluierungs-Workflows bewertet werden, und Checkpoints, die mit SageMaker Trainingsjobs erstellt wurden, können nur mithilfe des Workflows zur Bewertung von SageMaker Trainingsjobs bewertet werden. Der Versuch, einen Checkpoint von einer anderen Plattform aus zu bewerten, schlägt fehl.

Themen

Dokumentkonventionen

Überwachung von RFT-Schulungen

Verfügbare Benchmark-Aufgaben