Avaliação com o Inspect AI

É possível avaliar modelos personalizados do Amazon Nova usando o Inspect AI, um framework de avaliação de código aberto. O Inspect AI é compatível com avaliações comparativas padronizadas da comunidade de pesquisa em IA, permitindo mensurar a performance do modelo em tarefas de conhecimento, raciocínio, programação e segurança.

Escolha a abordagem de avaliação que melhor se adapta ao seu fluxo de trabalho:

SDK do Inspect AI: execute avaliações de forma interativa de um caderno ou ambiente local para o endpoint de inferência do SageMaker. É a abordagem ideal para desenvolvimento, iteração e testes rápidos.
Contêiner do Inspect AI: execute avaliações em grande escala, como Tarefas de Treinamento do SageMaker. É a abordagem ideal para pipelines de avaliação de produção, encadeamento de diversas avaliações comparativas e fluxos de trabalho automatizados.

Fluxo de trabalho recomendado: comece com o SDK do Inspect AI para criar e testar as avaliações comparativas de avaliação personalizadas usando o prompt de integração do assistente de IA e, em seguida, execute avaliações na solução de inferência de sua preferência. Assim que as avaliações comparativas estiverem totalmente validadas, você poderá alternar de forma fluida para a avaliação baseada em tarefas usando o contêiner do Inspect AI, sem necessidade de alterações no código. Basta mover os arquivos de avaliação comparativa e o arquivo de receita para o S3, e iniciar o trabalho.

Tópicos

Convenções do documento

Excluir uma implantação de modelo personalizado

SDK do Inspect AI