View a markdown version of this page

高级提示优化的工作原理 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

高级提示优化的工作原理

概述

高级提示优化 (AdvPO) 允许您在 Bedrock 上优化任何型号的提示,同时将原始提示与最多 5 个模型的优化提示进行比较。如果您要迁移到新模型或只是想在当前模型上获得更好的性能,则可以使用此功能。如果您要更改模型,请选择当前模型作为基准,并选择最多 4 个其他模型。如果您不想更改模型,只需选择当前模型即可查看优化前后。优化器使用您的提示模板(每个作业最多 10 个)、变量值的用户输入示例(评估样本,每个提示模板最多 100 个)、真实答案和评估指标来指导优化。它甚至与 jpeg、png 或 PDF 等多模式输入兼容。您可以提供评分量 LLM-as-a-judge 规、Lambda 函数或简短的自然语言指导标准。评估引导即时优化。优化器在基于评估的反馈循环中工作,以优化提示和生成的模型响应,并输出包含评估分数、成本估算值和延迟的原始和最终提示模板。

如果你想从非 Bedrock 模型迁移提示,但仍然想进行并排比较,你可以做到这一点的一种方法是分别对非 Bedrock 模型进行推理,然后应用 a 来对这些结果进行评分。自定义 Lambda 评估器然后,使用相同的 Lambda 函数评估器为 Bedrock 目标模型创建高级提示优化作业。这样,您就可以在提示优化之前和之后直接将旧模型与新模型进行比较。

优化循环的工作原理

您的评估样本被注入到提示模板中的占位符变量中,然后发送给目标模型进行推理。多模态输入(图像和 PDF)与提示一起通过有效载荷发送到模型,但不应在双大括号变量中引用。{{placeholder}}根据您的评估方法对答案进行评分。该服务会分析评估结果并自动重写您的提示,然后将其发送回模型。该反馈回路根据专有的内部优化参数重复并完成。

尽可能精确地定义评估方法和标准很重要,因为评估会引导即时优化。

数据集和 metric/lambda 代码都决定了优化质量。系统使用您的数据集来测试候选提示,并读取您的指标代码(源文本和文档字符串),以理解 “好” 的含义并诊断提示失败的地方。

你会收到什么

在优化作业结束时,您将收到:

  • 优化前后的提示模板

  • 每个评估样本的评估分数

  • 每个型号的延迟(第一个令牌的时间,或 TTFT)

  • 每个模型的成本估算

成本

所有推理和 Lambda 函数调用都在您的账户中运行。 AWS Lambda 运营按照 Lambda 的公开定价收费。推理定价(包括 LLM-as-a-judge 评估)根据Bedrock的按需推理公开定价收费。除了推理成本之外,没有单独的高级提示优化服务费用。除非你为自定义 LLMJ 提示选择不同的 LLM-as-a-judge 模型,否则当前的默认模型是 Anthropic Claude Sonnet 4.6。

有关估算运行优化成本的计算方法,请参阅 “提示优化” 下的 Bedrock 公开定价页面,然后参见 “高级提示优化”。

预计持续时间

对于只有几个评估样本的单个提示,该作业可能会运行 15 到 20 分钟。对于许多提示,每个提示都有大量的评估样本,作业可能会运行一个多小时,可能持续多个小时。这是因为每个提示模板都会根据您提供的每条评估样本记录经历多轮推理、评估和重写循环。