View a markdown version of this page

고급 프롬프트 최적화의 작동 방식 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

고급 프롬프트 최적화의 작동 방식

개요

고급 프롬프트 최적화(AdvPO)를 사용하면 Bedrock의 모든 모델에 대한 프롬프트를 최적화하는 동시에 원래 프롬프트를 최대 5개의 모델에 걸쳐 최적화된 프롬프트와 비교할 수 있습니다. 새 모델로 마이그레이션하거나 현재 모델에서 더 나은 성능을 얻고자 하는 경우이 기능을 사용할 수 있습니다. 모델을 변경하는 경우 현재 모델을 기준으로 선택하고 최대 4개의 다른 모델을 선택합니다. 모델을 변경하지 않는 경우 최적화 전후에 현재 모델을 선택하면 됩니다. 최적화 프로그램은 프롬프트 템플릿(작업당 최대 10개), 변수 값에 대한 예제 사용자 입력(평가 샘플, 프롬프트 템플릿당 최대 100개), 실측 답변 및 최적화를 안내하는 평가 지표를 가져옵니다. jpeg, png 또는 PDF와 같은 멀티모달 입력과도 호환됩니다. LLM-as-a-judge rubric, Lambda 함수 또는 짧은 자연어 조향 기준을 제공할 수 있습니다. 평가는 프롬프트 최적화를 안내합니다. 옵티마이저는 평가 기반 피드백 루프에서 작동하여 프롬프트 및 결과 모델 응답을 최적화하고 평가 점수, 비용 추정치 및 지연 시간과 함께 원래 및 최종 프롬프트 템플릿을 출력합니다.

비 Bedrock 모델에서 프롬프트를 마이그레이션하고 여전히 side-by-side 비교하려는 경우 한 가지 방법은 비 Bedrock 모델에서 추론을 별도로 실행하는 것입니다. 그런 다음를 적용하여 해당 결과를 채점사용자 지정 Lambda 평가자합니다. 그런 다음 Bedrock 대상 모델에 대해 동일한 Lambda 함수 평가자를 사용하여 고급 프롬프트 최적화 작업을 생성합니다. 이렇게 하면 프롬프트 최적화 전후에 이전 모델을 새 모델과 직접 비교할 수 있습니다.

최적화 루프 작동 방식

평가 샘플은 프롬프트 템플릿의 자리 표시자 변수에 삽입된 다음 대상 모델(들)로 추론을 위해 전송됩니다. 멀티모달 입력(이미지 및 PDFs)은 프롬프트와 함께 페이로드에서 모델로 전송되지만 이중 중괄호 {{placeholder}} 변수에서 참조해서는 안 됩니다. 응답은 평가 방법에 따라 등급이 매겨집니다. 서비스는 평가 결과를 분석하고 프롬프트를 자동으로 다시 작성한 다음 모델로 다시 보냅니다. 이 피드백 루프는 독점 내부 최적화 파라미터에 따라 반복되고 완료됩니다.

평가는 프롬프트 최적화를 주도하므로 평가 방법과 기준을 최대한 정확하게 정의하는 것이 중요합니다.

데이터 세트와 지표/람다 코드 모두 최적화 품질을 형성합니다. 시스템은 데이터 세트를 사용하여 프롬프트 후보를 테스트하고 지표 코드(소스 텍스트 및 문서 문자열)를 읽어 "좋음"의 의미를 이해하고 프롬프트가 실패하는 위치를 진단합니다.

수신하는 내용

최적화 작업이 끝나면 다음을 받게 됩니다.

  • 최적화 전후의 프롬프트 템플릿

  • 각 평가 샘플의 평가 점수

  • 각 모델의 지연 시간(첫 번째 토큰까지의 시간 또는 TTFT)

  • 각 모델의 예상 비용

비용

모든 추론 및 Lambda 함수 호출은 AWS 계정에서 실행됩니다. Lambda 작업에는 Lambda의 공개 요금이 부과됩니다. 추론 요금(LLM-as-a-judge 평가 포함)은 온디맨드 추론에 대한 Bedrock의 공개 요금에 따라 청구됩니다. 추론 비용 외에 별도의 고급 프롬프트 최적화 서비스 요금은 없습니다. 현재 기본 LLM-as-a-judge 모델은 사용자 지정 LLMJ 프롬프트에 대해 다른 모델을 선택하지 않는 한 Anthropic Claude Sonnet 4.6입니다.

최적화 실행 비용을 추정하려면 프롬프트 최적화의 Bedrock 공개 요금 페이지와 계산 방법에 대한 고급 프롬프트 최적화를 참조하세요.

예상 기간

평가 샘플이 몇 개뿐인 단일 프롬프트의 경우 작업을 15~20분 동안 실행할 수 있습니다. 각각 평가 샘플이 많은 많은 많은 프롬프트의 경우 작업은 1시간 이상, 잠재적으로 여러 시간 동안 실행될 수 있습니다. 각 프롬프트 템플릿은 사용자가 제공하는 모든 평가 샘플 레코드를 기반으로 여러 단계의 추론, 평가 및 재작성 루프를 거치기 때문입니다.