View a markdown version of this page

同步資料來源 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

同步資料來源

建立知識庫之後,您可以擷取或同步資料,以便查詢資料。擷取會將資料來源中的原始資料轉換為向量內嵌。

開始擷取之前,請檢查您的資料來源是否符合下列條件:

  • 您已設定資料來源的連線資訊。請參閱連接資料來源。您可以將資料來源設定為建立知識庫的一部分。

  • 您已設定所選的向量內嵌模型。請參閱支援的向量內嵌模型。您可以將向量內嵌設定為建立知識庫的一部分。

  • 檔案採用支援的格式。如需詳細資訊,請參閱支援的文件格式

  • 檔案不超過 AWS 一般參考中服務配額和配額中指定的擷取任務檔案大小

每次從資料來源新增、修改或移除檔案時,都必須同步資料來源,使其重新編製索引至知識庫。同步是增量的,因此 Amazon Bedrock 只會處理自上次同步以來新增、修改或刪除的文件。

若要了解如何將資料擷取至知識庫並與最新資料同步,請選擇您偏好方法的索引標籤,然後遵循下列步驟:

Console
將資料擷取到您的知識庫,並與最新的資料同步
  1. 登入 AWS 管理主控台 並導覽至 Amazon Bedrock AgentCore > 內建工具 > 知識庫

  2. 選擇您的知識庫。

  3. 資料來源區段中,選取同步以開始進行資料擷取或同步您最新的資料。若要停止目前正在同步的資料來源,請選取停止。資料來源必須目前正在進行同步,才能停止同步資料來源。您可以再次選取同步,以擷取剩餘的資料。

  4. 資料擷取完成時若顯示成功,就會出現綠色的成功橫幅。

  5. 您可以選擇資料來源以檢視其同步歷史記錄。選取檢視警告,查看資料擷取作業失敗的原因。

API

若要將資料擷取到您的知識庫並與最新資料同步,請使用 Amazon Bedrock 代理人建置時期端點傳送 StartIngestionJob 請求。指定 knowledgeBaseIddataSourceId。您也可以傳送 StopIngestionJob 請求來停止目前正在執行的資料擷取任務。指定 dataSourceIdingestionJobIdknowledgeBaseId。資料擷取任務必須目前正在執行,才能停止資料擷取。當您準備好時,可以再次傳送 StartIngestionJob 請求,以擷取您的其餘資料。

使用透過 Amazon Bedrock 代理人建置時期端點GetIngestionJob 請求中傳回的 ingestionJobId,以追蹤擷取任務的狀態。此外,指定 knowledgeBaseIddataSourceId

  • 擷取任務完成時,回應中的 statusCOMPLETE

  • 回應中的 statistics 物件會傳回資料來源中文件擷取是否成功的相關資訊。

您也可以使用 Amazon Bedrock 代理人建置時期端點傳送 ListIngestionJobs 請求,來查看資料來源所有擷取任務的資訊。指定要擷取資料的目的地知識庫的 dataSourceIdknowledgeBaseId

  • 透過指定在 filters 物件中搜尋狀態來篩選結果。

  • 透過指定 sortBy 物件,依任務開始時間或任務狀態排序。您可以依遞增或遞減順序排序。

  • 設定在 maxResults 欄位中在回應中傳回的結果數量上限。如果結果數目多於您設定的數目,回應會傳回您可以在另一個 ListIngestionJobs 請求中傳送的 nextToken,如此即可查看下一批任務。