本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
同步資料來源
建立知識庫之後,您可以擷取或同步資料,以便查詢資料。擷取會將資料來源中的原始資料轉換為向量內嵌。
開始擷取之前,請檢查您的資料來源是否符合下列條件:
-
您已設定資料來源的連線資訊。請參閱連接資料來源。您可以將資料來源設定為建立知識庫的一部分。
-
您已設定所選的向量內嵌模型。請參閱支援的向量內嵌模型。您可以將向量內嵌設定為建立知識庫的一部分。
-
檔案採用支援的格式。如需詳細資訊,請參閱支援的文件格式。
-
檔案不超過 AWS 一般參考中服務配額和配額中指定的擷取任務檔案大小。
每次從資料來源新增、修改或移除檔案時,都必須同步資料來源,使其重新編製索引至知識庫。同步是增量的,因此 Amazon Bedrock 只會處理自上次同步以來新增、修改或刪除的文件。
若要了解如何將資料擷取至知識庫並與最新資料同步,請選擇您偏好方法的索引標籤,然後遵循下列步驟:
- Console
-
將資料擷取到您的知識庫,並與最新的資料同步
-
登入 AWS 管理主控台 並導覽至 Amazon Bedrock AgentCore > 內建工具 > 知識庫。
-
選擇您的知識庫。
-
在資料來源區段中,選取同步以開始進行資料擷取或同步您最新的資料。若要停止目前正在同步的資料來源,請選取停止。資料來源必須目前正在進行同步,才能停止同步資料來源。您可以再次選取同步,以擷取剩餘的資料。
-
資料擷取完成時若顯示成功,就會出現綠色的成功橫幅。
-
您可以選擇資料來源以檢視其同步歷史記錄。選取檢視警告,查看資料擷取作業失敗的原因。
- API
-
若要將資料擷取到您的知識庫並與最新資料同步,請使用 Amazon Bedrock 代理人建置時期端點傳送 StartIngestionJob 請求。指定 knowledgeBaseId 和 dataSourceId。您也可以傳送 StopIngestionJob 請求來停止目前正在執行的資料擷取任務。指定 dataSourceId、ingestionJobId 和 knowledgeBaseId。資料擷取任務必須目前正在執行,才能停止資料擷取。當您準備好時,可以再次傳送 StartIngestionJob 請求,以擷取您的其餘資料。
使用透過 Amazon Bedrock 代理人建置時期端點的 GetIngestionJob 請求中傳回的 ingestionJobId,以追蹤擷取任務的狀態。此外,指定 knowledgeBaseId 和 dataSourceId。
您也可以使用 Amazon Bedrock 代理人建置時期端點傳送 ListIngestionJobs 請求,來查看資料來源所有擷取任務的資訊。指定要擷取資料的目的地知識庫的 dataSourceId 和 knowledgeBaseId。
-
透過指定在 filters 物件中搜尋狀態來篩選結果。
-
透過指定 sortBy 物件,依任務開始時間或任務狀態排序。您可以依遞增或遞減順序排序。
-
設定在 maxResults 欄位中在回應中傳回的結果數量上限。如果結果數目多於您設定的數目,回應會傳回您可以在另一個 ListIngestionJobs 請求中傳送的 nextToken,如此即可查看下一批任務。