同步数据来源

创建完知识库后，需要摄取或同步数据，以便查询数据。Ingestion 会将数据源中的原始数据转换为矢量嵌入。

在开始摄取之前，请检查您的数据来源是否满足以下条件：

您已经为数据来源配置了连接信息。请参见 Connect 数据源。在创建知识库的过程中，您可以配置数据来源。
您已经配置了所选的矢量嵌入模型。参见支持的矢量嵌入模型。在创建知识库的过程中，您可以配置向量嵌入。
文件采用受支持的格式。有关更多信息，请参阅支持的文档格式。
这些文件不超过《 AWS 一般参考》中的服务配额和配额中指定的摄取任务文件大小。

每次在数据来源中添加、修改或删除文件时，您都必须同步数据来源，以便将其重新索引到知识库中。同步是增量式的，因此 Amazon Bedrock 仅处理自上次同步以来添加、修改或删除的文档。

要了解如何将数据摄取到知识库中并同步最新数据，请选择与您的首选方法对应的选项卡，然后按照以下步骤操作：

Console

将数据摄取到知识库中并同步最新数据

登录 AWS 管理控制台并导航至 Amazon Bedrock AgentCore > Built-in 工具 > 知识库。
选择您的知识库。
在数据来源部分中，选择同步以开始数据摄取或同步最新数据。要停止当前正在同步的数据来源，请选择停止。数据来源当前必须处于同步状态才能停止同步该数据来源。您可以再次选择同步以摄取其余数据。
数据摄取完成后，如果成功则会显示绿色成功横幅。
您可以选择一个数据来源，查看其同步历史记录。选择查看警告以查看数据摄取作业失败的原因。

API

要将您的数据提取到知识库中并与最新数据同步，请向 Amazon Bedrock 构建时终端节点的代理发送StartIngestionJob请求。指定 knowledgeBaseId 和 dataSourceId。您还可以通过发送请求来停止当前正在运行的数据摄取任务。StopIngestionJob指定 dataSourceId、ingestionJobId 和 knowledgeBaseId。数据摄取作业必须当前正在运行才能停止数据摄取。准备就绪后，您可以再次发送 StartIngestionJob 请求以摄取其余的数据。

在 Amazon Bedrock 代理构建时终端节点的 GetIngestionJob请求中使用响应中ingestionJobId返回的内容来跟踪摄取任务的状态。此外，请指定 knowledgeBaseId 和 dataSourceId。

摄取作业完成后，响应中的 status 为 COMPLETE。
响应中的 statistics 对象会返回有关数据来源中文档的提取是否成功的信息。

您还可以使用适用于 Amazon Bedrock 的代理构建时终端节点发送ListIngestionJobs请求，从而查看数据源的所有摄取任务的信息。指定要将数据摄取到的知识库的 dataSourceId 和 knowledgeBaseId。

通过在 filters 对象中指定要搜索的状态来筛选结果。
通过指定 sortBy 对象，按作业启动时间或作业状态进行排序。您可以按升序或降序进行排序。
在 maxResults 字段中设置要在响应中返回的结果数量上限。如果结果数超过您设置的值，响应会返回 nextToken，您可以再发送一个 ListIngestionJobs 请求并在其中包含它，以查看下一批作业。

文档惯例

可观测性

查看有关数据来源的信息