自定义数据来源的摄取

在连接数据源时，您可以通过在发送请求时修改vectorIngestionConfiguration字段的值来自定义矢量摄取。AWS 管理控制台 CreateDataSource

选择一个主题，了解如何在连接到数据来源时，将自定义摄取所需的配置包括在内：

主题

使用智能解析
选择分块策略

使用智能解析

默认情况下，托管知识库使用智能解析。智能解析是一种服务管理的解析策略，可自动为您的内容选择最佳的解析方法。您无需配置解析模型或提供其他设置。

要使用智能解析，可以省略该parsingConfiguration字段vectorIngestionConfiguration，也可以按如下方式明确指定该字段：


{
    "parsingConfiguration": {
        "parsingStrategy": "SMART_PARSING"
    }
}

注意

托管知识库仅支持该SMART_PARSING策略。不支持其他解析策略 BEDROCK_FOUNDATION_MODELBEDROCK_DATA_AUTOMATION，例如和。

选择分块策略

您可以自定义如何对数据中的文档进行分块，以进行存储和检索。要了解有关在 Amazon Bedrock 知识库中进行数据分块的选项，请参阅知识库的内容分块是如何运作的。

警告

连接到数据来源后，就无法更改分块策略。

在连接数据源时，AWS 管理控制台您可以选择分块策略。使用 Amazon Bedrock API，您可以ChunkingConfiguration在 “” chunkingConfiguration 字段中加入。VectorIngestionConfiguration

如果您省略此配置或指定默认分块策略，则该服务将使用固定大小的分块，其中包含 300 个令牌和 20% 的重叠。


{
    "chunkingConfiguration": {
        "chunkingStrategy": "DEFAULT"
    }
}

展开与您要使用的分块策略相对应的部分：

要将数据来源中的每个文档视为单个源分块，请在 ChunkingConfiguration 的 chunkingStrategy 字段中指定 NONE，格式如下：


{
    "chunkingStrategy": "NONE"
}

要将数据源中的每个文档分成大小大致相同的块，请在的chunkingStrategy字段FIXED_SIZE中指定，ChunkingConfiguration并在fixedSizeChunkingConfiguration字段FixedSizeChunkingConfiguration中包含一个，如下所示：


{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}

注意

托管知识库不支持语义分块。

文档惯例

网络爬虫

可观测性