本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自定义数据来源的摄取
在连接数据源时,您可以通过在发送请求时修改vectorIngestionConfiguration字段的值来自定义矢量摄取。AWS 管理控制台 CreateDataSource
选择一个主题,了解如何在连接到数据来源时,将自定义摄取所需的配置包括在内:
使用智能解析
默认情况下,托管知识库使用智能解析。智能解析是一种服务管理的解析策略,可自动为您的内容选择最佳的解析方法。您无需配置解析模型或提供其他设置。
要使用智能解析,可以省略该parsingConfiguration字段vectorIngestionConfiguration,也可以按如下方式明确指定该字段:
{ "parsingConfiguration": { "parsingStrategy": "SMART_PARSING" } }
注意
托管知识库仅支持该SMART_PARSING策略。不支持其他解析策略 BEDROCK_FOUNDATION_MODELBEDROCK_DATA_AUTOMATION,例如和。
选择分块策略
您可以自定义如何对数据中的文档进行分块,以进行存储和检索。要了解有关在 Amazon Bedrock 知识库中进行数据分块的选项,请参阅知识库的内容分块是如何运作的。
警告
连接到数据来源后,就无法更改分块策略。
在连接数据源时,AWS 管理控制台您可以选择分块策略。使用 Amazon Bedrock API,您可以ChunkingConfiguration在 “” chunkingConfiguration 字段中加入。VectorIngestionConfiguration
如果您省略此配置或指定默认分块策略,则该服务将使用固定大小的分块,其中包含 300 个令牌和 20% 的重叠。
{ "chunkingConfiguration": { "chunkingStrategy": "DEFAULT" } }
展开与您要使用的分块策略相对应的部分:
要将数据来源中的每个文档视为单个源分块,请在 ChunkingConfiguration 的 chunkingStrategy 字段中指定 NONE,格式如下:
{ "chunkingStrategy": "NONE" }
要将数据源中的每个文档分成大小大致相同的块,请在的chunkingStrategy字段FIXED_SIZE中指定,ChunkingConfiguration并在fixedSizeChunkingConfiguration字段FixedSizeChunkingConfiguration中包含一个,如下所示:
{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }
注意
托管知识库不支持语义分块。