

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 自定义数据来源的摄取
<a name="kb-managed-customize-ingestion"></a>

在连接数据源时，您可以通过在发送请求时修改`vectorIngestionConfiguration`字段的值来自定义矢量摄取。AWS 管理控制台 [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)

选择一个主题，了解如何在连接到数据来源时，将自定义摄取所需的配置包括在内：

**Topics**
+ [使用智能解析](#kb-managed-customize-parsing)
+ [选择分块策略](#kb-managed-customize-chunking)

## 使用智能解析
<a name="kb-managed-customize-parsing"></a>

默认情况下，托管知识库使用智能解析。智能解析是一种服务管理的解析策略，可自动为您的内容选择最佳的解析方法。您无需配置解析模型或提供其他设置。

要使用智能解析，可以省略该`parsingConfiguration`字段`vectorIngestionConfiguration`，也可以按如下方式明确指定该字段：

```
{
    "parsingConfiguration": {
        "parsingStrategy": "SMART_PARSING"
    }
}
```

**注意**  
托管知识库仅支持该`SMART_PARSING`策略。不支持其他解析策略 `BEDROCK_FOUNDATION_MODEL``BEDROCK_DATA_AUTOMATION`，例如和。

## 选择分块策略
<a name="kb-managed-customize-chunking"></a>

您可以自定义如何对数据中的文档进行分块，以进行存储和检索。要了解有关在 Amazon Bedrock 知识库中进行数据分块的选项，请参阅[知识库的内容分块是如何运作的](kb-chunking.md)。

**警告**  
连接到数据来源后，就无法更改分块策略。

在连接数据源时，AWS 管理控制台您可以选择分块策略。使用 Amazon Bedrock API，您可以[ChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ChunkingConfiguration.html)在 “” `chunkingConfiguration` 字段中加入。[VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)

如果您省略此配置或指定默认分块策略，则该服务将使用固定大小的分块，其中包含 300 个令牌和 20% 的重叠。

```
{
    "chunkingConfiguration": {
        "chunkingStrategy": "DEFAULT"
    }
}
```

展开与您要使用的分块策略相对应的部分：

### 不分块
<a name="w2aac32c12c25c13c17c11c15b1"></a>

要将数据来源中的每个文档视为单个源分块，请在 `ChunkingConfiguration` 的 `chunkingStrategy` 字段中指定 `NONE`，格式如下：

```
{
    "chunkingStrategy": "NONE"
}
```

### Fixed-size 分块
<a name="w2aac32c12c25c13c17c11c15b3"></a>

要将数据源中的每个文档分成大小大致相同的块，请在的`chunkingStrategy`字段`FIXED_SIZE`中指定，`ChunkingConfiguration`并在`fixedSizeChunkingConfiguration`字段[FixedSizeChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_FixedSizeChunkingConfiguration.html)中包含一个，如下所示：

```
{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}
```

**注意**  
托管知识库不支持语义分块。