データソースの取り込みをカスタマイズする

でデータソースを接続するとき、AWS マネジメントコンソールまたは CreateDataSource リクエストを送信するときに vectorIngestionConfigurationフィールドの値を変更することで、ベクトル取り込みをカスタマイズできます。

次のトピックを選択して、データソースへの接続時に取り込みをカスタマイズするための構成を含める方法を確認してください。

トピック

スマート解析を使用する
チャンキング戦略を選択する

スマート解析を使用する

マネージドナレッジベースは、デフォルトでスマート解析を使用します。スマート解析は、コンテンツに最適な解析アプローチを自動的に選択するサービスマネージド型の解析戦略です。解析モデルを設定したり、追加の設定を指定したりする必要はありません。

スマート解析を使用するには、から parsingConfigurationフィールドを省略するかvectorIngestionConfiguration、次のように明示的に指定します。


{
    "parsingConfiguration": {
        "parsingStrategy": "SMART_PARSING"
    }
}

注記

マネージドナレッジベースは SMART_PARSING戦略のみをサポートします。BEDROCK_FOUNDATION_MODEL やなどの他の解析戦略BEDROCK_DATA_AUTOMATIONはサポートされていません。

チャンキング戦略を選択する

データ内のドキュメントをチャンク分割して保存および取得する方法をカスタマイズできます。Amazon Bedrock ナレッジベースでデータをチャンク分割するオプションについては、「ナレッジベースのコンテンツのチャンキングの仕組み」を参照してください。

警告

データソースに接続した後はチャンキング戦略を変更できません。

AWS マネジメントコンソールで、データソースに接続するときにチャンキング戦略を選択します。Amazon Bedrock API を使用する場合は、VectorIngestionConfiguration の chunkingConfiguration フィールドに ChunkingConfiguration を含めます。

この設定を省略するか、デフォルトのチャンキング戦略を指定すると、サービスは 300 トークンと 20% の重複を含む固定サイズのチャンキングを使用します。


{
    "chunkingConfiguration": {
        "chunkingStrategy": "DEFAULT"
    }
}

使用するチャンキング戦略に対応するセクションを展開します。

データソース内の各ドキュメントを 1 つのソースチャンクとして扱うには、次の形式のように、ChunkingConfiguration の chunkingStrategy フィールドに NONE を指定します。


{
    "chunkingStrategy": "NONE"
}

データソース内の各ドキュメントをほぼ同じサイズのチャンクに分割するには、次の形式のように、ChunkingConfiguration の chunkingStrategy フィールドに FIXED_SIZE を指定し、fixedSizeChunkingConfiguration フィールドに FixedSizeChunkingConfiguration を含めます。


{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}

注記

セマンティックチャンキングは、マネージドナレッジベースではサポートされていません。

ドキュメントの表記規則

Web Crawler

オブザーバビリティ