View a markdown version of this page

データソースの取り込みをカスタマイズする - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データソースの取り込みをカスタマイズする

でデータソースを接続するとき、AWS マネジメントコンソールまたは CreateDataSource リクエストを送信するときに vectorIngestionConfigurationフィールドの値を変更することで、ベクトル取り込みをカスタマイズできます。

次のトピックを選択して、データソースへの接続時に取り込みをカスタマイズするための構成を含める方法を確認してください。

スマート解析を使用する

マネージドナレッジベースは、デフォルトでスマート解析を使用します。スマート解析は、コンテンツに最適な解析アプローチを自動的に選択するサービスマネージド型の解析戦略です。解析モデルを設定したり、追加の設定を指定したりする必要はありません。

スマート解析を使用するには、 から parsingConfigurationフィールドを省略するかvectorIngestionConfiguration、次のように明示的に指定します。

{ "parsingConfiguration": { "parsingStrategy": "SMART_PARSING" } }
注記

マネージドナレッジベースは SMART_PARSING戦略のみをサポートします。BEDROCK_FOUNDATION_MODEL や などの他の解析戦略BEDROCK_DATA_AUTOMATIONはサポートされていません。

チャンキング戦略を選択する

データ内のドキュメントをチャンク分割して保存および取得する方法をカスタマイズできます。Amazon Bedrock ナレッジベースでデータをチャンク分割するオプションについては、「ナレッジベースのコンテンツのチャンキングの仕組み」を参照してください。

警告

データソースに接続した後はチャンキング戦略を変更できません。

AWS マネジメントコンソールで、データソースに接続するときにチャンキング戦略を選択します。Amazon Bedrock API を使用する場合は、VectorIngestionConfigurationchunkingConfiguration フィールドに ChunkingConfiguration を含めます。

この設定を省略するか、デフォルトのチャンキング戦略を指定すると、サービスは 300 トークンと 20% の重複を含む固定サイズのチャンキングを使用します。

{ "chunkingConfiguration": { "chunkingStrategy": "DEFAULT" } }

使用するチャンキング戦略に対応するセクションを展開します。

データソース内の各ドキュメントを 1 つのソースチャンクとして扱うには、次の形式のように、ChunkingConfigurationchunkingStrategy フィールドに NONE を指定します。

{ "chunkingStrategy": "NONE" }

データソース内の各ドキュメントをほぼ同じサイズのチャンクに分割するには、次の形式のように、ChunkingConfigurationchunkingStrategy フィールドに FIXED_SIZE を指定し、fixedSizeChunkingConfiguration フィールドに FixedSizeChunkingConfiguration を含めます。

{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }
注記

セマンティックチャンキングは、マネージドナレッジベースではサポートされていません。