Utilice el análisis inteligente Selección de una estrategia de fragmentación

Personalización de la ingesta de un origen de datos

Puede personalizar la ingesta vectorial al conectar una fuente de datos Consola de administración de AWS o al modificar el valor del vectorIngestionConfiguration campo al enviar una solicitud. CreateDataSource

Seleccione un tema para obtener información acerca de cómo incluir configuraciones para personalizar la ingesta al conectarse a un origen de datos:

Temas

Utilice el análisis inteligente
Selección de una estrategia de fragmentación

Utilice el análisis inteligente

Las bases de conocimiento gestionadas utilizan el análisis inteligente de forma predeterminada. El análisis inteligente es una estrategia de análisis gestionada por un servicio que selecciona automáticamente el mejor enfoque de análisis para su contenido. No es necesario configurar un modelo de análisis ni proporcionar ajustes adicionales.

Para utilizar el análisis inteligente, puede omitir el parsingConfiguration campo o especificarlo explícitamente de la vectorIngestionConfiguration siguiente manera:


{
    "parsingConfiguration": {
        "parsingStrategy": "SMART_PARSING"
    }
}

nota

Las bases de conocimiento gestionadas solo respaldan la SMART_PARSING estrategia. Otras estrategias de análisis, como BEDROCK_FOUNDATION_MODEL y no BEDROCK_DATA_AUTOMATION son compatibles.

Selección de una estrategia de fragmentación

Puede personalizar la forma en que se fragmentan los documentos de sus datos para su almacenamiento y recuperación. Para obtener más información sobre las opciones de fragmentación de datos en Bases de conocimiento de Amazon Bedrock, consulte Funcionamiento de la fragmentación de contenido para las bases de conocimiento.

aviso

No puede cambiar la configuración de fragmentación después de conectarse al origen de datos.

En elConsola de administración de AWS, usted elige la estrategia de fragmentación al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un ChunkingConfigurationen el chunkingConfiguration campo de. VectorIngestionConfiguration

Si omite esta configuración o especifica la estrategia de fragmentación predeterminada, el servicio utiliza una fragmentación de tamaño fijo con 300 tokens y un 20% de superposición.


{
    "chunkingConfiguration": {
        "chunkingStrategy": "DEFAULT"
    }
}

Amplía la sección correspondiente a la estrategia de fragmentación que quieres usar:

Para tratar cada documento del origen de datos como un fragmento de origen único, especifique NONE en el campo chunkingStrategy de ChunkingConfiguration, como en el siguiente formato:


{
    "chunkingStrategy": "NONE"
}

Para dividir cada documento de la fuente de datos en fragmentos de aproximadamente el mismo tamaño, especifique FIXED_SIZE en el chunkingStrategy campo ChunkingConfiguration e incluya una FixedSizeChunkingConfigurationen el fixedSizeChunkingConfiguration campo, como en el siguiente formato:


{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}

nota

Las bases de conocimiento gestionadas no admiten la fragmentación semántica.

Convenciones del documento

Web Crawler de

Observabilidad