Sincronizar uma fonte de dados

Depois de criar a base de conhecimento, ingira ou sincronize os dados para que eles possam ser consultados. A ingestão converte os dados brutos em sua fonte de dados em incorporações vetoriais.

Antes de começar a ingestão, verifique se a fonte de dados atende às seguintes condições:

Você configurou as informações de conexão da fonte de dados. Consulte Conectar uma fonte de dados. Você configura a fonte de dados como parte criação da base de conhecimento.
Você configurou o modelo de incorporação vetorial escolhido. Veja os modelos de incorporação vetorial compatíveis. Você configura as incorporações de vetores como parte da criação da base de conhecimento.
Os arquivos estão nos formatos compatíveis. Para obter mais informações, consulte Formatos de documentos compatíveis.
Os arquivos não excedem o tamanho do arquivo do trabalho de ingestão especificado em Cotas de serviço e cotas na AWS Referência geral.

Sempre que você adicionar, modificar ou remover arquivos da fonte de dados, sincronize a fonte de dados para que ela seja reindexada na base de conhecimento. A sincronização é incremental, portanto, o Amazon Bedrock processa somente documentos adicionados, modificados ou excluídos desde a última sincronização.

Para saber como ingerir dados na base de conhecimento e sincronizar com os dados mais recentes, escolha a guia correspondente ao método de sua preferência e siga as etapas:

Console

Saiba como ingerir dados na base de conhecimento e sincronizar com os dados mais recentes.

Faça login no Console de gerenciamento da AWS e navegue até Amazon Bedrock AgentCore > Built-in ferramentas > Base de conhecimento.
Escolha sua base de conhecimento.
Na seção Fonte de dados, selecione Sincronizar para iniciar a ingestão de dados ou a sincronização dos dados mais recentes. Para interromper a sincronização de uma fonte de dados em andamento, selecione Parar. Uma fonte de dados deve estar em sincronização para que a sincronização da fonte de dados seja interrompida. É possível selecionar Sincronizar novamente para ingerir o resto dos dados.
Quando a ingestão de dados for concluída, um banner verde de sucesso será exibido se ela tiver sido bem-sucedida.
Você pode escolher uma fonte de dados para ver o Histórico de sincronização. Selecione Visualizar avisos para ver por que um trabalho de ingestão de dados falhou.

API

Para ingerir seus dados em sua base de conhecimento e sincronizar com seus dados mais recentes, envie uma StartIngestionJobsolicitação com um endpoint de tempo de construção do Agents for Amazon Bedrock. Especifique o knowledgeBaseId e o dataSourceId. Você também pode interromper um trabalho de ingestão de dados que está em execução no momento enviando uma StopIngestionJobsolicitação. Especifique o dataSourceId, o ingestionJobId e o knowledgeBaseId. Um trabalho de ingestão de dados deve estar em execução para interromper a ingestão de dados. É possível enviar uma solicitação StartIngestionJob novamente para ingerir o resto dos seus dados quando tudo estiver pronto.

Use o ingestionJobId retornado na resposta em uma GetIngestionJobsolicitação com um endpoint de tempo de construção do Agents for Amazon Bedrock para rastrear o status do trabalho de ingestão. Além disso, especifique o knowledgeBaseId e o dataSourceId.

Quando o trabalho de ingestão for concluído, o status na resposta será COMPLETE.
O objeto statistics na resposta retorna informações sobre se a ingestão foi bem-sucedida ou não para documentos na fonte de dados.

Você também pode ver as informações de todos os trabalhos de ingestão de uma fonte de dados enviando uma ListIngestionJobssolicitação com um endpoint de tempo de construção do Agents for Amazon Bedrock. Especifique o dataSourceId e o knowledgeBaseId da base de conhecimento na qual os dados estão sendo ingeridos.

Filtre os resultados especificando um status a ser pesquisado no objeto filters.
Classifique pela hora em que o trabalho foi iniciado ou pelo status de um trabalho, especificando o objeto sortBy. É possível classificar em ordem crescente ou decrescente.
Defina o número máximo de resultados a serem retornados em uma resposta no campo maxResults. Se houver mais resultados do que o número definido, a resposta retornará um nextToken que você poderá enviar em outra solicitação ListIngestionJobs para ver o próximo lote de trabalhos.

Convenções do documento

Observabilidade

Visualizar informações sobre uma fonte de dados