Sincronizzare un’origine dati

Dopo aver creato la knowledge base, importa o sincronizza i dati in modo che possano essere interrogati. Ingestion converte i dati grezzi della tua fonte di dati in incorporamenti vettoriali.

Prima di iniziare l’importazione, verificare che l’origine dati soddisfi le seguenti condizioni:

Le informazioni sulla connessione dell’origine dati sono state configurate. Vedi Connect a data source. La configurazione dell’origine dati viene effettuata nell’ambito della creazione della knowledge base.
Hai configurato il modello di incorporamenti vettoriali scelto. Vedi i modelli di incorporamento vettoriale supportati. La configurazione degli embedding vettoriali viene effettuata nell’ambito della creazione della knowledge base.
I file sono nei formati supportati. Per ulteriori informazioni, consulta Formati di documenti supportati.
I file non superano la dimensione del file del processo di importazione specificata in Quote e quote di servizio nella Guida generale. AWS

Ogni volta che vengono aggiunti, modificati o rimossi file dall’origine dati, è necessario sincronizzare l’origine dati in modo che venga reindicizzata nella knowledge base. La sincronizzazione è incrementale, quindi Amazon Bedrock elabora solo i documenti aggiunti, modificati o eliminati dall’ultima sincronizzazione.

Per sapere come inserire i dati nella tua knowledge base e sincronizzarli con i dati più recenti, scegliere la scheda corrispondente al metodo preferito, poi seguire la procedura:

Console

Come importare i dati nella knowledge base e sincronizzarli con i dati più recenti

Accedi Console di gestione AWS e accedi ad Amazon Bedrock AgentCore > Built-in tools > Knowledge Base.
Scegli la tua knowledge base.
Nella sezione Origine dati, seleziona Sincronizza per iniziare l’importazione dei dati o la sincronizzazione dei dati più recenti. Per interrompere la sincronizzazione di un’origine dati attualmente in corso, seleziona Interrompi. Per interrompere la sincronizzazione dell’origine dati, la sincronizzazione dell’origine dati deve essere attualmente in esecuzione. Puoi selezionare nuovamente Sincronizza per importare il resto dei tuoi dati.
Al termine dell’importazione di dati, se l’operazione è riuscita, viene visualizzato un banner verde di successo.
Puoi scegliere un’origine dati per visualizzarne la cronologia di sincronizzazione. Seleziona Visualizza avvisi per scoprire perché un processo di importazione dei dati non è riuscito.

API

Per inserire i tuoi dati nella tua knowledge base e sincronizzarli con i dati più recenti, invia una StartIngestionJobrichiesta a un endpoint in fase di costruzione di Agents for Amazon Bedrock. Specifica knowledgeBaseId e dataSourceId. Puoi anche interrompere un processo di inserimento dati attualmente in esecuzione inviando una richiesta. StopIngestionJob Specifica il dataSourceId, il ingestionJobId e il knowledgeBaseId. Per interrompere l’importazione dei dati, il processo deve essere attualmente in esecuzione. Puoi inviare nuovamente una richiesta StartIngestionJob per importare il resto dei tuoi dati quando è tutto pronto.

Utilizza il valore ingestionJobId restituito nella risposta a una GetIngestionJobrichiesta con un endpoint di compilazione Agents for Amazon Bedrock per tenere traccia dello stato del processo di inserimento. Inoltre, specifica il knowledgeBaseId e il dataSourceId.

Al termine del processo di importazione, lo status della risposta è COMPLETE.
L'oggetto statistics nella risposta restituisce informazioni sull'esito, positivo o negativo, dell'importazione dei documenti nell'origine dati.

Puoi anche visualizzare le informazioni per tutti i lavori di inserimento per un'origine dati inviando una ListIngestionJobsrichiesta a un endpoint di build Agents for Amazon Bedrock. Specifica il dataSourceId e il knowledgeBaseId della knowledge base in cui vengono importati i dati.

Filtra i risultati specificando lo stato da cercare nell’oggetto filters.
Ordina in base all’ora di avvio del processo o allo stato di un processo specificando l’oggetto sortBy. Puoi scegliere l’ordinamento crescente o decrescente.
Puoi impostare il numero massimo di risultati che dovranno essere restituiti nella risposta nel campo maxResults. Se i risultati sono superiori al numero impostato, la risposta restituisce un nextToken che puoi inviare in un'altra richiesta ListIngestionJobs per visualizzare il successivo batch di processi.

Convenzioni dei documenti

Osservabilità

Visualizzare informazioni su un’origine dati