Condividi tramite


Inserire dati clinici utilizzando Data foundation per il settore sanitario

La funzionalità di trasformazione clinica viene distribuita con Data foundation per il settore sanitario. Questa funzionalità fornisce pipeline di dati pronte all'esecuzione che preparano in modo efficiente i dati per l'analisi e la modellazione basata su intelligenza artificiale/apprendimento automatico.

Per altre informazioni sulla distribuzione e sugli artefatti disponibili, vedi:

Essenzialmente, la distribuzione crea tre lakehouse, cinque notebook, un ambiente Fabric e una pipeline di dati clinici nell'ambiente delle soluzioni per dati sanitari. Questa pipeline di dati inserisce i dati clinici e li trasforma dai file di origine non elaborati nei lakehouse Bronze e Silver. Come descritto in Modelli di inserimento di dati, supporta due modelli di inserimento, ovvero Ingest e BYOS (Bring Your Own Storage). L'esecuzione della pipeline di inserimento BYOS è descritta in Usare Servizi per i dati sanitari di Azure - Esportazione dati. Questo articolo descrive come usare il modello Ingest per elaborare i dati di esempio clinici forniti con le soluzioni per dati sanitari.

Nota

Puoi anche usare il tuo set di dati FHIR anziché il set di dati di esempio clinico. Tuttavia, esamina dapprima le considerazioni in Considerazioni sull'utilizzo.

Prerequisiti

Spostare i dati di esempio clinici nella cartella di inserimento

Quando distribuisci i dati di esempio come descritto in Distribuire i dati di esempio, i file di dati di esempio clinici devono essere disponibili nella struttura di cartelle unificata in Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients nel lakehouse Bronze. Usa OneLake o Azure Storage Explorer per copiare i file 51KSyntheticPatients da Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS a Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS nel lakehouse Bronze.

Eseguire la pipeline di dati

Esegui la pipeline di dati healthcare#_msft_clinical_data_foundation_ingestion nel lakehouse Bronze. A seconda delle dimensioni dei dati di esempio clinici e della capacità Fabric assegnata all'area di lavoro, l'esecuzione della pipeline deve essere completata in un'ora. Al termine dell'esecuzione della pipeline, puoi vedere che la pipeline è stata eseguita correttamente sui dati di esempio ma ha registrato uno stato Non riuscito per l'attività del notebook fhir_ingestion_bronze_ingestion.

Screenshot che mostra l'esecuzione di una pipeline di dati di esempio per l'inserimento di dati clinici.

Convalidare i dati

In scenari reali, acquisirai dati da varie origini con diversi livelli di qualità. Il motore di convalida, introdotto in Convalida dei dati, attiva intenzionalmente le convalide di alcuni dei dati di esempio clinici forniti. Durante l'esecuzione della pipeline, l'attività di inserimento ha esito negativo a causa dell'invalidità intenzionale dei dati di esempio. I file con errori non vengono elaborati e vengono spostati nella cartella Failed. Tutti gli altri file validi vengono elaborati correttamente, generando uno stato generale della pipeline verde/riuscito.

Per analizzare l'errore, seleziona l'icona accanto allo stato Non riuscito. Fornisce informazioni su come individuare i dettagli dell'errore, insieme a una query SQL di esempio basata sul valore runId nella tabella BusinessEvents del lakehouse di amministrazione. Vengono visualizzati sette errori per questo runId, tutti dovuti a Last Updated does not exist. Il file NDJSON con errori corrispondente si trova nella cartella Failed con sourceFilePath che punta a …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip.

Screenshot che mostra i dettagli dell'errore nella tabella BusinessEvents.

I file elaborati correttamente vengono spostati dalla cartella Ingest (ora vuota) alla cartella Process.

Puoi anche esplorare i dati inseriti nella tabella ClinicalFhir del lakehouse Bronze e le rispettive tabelle FHIR nel modello di dati per il settore sanitario nel lakehouse Silver. Di seguito è riportato un riepilogo dei conteggi di record previsti:

  • Lakehouse di amministrazione:

    • Tabella BusinessEvents: sette record
  • Lakehouse Bronze:

    • Tabella ClinicalFhir: 33.317.250 record
    • Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients: nessun file
    • Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 file
    • Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients: un file
  • Lakehouse Silver:

    • Tabella Patient: 47.564 record
    • Tabella Observation: 19.726.265 record
    • Tabella RiskAssessment: nessun record

Considerazioni sull'utilizzo

Quando inserisci set di dati FHIR nelle soluzioni per dati sanitari in Microsoft Fabric, prendi in considerazione i requisiti seguenti:

  • Tutti i dati devono usare il formato NDJSON.
  • Ogni file deve contenere solo i dati per una singola risorsa FHIR.
  • Ogni risorsa nel file richiede un campo di metadati con un valore valido per Meta.LastUpdated. Se questo valore non è presente, si verifica un errore di convalida predefinito come illustrato in Convalida dei dati.
  • Ogni risorsa nel file deve avere un valore per il campo ID. Se questo valore non è presente, si verifica un errore di convalida predefinito come illustrato in Convalida dei dati.