Inserire dati clinici utilizzando Data foundation per il settore sanitario
La funzionalità di trasformazione clinica viene distribuita con Data foundation per il settore sanitario. Questa funzionalità fornisce pipeline di dati pronte all'esecuzione che preparano in modo efficiente i dati per l'analisi e la modellazione basata su intelligenza artificiale/apprendimento automatico.
Per altre informazioni sulla distribuzione e sugli artefatti disponibili, vedi:
- Panoramica di Data foundation per il settore sanitario
- Distribuire Data foundation per il settore sanitario
Essenzialmente, la distribuzione crea tre lakehouse, cinque notebook, un ambiente Fabric e una pipeline di dati clinici nell'ambiente delle soluzioni per dati sanitari. Questa pipeline di dati inserisce i dati clinici e li trasforma dai file di origine non elaborati nei lakehouse Bronze e Silver. Come descritto in Modelli di inserimento di dati, supporta due modelli di inserimento, ovvero Ingest e BYOS (Bring Your Own Storage). L'esecuzione della pipeline di inserimento BYOS è descritta in Usare Servizi per i dati sanitari di Azure - Esportazione dati. Questo articolo descrive come usare il modello Ingest per elaborare i dati di esempio clinici forniti con le soluzioni per dati sanitari.
Nota
Puoi anche usare il tuo set di dati FHIR anziché il set di dati di esempio clinico. Tuttavia, esamina dapprima le considerazioni in Considerazioni sull'utilizzo.
Prerequisiti
- Distribuire soluzioni per dati sanitari in Microsoft Fabric
- Installa i notebook e le pipeline di base in Distribuire Data foundation per il settore sanitario.
- Distribuisci i dati di esempio clinici come spiegato in Distribuire dati di esempio.
Spostare i dati di esempio clinici nella cartella di inserimento
Quando distribuisci i dati di esempio come descritto in Distribuire i dati di esempio, i file di dati di esempio clinici devono essere disponibili nella struttura di cartelle unificata in Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
nel lakehouse Bronze. Usa OneLake o Azure Storage Explorer per copiare i file 51KSyntheticPatients da Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
a Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
nel lakehouse Bronze.
Eseguire la pipeline di dati
Esegui la pipeline di dati healthcare#_msft_clinical_data_foundation_ingestion nel lakehouse Bronze. A seconda delle dimensioni dei dati di esempio clinici e della capacità Fabric assegnata all'area di lavoro, l'esecuzione della pipeline deve essere completata in un'ora. Al termine dell'esecuzione della pipeline, puoi vedere che la pipeline è stata eseguita correttamente sui dati di esempio ma ha registrato uno stato Non riuscito per l'attività del notebook fhir_ingestion_bronze_ingestion.
Convalidare i dati
In scenari reali, acquisirai dati da varie origini con diversi livelli di qualità. Il motore di convalida, introdotto in Convalida dei dati, attiva intenzionalmente le convalide di alcuni dei dati di esempio clinici forniti. Durante l'esecuzione della pipeline, l'attività di inserimento ha esito negativo a causa dell'invalidità intenzionale dei dati di esempio. I file con errori non vengono elaborati e vengono spostati nella cartella Failed. Tutti gli altri file validi vengono elaborati correttamente, generando uno stato generale della pipeline verde/riuscito.
Per analizzare l'errore, seleziona l'icona accanto allo stato Non riuscito. Fornisce informazioni su come individuare i dettagli dell'errore, insieme a una query SQL di esempio basata sul valore runId
nella tabella BusinessEvents del lakehouse di amministrazione. Vengono visualizzati sette errori per questo runId
, tutti dovuti a Last Updated does not exist
. Il file NDJSON con errori corrispondente si trova nella cartella Failed con sourceFilePath
che punta a …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
.
I file elaborati correttamente vengono spostati dalla cartella Ingest (ora vuota) alla cartella Process.
Puoi anche esplorare i dati inseriti nella tabella ClinicalFhir del lakehouse Bronze e le rispettive tabelle FHIR nel modello di dati per il settore sanitario nel lakehouse Silver. Di seguito è riportato un riepilogo dei conteggi di record previsti:
Lakehouse di amministrazione:
- Tabella BusinessEvents: sette record
Lakehouse Bronze:
- Tabella ClinicalFhir: 33.317.250 record
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: nessun fileFiles\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 67 fileFiles\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
: un file
Lakehouse Silver:
- Tabella Patient: 47.564 record
- Tabella Observation: 19.726.265 record
- Tabella RiskAssessment: nessun record
Considerazioni sull'utilizzo
Quando inserisci set di dati FHIR nelle soluzioni per dati sanitari in Microsoft Fabric, prendi in considerazione i requisiti seguenti:
- Tutti i dati devono usare il formato NDJSON.
- Ogni file deve contenere solo i dati per una singola risorsa FHIR.
- Ogni risorsa nel file richiede un campo di metadati con un valore valido per
Meta.LastUpdated
. Se questo valore non è presente, si verifica un errore di convalida predefinito come illustrato in Convalida dei dati. - Ogni risorsa nel file deve avere un valore per il campo
ID
. Se questo valore non è presente, si verifica un errore di convalida predefinito come illustrato in Convalida dei dati.