Erfassen klinischer Daten mithilfe von Datengrundlagen für das Gesundheitswesen
Die klinische Transformationsfunktion wird als Teil der Datengrundlagen für das Gesundheitswesen bereitgestellt. Diese Funktion stellt sofort einsatzbereite Datenpipelines bereit, die Daten effizient für Analysen und KI-/Machine Learning-Modellierungen vorbereiten.
Weitere Informationen zur Bereitstellung und den verfügbaren Artefakten finden Sie unter:
- Übersicht über Datengrundlagen für das Gesundheitswesen
- Datengrundlagen für das Gesundheitswesen bereitstellen
Im Wesentlichen erstellt die Bereitstellung drei Lakehouses, fünf Notebooks, eine Fabric-Umgebung und eine klinische Datenpipeline in Ihrer Datenlösungsumgebung für das Gesundheitswesen. Diese Datenpipeline nimmt klinische Daten auf und wandelt sie aus den Rohquelldateien in die Bronze- und Silber-Lakehouses um. Wie unter Datenerfassungsmuster erläutert, werden zwei Erfassungsmuster unterstützt: Erfassen und Bring Your Own Storage (BYOS). Die Ausführung der BYOS-Erfassungspipeline wird unter Verwenden von Azure Health Data Services – Datenexport erläutert. In diesem Artikel wird beschrieben, wie Sie das Erfassungsmuster verwenden, um die klinischen Probendaten zu verarbeiten, die mit Datenlösungen für das Gesundheitswesen bereitgestellt werden.
Anmerkung
Sie können auch Ihr eigenes FHIR-DataSet anstelle des klinischen Beispieldatasets verwenden. Lesen Sie jedoch die Überlegungen unter Nutzungsüberlegungen , bevor Sie dies tun.
Anforderungen
- Datenlösungen für das Gesundheitswesen in Microsoft Fabric bereitstellen
- Installieren Sie die grundlegenden Notebooks und Pipelines unter Datengrundlagen für das Gesundheitswesen bereitstellen.
- Stellen Sie die klinischen Beispieldatensätze bereit, wie unter Bereitstellen von Beispieldaten erläutert.
Verschieben Sie die Daten der klinischen Probe in den Erfassungsordner
Wenn Sie die Beispieldaten wie unter Bereitstellen von Beispieldaten erläutert bereitstellen, sollten die klinischen Beispieldatendateien in der einheitlichen Ordnerstruktur unter Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
im Bronze-Lakehouse verfügbar sein. Verwenden Sie OneLake oder Azure Storage Explorer, um die 51KSyntheticPatients-Dateien von Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
in Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
in das Bronze-Lakehouse zu kopieren.
Führen Sie die Datenpipeline aus
Führen Sie die healthcare#_msft_clinical_data_foundation_ingestion-Datenpipeline im Bronze-Lakehouse aus. Abhängig von der Größe der klinischen Stichprobendaten und der dem Arbeitsbereich zugewiesenen Fabric-Kapazität sollte die Pipelineausführung in einer Stunde abgeschlossen sein. Nachdem die Pipelineausführung abgeschlossen ist, können Sie sehen, dass die Pipeline erfolgreich mit den Beispieldaten ausgeführt wurde, aber den Status Fehlgeschlagen für die fhir_ingestion_bronze_ingestion Notebookaktivität protokolliert hat.
Überprüfen von Daten
In realen Szenarien erfassen Sie Daten aus verschiedenen Quellen mit unterschiedlicher Qualität. Die Validierungs-Engine, die in der Datenvalidierung eingeführt wurde, löst absichtlich Validierungen für einige der bereitgestellten klinischen Probendaten aus. Während der Pipelineausführung schlägt die Erfassungsaktivität aufgrund der beabsichtigten Ungültigkeit der Beispieldaten fehl. Die fehlerhaften Dateien werden nicht verarbeitet und in den angegebenen Ordner Fehlgeschlagen verschoben. Alle anderen gültigen Dateien werden erfolgreich verarbeitet, was zu einem allgemeinen grünen/erfolgreichen Pipelinestatus führt.
Um den Fehler zu untersuchen, wählen Sie unter Aktivitätsstatus das Symbol neben dem Status Fehlgeschlagen aus. Sie enthält Informationen zum Auffinden der Fehlerdetails sowie eine Beispielabfrage SQL basierend auf dem runId
Wert in der Tabelle admin lakehouse BusinessEvents ". Dafür werden sieben Fehler angezeigt runId
, die alle auf Last Updated does not exist
zurückzuführen sind. Die entsprechende fehlerhafte NDJSON-Datei befindet sich im Ordner Fehlgeschlagen mit sourceFilePath
, der auf …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
verweist.
Die erfolgreich verarbeiteten Dateien verlassen den Ordner Erfassen (jetzt leer) und werden in den Ordner Prozess verschoben.
Sie können auch die erfassten Daten in der Bronze-Lakehouse-Tabelle ClinicalFhir und die entsprechenden FHIR-Tabellen im Healthcare-Datenmodell im Silver-Lakehouse untersuchen. Hier finden Sie eine Zusammenfassung der erwarteten Datensatzanzahl:
Admin-Lakehouse:
- BusinessEvents-Tabelle: Sieben Datensätze
Bronze Lakehouse:
- ClinicalFhir-Tabelle: 33,317,250 Datensätze
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: Keine DateienFiles\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 67 DateienFiles\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
: Eine Datei
Silber-Lakehouse:
- Patient-Tabelle: 47.564 Datensätze
- Beobachtungstabelle: 19,726,265 Datensätze
- RiskAssessment-Tabelle: Keine Datensätze
Überlegungen zur Nutzung
Beachten Sie bei der Erfassung von FHIR-Datasets in Datenlösungen für das Gesundheitswesen in Microsoft Fabric die folgenden Anforderungen:
- Alle Daten müssen das NDJSON-Format verwenden.
- Jede Datei darf nur Daten für eine einzelne FHIR-Ressource enthalten.
- Jede Ressource in der Datei erfordert ein Metadatenfeld mit einem gültigen Wert für
Meta.LastUpdated
. Wenn dieser Wert nicht vorhanden ist, tritt ein Standardvalidierungsfehler auf, wie unter Datenüberprüfung erläutert. - Jede Ressource in der Datei muss einen Wert für das
ID
Feld haben. Wenn dieser Wert nicht vorhanden ist, tritt ein Standardvalidierungsfehler auf, wie unter Datenüberprüfung erläutert.