Freigeben über


Erfassen klinischer Daten mithilfe von Datengrundlagen für das Gesundheitswesen

Die klinische Transformationsfunktion wird als Teil der Datengrundlagen für das Gesundheitswesen bereitgestellt. Diese Funktion stellt sofort einsatzbereite Datenpipelines bereit, die Daten effizient für Analysen und KI-/Machine Learning-Modellierungen vorbereiten.

Weitere Informationen zur Bereitstellung und den verfügbaren Artefakten finden Sie unter:

Im Wesentlichen erstellt die Bereitstellung drei Lakehouses, fünf Notebooks, eine Fabric-Umgebung und eine klinische Datenpipeline in Ihrer Datenlösungsumgebung für das Gesundheitswesen. Diese Datenpipeline nimmt klinische Daten auf und wandelt sie aus den Rohquelldateien in die Bronze- und Silber-Lakehouses um. Wie unter Datenerfassungsmuster erläutert, werden zwei Erfassungsmuster unterstützt: Erfassen und Bring Your Own Storage (BYOS). Die Ausführung der BYOS-Erfassungspipeline wird unter Verwenden von Azure Health Data Services – Datenexport erläutert. In diesem Artikel wird beschrieben, wie Sie das Erfassungsmuster verwenden, um die klinischen Probendaten zu verarbeiten, die mit Datenlösungen für das Gesundheitswesen bereitgestellt werden.

Anmerkung

Sie können auch Ihr eigenes FHIR-DataSet anstelle des klinischen Beispieldatasets verwenden. Lesen Sie jedoch die Überlegungen unter Nutzungsüberlegungen , bevor Sie dies tun.

Anforderungen

Verschieben Sie die Daten der klinischen Probe in den Erfassungsordner

Wenn Sie die Beispieldaten wie unter Bereitstellen von Beispieldaten erläutert bereitstellen, sollten die klinischen Beispieldatendateien in der einheitlichen Ordnerstruktur unter Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients im Bronze-Lakehouse verfügbar sein. Verwenden Sie OneLake oder Azure Storage Explorer, um die 51KSyntheticPatients-Dateien von Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS in Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS in das Bronze-Lakehouse zu kopieren.

Führen Sie die Datenpipeline aus

Führen Sie die healthcare#_msft_clinical_data_foundation_ingestion-Datenpipeline im Bronze-Lakehouse aus. Abhängig von der Größe der klinischen Stichprobendaten und der dem Arbeitsbereich zugewiesenen Fabric-Kapazität sollte die Pipelineausführung in einer Stunde abgeschlossen sein. Nachdem die Pipelineausführung abgeschlossen ist, können Sie sehen, dass die Pipeline erfolgreich mit den Beispieldaten ausgeführt wurde, aber den Status Fehlgeschlagen für die fhir_ingestion_bronze_ingestion Notebookaktivität protokolliert hat.

Ein Screenshot, der eine Beispieldatenpipelineausführung für die Erfassung klinischer Daten zeigt.

Überprüfen von Daten

In realen Szenarien erfassen Sie Daten aus verschiedenen Quellen mit unterschiedlicher Qualität. Die Validierungs-Engine, die in der Datenvalidierung eingeführt wurde, löst absichtlich Validierungen für einige der bereitgestellten klinischen Probendaten aus. Während der Pipelineausführung schlägt die Erfassungsaktivität aufgrund der beabsichtigten Ungültigkeit der Beispieldaten fehl. Die fehlerhaften Dateien werden nicht verarbeitet und in den angegebenen Ordner Fehlgeschlagen verschoben. Alle anderen gültigen Dateien werden erfolgreich verarbeitet, was zu einem allgemeinen grünen/erfolgreichen Pipelinestatus führt.

Um den Fehler zu untersuchen, wählen Sie unter Aktivitätsstatus das Symbol neben dem Status Fehlgeschlagen aus. Sie enthält Informationen zum Auffinden der Fehlerdetails sowie eine Beispielabfrage SQL basierend auf dem runId Wert in der Tabelle admin lakehouse BusinessEvents ". Dafür werden sieben Fehler angezeigt runId, die alle auf Last Updated does not exist zurückzuführen sind. Die entsprechende fehlerhafte NDJSON-Datei befindet sich im Ordner Fehlgeschlagen mit sourceFilePath, der auf …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip verweist.

Ein Screenshot mit den Fehlerdetails in der BusinessEvents-Tabelle.

Die erfolgreich verarbeiteten Dateien verlassen den Ordner Erfassen (jetzt leer) und werden in den Ordner Prozess verschoben.

Sie können auch die erfassten Daten in der Bronze-Lakehouse-Tabelle ClinicalFhir und die entsprechenden FHIR-Tabellen im Healthcare-Datenmodell im Silver-Lakehouse untersuchen. Hier finden Sie eine Zusammenfassung der erwarteten Datensatzanzahl:

  • Admin-Lakehouse:

    • BusinessEvents-Tabelle: Sieben Datensätze
  • Bronze Lakehouse:

    • ClinicalFhir-Tabelle: 33,317,250 Datensätze
    • Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients: Keine Dateien
    • Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 Dateien
    • Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients: Eine Datei
  • Silber-Lakehouse:

    • Patient-Tabelle: 47.564 Datensätze
    • Beobachtungstabelle: 19,726,265 Datensätze
    • RiskAssessment-Tabelle: Keine Datensätze

Überlegungen zur Nutzung

Beachten Sie bei der Erfassung von FHIR-Datasets in Datenlösungen für das Gesundheitswesen in Microsoft Fabric die folgenden Anforderungen:

  • Alle Daten müssen das NDJSON-Format verwenden.
  • Jede Datei darf nur Daten für eine einzelne FHIR-Ressource enthalten.
  • Jede Ressource in der Datei erfordert ein Metadatenfeld mit einem gültigen Wert für Meta.LastUpdated. Wenn dieser Wert nicht vorhanden ist, tritt ein Standardvalidierungsfehler auf, wie unter Datenüberprüfung erläutert.
  • Jede Ressource in der Datei muss einen Wert für das ID Feld haben. Wenn dieser Wert nicht vorhanden ist, tritt ein Standardvalidierungsfehler auf, wie unter Datenüberprüfung erläutert.