医療データ ファンデーションを使用して臨床データを取り込む
臨床変換機能は、医療データ ファンデーションの一部として展開されます。 この機能により、分析や AI/機械学習モデリング用のデータを効率的に準備する、すぐに実行できるデータ パイプラインが提供されます。
展開と使用可能なアーティファクトの詳細については、以下を参照してください。
基本的に、展開により、医療データ ソリューション環境に 3 つのレイクハウス、5 つのノートブック、Fabric 環境、臨床データ パイプラインが作成されます。 このデータ パイプラインは、臨床データを取り込み、生のソースファイルからブロンズ レイクハウスとシルバー レイクハウスに変換します。 データ インジェスト パターン で説明されているように、インジェスト と Bring Your Own Storage (BYOS) の 2 つのインジェスト パターンがサポートされています。 BYOS インジェスト パイプラインの実行については、Azure Health Data Services - データ エクスポートの使用 で説明されています。 この記事では、インジェスト パターンを使用して、医療データ ソリューションで提供される臨床サンプル データを処理する方法について説明します。
注意
臨床サンプル データセットの代わりに、独自の FHIR データセットを使用することもできます。 ただし、その前に 使用上の考慮事項 の考慮事項を確認してください。
前提条件
- Microsoft Fabric に医療データ ソリューションを展開する
- 医療データ ファンデーションの展開 で、基盤となるノートブックとパイプラインをインストールする。
- サンプル データの展開 の説明に従って、臨床サンプル データを展開します。
臨床サンプル データをインジェスト フォルダーに移動する
サンプル データの展開 の説明に従ってサンプル データを展開すると、臨床サンプル データ ファイルは、ブロンズ レイクハウス内の Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
の統合フォルダー構造で使用できます。 OneLake または Azure Storage Explorer を使用して 51KSyntheticPatients ファイルを Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
からブロンズ レイクハウスの Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
にコピーします。
データ パイプラインを実行する
ブロンズ レイクハウスで healthcare#_msft_clinical_data_foundation_ingestion データ パイプラインを実行します。 臨床サンプル データのサイズとワークスペースに割り当てられた Fabric の容量にもよりますが、パイプライン実行は 1 時間で完了します。 パイプライン実行が完了すると、サンプル データに対してパイプラインが正常に実行されたが fhir_ingestion_bronze_ingestion ノートブック アクティビティは 失敗 状態でログに記録されていることがわかります。
データを検証する
実際のシナリオでは、さまざまな品質レベルのさまざまなソースからデータを取り込みます。 データ検証 で導入された検証エンジンは、提供された臨床サンプル データの一部に対して意図的に検証をトリガーします。 パイプラインの実行中に、サンプル データを意図的に無効にして、インジェスト アクティビティを失敗させます。 失敗したファイルは処理されず、指定された Failed フォルダーに移動します。 他のすべての有効なファイルは正常に処理され、全体的として緑/成功のパイプライン状態になります。
失敗を調査するには、活動の状態で 失敗 状態の横にあるアイコンを選択します。 エラーの詳細を見つける方法に関する情報と、管理レイクハウス BusinessEvents テーブル の runId
値に基づくサンプル SQL クエリが提供されます。 この runId
には 7 つのエラーが表示され、すべて原因は Last Updated does not exist
です。 対応する失敗した NDJSON ファイルは、Failed フォルダーにあり、sourceFilePath
は …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
を指しています。
正常に処理されたファイルは、Ingest フォルダー (現在は空) から Process フォルダーに移動します。
また、ブロンズ レイクハウスの ClinicalFhir テーブルと、シルバー レイクハウスの医療データ モデルの各 FHIR テーブルで、取り込まれたデータを探索することもできます。 想定されるレコード数の概要を以下に示します。
管理レイクハウス:
- BusinessEvents テーブル: 7 レコード
ブロンズ レイクハウス:
- ClinicalFhir テーブル: 33,317,250 レコード
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: ファイルなしFiles\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 67 ファイルFiles\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
:1 ファイル
シルバー レイクハウス:
- 患者 テーブル: 47,564 レコード
- 所見 テーブル: 19,726,265 レコード
- RiskAssessment テーブル: レコードなし
使用の考慮事項
Microsoft Fabric の医療データ ソリューションで FHIR データセットを取り込む場合は、次の要件を考慮してください。
- すべてのデータは NDJSON 形式を使用する必要があります。
- 各ファイルには、1 つの FHIR リソースのデータのみを含める必要があります。
- ファイル内の各リソースには、
Meta.LastUpdated
の有効な値を持つメタデータ フィールドが必要です。 この値が存在しない場合、データ検証 で説明されているように、既定の検証エラーが発生します。 - ファイル内の各リソースには、
ID
フィールドの値が必要です。 この値が存在しない場合、データ検証 で説明されているように、既定の検証エラーが発生します。