次の方法で共有


医療データ ファンデーションを使用して臨床データを取り込む

臨床変換機能は、医療データ ファンデーションの一部として展開されます。 この機能により、分析や AI/機械学習モデリング用のデータを効率的に準備する、すぐに実行できるデータ パイプラインが提供されます。

展開と使用可能なアーティファクトの詳細については、以下を参照してください。

基本的に、展開により、医療データ ソリューション環境に 3 つのレイクハウス、5 つのノートブック、Fabric 環境、臨床データ パイプラインが作成されます。 このデータ パイプラインは、臨床データを取り込み、生のソースファイルからブロンズ レイクハウスとシルバー レイクハウスに変換します。 データ インジェスト パターン で説明されているように、インジェストBring Your Own Storage (BYOS) の 2 つのインジェスト パターンがサポートされています。 BYOS インジェスト パイプラインの実行については、Azure Health Data Services - データ エクスポートの使用 で説明されています。 この記事では、インジェスト パターンを使用して、医療データ ソリューションで提供される臨床サンプル データを処理する方法について説明します。

注意

臨床サンプル データセットの代わりに、独自の FHIR データセットを使用することもできます。 ただし、その前に 使用上の考慮事項 の考慮事項を確認してください。

前提条件

臨床サンプル データをインジェスト フォルダーに移動する

サンプル データの展開 の説明に従ってサンプル データを展開すると、臨床サンプル データ ファイルは、ブロンズ レイクハウス内の Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients の統合フォルダー構造で使用できます。 OneLake または Azure Storage Explorer を使用して 51KSyntheticPatients ファイルを Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS からブロンズ レイクハウスの Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS にコピーします。

データ パイプラインを実行する

ブロンズ レイクハウスで healthcare#_msft_clinical_data_foundation_ingestion データ パイプラインを実行します。 臨床サンプル データのサイズとワークスペースに割り当てられた Fabric の容量にもよりますが、パイプライン実行は 1 時間で完了します。 パイプライン実行が完了すると、サンプル データに対してパイプラインが正常に実行されたが fhir_ingestion_bronze_ingestion ノートブック アクティビティは 失敗 状態でログに記録されていることがわかります。

臨床データを取り込むために実行されるサンプル データ パイプラインを示すスクリーンショット。

データを検証する

実際のシナリオでは、さまざまな品質レベルのさまざまなソースからデータを取り込みます。 データ検証 で導入された検証エンジンは、提供された臨床サンプル データの一部に対して意図的に検証をトリガーします。 パイプラインの実行中に、サンプル データを意図的に無効にして、インジェスト アクティビティを失敗させます。 失敗したファイルは処理されず、指定された Failed フォルダーに移動します。 他のすべての有効なファイルは正常に処理され、全体的として緑/成功のパイプライン状態になります。

失敗を調査するには、活動の状態で 失敗 状態の横にあるアイコンを選択します。 エラーの詳細を見つける方法に関する情報と、管理レイクハウス BusinessEvents テーブルrunId 値に基づくサンプル SQL クエリが提供されます。 この runId には 7 つのエラーが表示され、すべて原因は Last Updated does not exist です。 対応する失敗した NDJSON ファイルは、Failed フォルダーにあり、sourceFilePath…/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip を指しています。

BusinessEvents テーブルのエラーの詳細を示すスクリーンショット。

正常に処理されたファイルは、Ingest フォルダー (現在は空) から Process フォルダーに移動します。

また、ブロンズ レイクハウスの ClinicalFhir テーブルと、シルバー レイクハウスの医療データ モデルの各 FHIR テーブルで、取り込まれたデータを探索することもできます。 想定されるレコード数の概要を以下に示します。

  • 管理レイクハウス:

    • BusinessEvents テーブル: 7 レコード
  • ブロンズ レイクハウス:

    • ClinicalFhir テーブル: 33,317,250 レコード
    • Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients: ファイルなし
    • Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 ファイル
    • Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients:1 ファイル
  • シルバー レイクハウス:

    • 患者 テーブル: 47,564 レコード
    • 所見 テーブル: 19,726,265 レコード
    • RiskAssessment テーブル: レコードなし

使用の考慮事項

Microsoft Fabric の医療データ ソリューションで FHIR データセットを取り込む場合は、次の要件を考慮してください。

  • すべてのデータは NDJSON 形式を使用する必要があります。
  • 各ファイルには、1 つの FHIR リソースのデータのみを含める必要があります。
  • ファイル内の各リソースには、Meta.LastUpdated の有効な値を持つメタデータ フィールドが必要です。 この値が存在しない場合、データ検証 で説明されているように、既定の検証エラーが発生します。
  • ファイル内の各リソースには、ID フィールドの値が必要です。 この値が存在しない場合、データ検証 で説明されているように、既定の検証エラーが発生します。