医療データソリューションでの DICOM データ変換の使用に関する考慮事項

[アーティクル]
12/23/2024

この記事では、DICOM データ変換機能を使用する前に確認すべき主な考慮事項について説明します。これらの要因を理解することで、医療データソリューション環境内でのスムーズな統合と運用が可能になります。また、このリソースは、機能に関する潜在的な課題や制限を効果的にナビゲートするのにも役立ちます。

インジェストファイルサイズ

現在、ZIPファイルの場合は8 GB、ネイティブDCMファイルの場合は最大4 GBの論理サイズ制限があります。ファイルがこれらの制限を超えると、実行時間が長くなったり、インジェストが失敗したりする可能性があります。正常に実行するために、ZIP ファイルを小さなセグメント (4 GB 未満) に分割することをお勧めします。 4 GBを超えるネイティブDCMファイルの場合は、必要に応じてSparkノード (エグゼキューター) をスケールアップしてください。

DICOM タグの抽出

私たちは、次の2つの理由から、ブロンズレイクハウス ImagingDicom デルタテーブルにある29個のタグのプロモーションを優先しています。

これらの 29 個のタグは、モダリティやラテラリティなど、DICOM データの一般的なクエリおよび探索に不可欠です。
これらのタグは、後続の実行手順でシルバー (FHIR) とゴールド (OMOP) のデルタテーブルを生成して追加するために必要です。

関心のある他の DICOM タグを拡張およびプロモートできます。ただし、DICOMデータ変換ノートブックは、ブロンズレイクハウスの ImagingDicom デルタテーブルに追加したDICOMタグの他の列を自動的に認識または処理しません。余分な列は個別に処理する必要があります。

ブロンズレイクハウスにパターンを追加する

新しく取り込まれたすべてのDCM (またはZIP) ファイルは、ブロンズレイクハウスの ImagingDicom デルタテーブルに追加されます。正常に取り込まれたDCMファイルごとに、 ImagingDicom デルタテーブルに新しいレコードエントリが作成されます。ブロンズレイクハウスレベルでのマージまたは更新操作にはビジネスロジックがありません。

ImagingDicom デルタテーブルは、DICOMインスタンスレベルで取り込まれたすべてのDCMファイルを反映しているため、そのように考慮する必要があります。同じDCMファイルが Ingest フォルダーに再度取り込まれると、同じファイルの ImagingDicom デルタテーブルに別のエントリが追加されます。ただし、Unix 接頭辞のタイムスタンプにより、ファイル名は異なります。取り込みの日付によっては、ファイルが別の YYYY\MM\DD フォルダ内に配置される場合があります。

OMOP バージョンとイメージングの拡張機能

ゴールドレイクハウスの現在の実装は、Observational Medical Outcomes Partnership (OMOP) Common Data Model バージョン 5.4 に基づいています。 OMOP には、イメージングデータをサポートするための標準的な拡張機能がまだありません。したがって、この機能は、Development of Medical Imaging Data Standardization for Imaging-Based Observational Research: OMOP Common Data Model Extension (画像に基づく観察研究のための医療画像データの標準化の開発: OMOP Common Data Model 拡張機能) で提案されている拡張機能を実装します。この延長は、2024年2月5日に公開されたイメージング研究分野における最新の提案です。 DICOM データ変換機能の現行リリースは、ゴールドレイクハウスの Image_Occurrence テーブルに制限されています。

Spark での構造化ストリーミング

構造化ストリーミングは、Spark SQL エンジン上に構築されたスケーラブルでフォールトトレラントなストリーム処理エンジンです。ストリーミング評価は、静的データに対するバッチ評価と同じように表すことができます。システムは、チェックポイントと先行書き込みログを通じてエンドツーエンドのフォールトトレランスを保証します。構造化ストリーミングの詳細については、構造化ストリーミングプログラミングガイド (v3.5.1) を参照してください。

Microsoft では、増分データを処理するために ForeachBatch を使用します。このメソッドは、任意の操作を適用し、ストリーミングクエリの出力にロジックを書き込みます。クエリは、ストリーミングクエリの各マイクロバッチの出力データに対して実行されます。 DICOM データ変換機能では、構造化ストリーミングは次の実行手順で使用されます。

実行手順	チェックポイントフォルダーの場所	追跡対象オブジェクト
DICOM メタデータをブロンズレイクハウスに抽出する	`healthcare#.HealthDataManager\DMHCheckpoint\medical_imaging\dicom_metadata_extraction`	`Files\Process\Imaging\DICOM\YYYY\MM\DD`のブロンズレイクハウスにあるDCMファイル。
DICOM メタデータを FHIR 形式に変換する	`healthcare#.HealthDataManager\DMHCheckpoint\medical_imaging\dicom_to_fhir`	ブロンズレイクハウスのデルタテーブル ImagingDicom 。
ブロンズレイクハウス ImagingStudy デルタテーブルにデータを取り込む	`healthcare#.HealthDataManager\DMHCheckpoint\<bronzelakehouse>\ImagingStudy`	`Files\Process\Clinical\FHIR NDJSON\YYYY\MM\DD\ImagingStudy`の下のブロンズレイクハウスにあるFHIR NDJSONファイル。
シルバーレイクハウス ImagingStudy デルタテーブルにデータを取り込む	`healthcare#.HealthDataManager\DMHCheckpoint\<silverlakehouse>\ImagingStudy`	ブロンズレイクハウスのデルタテーブル ImagingStudy。

チップ

OneLake ファイルエクスプローラー を使用して、テーブルに一覧表示されているファイルとフォルダーの内容を表示できます。詳細については、OneLake ファイルエクスプローラーを使用するを参照してください。

ブロンズレイクハウスのグループパターン

グループパターンは、ブロンズレイクハウスの ImagingDicom デルタテーブルからブロンズレイクハウスの ImagingStudy デルタテーブルに新しいレコードを取り込むときに適用されます。 DICOMデータ変換機能は、 ImagingDicom デルタテーブル内のすべてのインスタンスレベルのレコードを研究レベル別にグループ化します。 DICOM study ごとに 1 つのレコードを ImagingStudy として作成し、そのレコードをブロンズレイクハウスの ImagingStudy デルタテーブルに挿入します。

シルバーレイクハウスの upsert パターン

upsert 操作は、 {FHIRResource}.idに基づいて、ブロンズレイクハウスとシルバーレイクハウス間のFHIRデルタテーブルを比較します。

一致が識別され、シルバーレコードが新しい場合、新しいブロンズレコードで更新されます。
一致が識別されない場合、ブロンズレコードはシルバーレイクハウスの新しいレコードとして挿入されます。

このパターンを使用して、シルバーのレイクハウス ImagingStudy テーブルにリソースを作成します。

ImagingStudy の制限事項

upsert 操作は、同じバッチ実行で同じ DICOM study から DCM ファイルを取り込むと、期待どおりに機能します。ただし、以前にシルバーレイクハウスに取り込まれた同じDICOM研究に属するDCMファイル (別のバッチから) をさらに取り込むと、取り込んだ結果、挿入操作が実行されます。プロセスは更新操作を実行しません。

この挿入操作は、ノートブックがバッチ実行ごとに新しい {FHIRResource}.id for ImagingStudy を作成するために発生します。この新しい ID は、前のバッチの ID と一致しません。その結果、シルバーテーブルには、ImagingStudy.id 値が異なる 2 つの ImagingStudy レコードが表示されます。これらの ID は、それぞれのバッチ実行に関連していますが、同じ DICOM study に属しています。

回避策として、バッチ実行を完了して、一意の ID の組み合わせに基づいて 2 つの ImagingStudy レコードをシルバーレイクハウスでマージします。ただし、マージに ImagingStudy.id を使用しないでください。代わりに、 [studyInstanceUid (0020,000D)] や [patientId (0010,0020)] などの他のIDを使用してレコードを結合できます。

OMOP 追跡アプローチ

healthcare#_msft_omop_silver_gold_transformation ノートブックは、 OMOP APIを使用して、シルバーレイクハウスデルタテーブルの変更を監視します。また、ゴールドレイクハウスのデルタテーブルへのアップサートが必要な、新しく変更または追加されたレコードを識別します。このプロセスは、Watermarking と呼ばれています。

OMOP API は、{Silver.FHIRDeltatable.modified_date} と {Gold.OMOPDeltatable.SourceModifiedOn} 間で日付と時刻の値を比較して、最後のノートブック実行以降に変更または追加された増分レコードを決定します。ただし、この OMOP 追跡アプローチは、ゴールドレイクハウスのすべてのデルタテーブルに適用されるわけではありません。以下のテーブルは、シルバーレイクハウスのデルタテーブルから取り込まれません。

コンセプト
concept_ancestor
concept_class
concept_relationship
concept_synonym
fhir_system_to_omop_vocab_mapping
ボキャブラリー

これらのゴールドデルタテーブルは、 OMOP サンプルデータ展開に含まれる語彙データを使用して作成されます。このフォルダー内のボキャブラリデータセットは、Spark の構造化ストリーミングを使用して管理されます。

ゴールドレイクハウスの upsert パターン

ゴールドレイクハウスの upsert パターンは、シルバーレイクハウスとは異なります。 OMOP healthcare#_msft_omop_silver_gold_transformation ノートブックで使用されるAPIは、ゴールドレイクハウスのデルタテーブルの各エントリに対して新しいIDを作成します。 API は、シルバーレイクハウスの新しいレコードをゴールドレイクハウスに取り込んだり、変換したりするときに、これらの ID を作成します。また、OMOP API は、新しく作成された ID と、シルバーレイクハウスデルタテーブル内の対応する内部 ID との間の内部マッピングも維持します。

API は次のように動作します。

レコードをシルバーデルタテーブルからゴールドデルタテーブルに初めて変換する場合は、OMOP ゴールドレイクハウスで新しい ID が生成され、シルバーレイクハウスで元の新しい ID にマッピングされます。次に、新しく生成された ID を使用して、レコードをゴールドデルタテーブルに挿入します。
シルバーレイクハウス内の同じレコードが変更され、ゴールドレイクハウスに再度取り込まれた場合、OMOP API はゴールドレイクハウス内の既存のレコードを認識します (マッピング情報を使用します)。次に、ゴールドレイクハウスのレコードを、以前に生成したのと同じ ID で更新します。

ゴールドレイクハウスで新しく生成された ID (ADRM_ID) と各 OMOP デルタテーブルの元の ID (INTERNAL_ID) とのマッピングは、OneLake Parquet ファイルに格納されます。 Parquet ファイルは、次のパスにあります。

[OneLakePath]\[workspace]\healthcare#.HealthDataManager\DMHCheckpoint\dtt\dtt_state_db\KEY_MAPPING\[OMOPTableName]_ID_MAPPING

また、Spark ノートブック内の Parquet ファイルをクエリして、マッピングを表示することもできます。

銀色のImagingMetastoreデザインレイクハウス

1つのDICOMファイルには最大5,000個の異なるタグを含めることができるため、シルバーのレイクハウスでこれらすべてのタグのフィールドをマッピングして作成するのは非効率的で、多くのリソースを消費します。ただし、データ損失を防ぎ柔軟性を維持するためには、タグの完全なセットへのアクセスを維持することが不可欠です。特に、データモデルで抽出され表現される29個を超えるタグが必要な場合は、これが重要です。この問題に対処するために、シルバーのレイクハウス ImagingMetastore デルタテーブルは、すべてのDICOMタグを metadata_string 列に格納します。これらのタグは、文字列化されたJSON形式のキーと値のペアとして表され、SQL分析エンドポイントを通じて効率的なクエリが可能になります。このアプローチは、シルバーレイクハウスのすべてのフィールドにわたって複雑なJSONデータを管理するための標準的な方法と一致しています。

ブロンズレイクハウスの ImagingDicom テーブルからシルバーレイクハウスの ImagingMetastore テーブルへの変換では、グループ化は実行されません。両方のテーブルで、リソースはインスタンスレベルで表されます。ただし、 {FHIRResource}.id は ImagingMetastore テーブルに含まれています。この値を使用すると、一意のIDを参照して、特定の調査に関連付けられているすべてのインスタンスレベルの成果物を照会できます。

DICOM サービスとの統合

DICOM データ変換機能と Azure Health Data Services DICOM サービス間の現在の統合では、作成および更新イベントのみがサポートされています。新しいイメージングスタディ、シリーズ、インスタンスを作成したり、既存のものを更新したりすることもできます。ただし、統合では削除イベントはまだサポートされていません。 DICOM サービスで study、シリーズ、またはインスタンスを削除した場合、DICOM データ変換機能ではこの変更を反映しません。画像データは変更されず、削除されません。

表の警告

1つ以上の列が複雑なオブジェクト指向データ型を使用してデータを表す各レイクハウス内のすべてのテーブルに対して警告が表示されます。 ImagingDicom および ImagingMetastore テーブルでは、 metadata_string 列はJSON構造を使用してDICOMタグをキーと値のペアとしてマッピングします。この設計は、構造体、配列、マップなどの複雑なデータ型をサポートしないFabric SQLエンドポイントの制限に対応しています。 SQLエンドポイント (T-SQL) を使用してこれらの列を文字列としてクエリしたり、Sparkを使用してネイティブタイプ (構造体、配列、マップ) を操作したりできます。

次の方法で共有

医療データソリューションでの DICOM データ変換の使用に関する考慮事項

インジェストファイルサイズ

DICOM タグの抽出

ブロンズレイクハウスにパターンを追加する

OMOP バージョンとイメージングの拡張機能

Spark での構造化ストリーミング

ブロンズレイクハウスのグループパターン

シルバーレイクハウスの upsert パターン

ImagingStudy の制限事項

OMOP 追跡アプローチ

ゴールドレイクハウスの upsert パターン

銀色のImagingMetastoreデザインレイクハウス

DICOM サービスとの統合

表の警告

その他のリソース

次の方法で共有

医療データ ソリューションでの DICOM データ変換の使用に関する考慮事項

インジェスト ファイル サイズ

DICOM タグの抽出

ブロンズ レイクハウスにパターンを追加する

OMOP バージョンとイメージングの拡張機能

Spark での構造化ストリーミング

ブロンズ レイクハウスのグループ パターン

シルバーレイクハウスの upsert パターン

ImagingStudy の制限事項

OMOP 追跡アプローチ

ゴールド レイクハウスの upsert パターン

銀色のImagingMetastoreデザイン レイクハウス

DICOM サービスとの統合

表の警告

関連情報

その他のリソース

医療データソリューションでの DICOM データ変換の使用に関する考慮事項

インジェストファイルサイズ

ブロンズレイクハウスにパターンを追加する

ブロンズレイクハウスのグループパターン

ゴールドレイクハウスの upsert パターン

銀色のImagingMetastoreデザインレイクハウス