Compartilhar via


Usar a transformação de dados DICOM nas soluções de dados de serviços de saúde

O recurso Transformação de dados DICOM nas soluções de dados de serviços de saúde permite que você faça a ingestão, armazene e analise dados DICOM (Digital Imaging and Communications in Medicine) de várias fontes. Para saber mais sobre o recurso e entender como implantá-lo e configurá-lo, consulte:

A transformação de dados DICOM é um recurso opcional em soluções de dados de serviços de saúde no Microsoft Fabric.

Pré-requisitos

Antes de executar o pipeline de transformação de dados DICOM, certifique-se de concluir os pré-requisitos, o processo de implantação e as etapas de configuração explicadas em Implantar e configurar a Transformação de dados DICOM.

Opções de ingestão de dados

Este artigo fornece orientação passo a passo sobre como usar o recurso de transformação de dados DICOM para ingerir, transformar e unificar o conjunto de dados de imagens DICOM. O recurso oferece suporte às duas opções de ingestão seguindo:

  • Opção 1: Ingestão de ponta a ponta de arquivos DICOM. Os arquivos DICOM, nos formatos nativo (DCM) ou compactado (ZIP), são ingeridos no lakehouse. Essa opção é chamada de opção Ingerir.

  • Opção 2: Integração com o serviço DICOM. A ingestão é facilitada por meio da integração nativa com o serviço DICOM nos Serviços de Dados de Saúde do Azure. Nessa opção, os arquivos DCM são transferidos primeiro do serviço DICOM dos Serviços de Dados de Saúde do Azure para o Data Lake Storage Gen2. O pipeline segue então o padrão de ingestão Bring Your Own Storage (BYOS) . Essa opção é chamada opção de AHDS (Serviços de Dados de Saúde do Azure).

Para entender os detalhes da transformação mapeamento, consulte Transformação de metadados DICOM mapeamento em soluções de dados de saúde.

Opção 1: Ingestão de ponta a ponta de arquivos DICOM

Nesta opção, ingerimos e transformamos os dados de imagem dos arquivos DICOM em lakehouses de soluções de dados de saúde usando o pipeline de dados pré-criado. A transformação de ponta a ponta consiste nas seguintes etapas consecutivas:

  1. Ingerir arquivos DICOM no OneLake
  2. Organizar arquivos DICOM no OneLake
  3. Extrair metadados DICOM para o lakehouse bronze
  4. Converter metadados DICOM para o formato FHIR (Fast Health Interoperability Resources)
  5. Ingerir dados na tabela delta ImagingStudy no lakehouse bronze
  6. Nivelar e transformar dados na tabela delta ImagingStudy no lakehouse bronze
  7. Converter e ingerir dados na tabela Image_Occurrence no lakehouse ouro (opcional)

Dica

Esta opção de ingestão usa o conjunto de dados de amostra 340ImagingStudies que contém arquivos ZIP compactados. Como alternativa, você pode ingerir arquivos DICOM diretamente em seu formato DCM nativo, colocando-os na pasta Ingest . Dentro dos arquivos ZIP, os arquivos DCM podem ser estruturados em várias subpastas aninhadas. There não tem limite para o número de arquivos DCM ou para o número, profundidade e aninhamento de subpastas dentro dos arquivos ZIP ingeridos. Para obter informações sobre limites de tamanho de arquivo, consulte Tamanho do arquivo de ingestão.

Etapa 1: Ingerir arquivos DICOM no OneLake

A pasta Ingerir no lakehouse bronze representa uma pasta de destino (fila). Você pode soltar os arquivos DICOM nesta pasta. Em seguida, os arquivos são movidos para uma estrutura de pastas organizada dentro do lakehouse bronze.

  1. Vá para a pasta Ingest\Imaging\DICOM\DICOM-HDS no bronze lakehouse.

  2. Select ... (reticências) >Carregar>Carregar pasta.

  3. Select e carregue o conjunto de dados de imagens 340ImagingStudies da pasta SampleData em SampleData\Imaging\DICOM\DICOM-HDS. Como alternativa, você também pode usar o OneLake file explorer ou o Azure Storage Explorer para carregar o conjunto de dados de amostra.

Etapa 2: Execute o pipeline de dados de imagem

Depois de mover os arquivos DCM/ZIP para a pasta Ingest no bronze lakehouse, agora você pode executar o pipeline de dados de imagem para organizar e processar os dados para o prata lakehouse.

  1. No seu ambiente de soluções de dados de saúde, abra o pipeline de dados healthcare#_msft_imaging_with_clinical_foundation_ingestion .

  2. Select o botão Executar para começar a processar os dados de imagem do bronze para o prata lakehouse.

Este pipeline de dados executa sequencialmente cinco notebooks: três implantados como parte do recurso de bases de dados de saúde e dois do recurso de transformação de dados DICOM. Para saber mais sobre esses notebooks, consulte Transformação de dados DICOM: artefatos.

Uma captura de tela exibindo uma execução de pipeline de exemplo.

Etapa 3: Execute o notebook de transformação de prata para ouro

Observação

Esta transformação etapa é opcional. Use-o somente se precisar transformar ainda mais seus dados DICOM no formato de modelo de dados comum (CDM) da Observational Medical Outcomes Partnership (OMOP). Caso contrário, você poderá ignorar essa etapa.

Antes de executar essa transformação, implante e configure o OMOP recurso de transformações em soluções de dados de saúde.

Depois de executar o pipeline de imagens, seus dados de imagem são transformados no lakehouse prateado. O lakehouse prateado serve como ponto inicial onde dados de várias modalidades começam a convergir de maneira estruturada. Para transformar ainda mais seus dados no OMOP padrão de pesquisa para uso no recurso Descobrir e criar coortes (versão preliminar) , execute o notebook de transformação de prata para ouro.

  1. No seu ambiente de soluções de dados de saúde, abra o notebook healthcare#_msft_omop_silver_gold_transformation .

    Este notebook usa as APIs de soluções de dados de saúde OMOP para transformar recursos do lakehouse prateado em OMOP tabelas delta CDM no lakehouse dourado. Por padrão, você não precisa fazer alterações na configuração do notebook.

  2. Selecione Executar tudo para executar o notebook.

    O notebook implementa a OMOP abordagem de rastreamento para rastrear e processar registros novos ou atualizados na tabela delta ImagingStudy no arquivo prateado lakehouse. Ele transforma dados das tabelas delta FHIR na tabela prata lakehouse (incluindo a tabela ImagingStudy ) nas tabelas OMOP delta correspondentes na tabela ouro lakehouse (incluindo a tabela Image_Occurrence ). Para obter mais informações sobre essa transformação, consulte Transformação mapeamento para a tabela delta de prata para ouro.

    Para obter informações detalhadas OMOP mapeamento, consulte FHIR para OMOP mapeamento.

Etapa 4: Validar os dados

Em cenários do mundo real, a ingestão de dados envolve fontes com níveis de qualidade variados. O mecanismo de validação, detalhado em Validação de dados, aciona intencionalmente validações em alguns dos dados de amostra de imagem fornecidos. Arquivos que não estão em conformidade com os padrões DICOM são movidos para a pasta Falha e não são processados. Mas uma única falha de arquivo não interrompe todo o pipeline, como demonstrado pelos dados de amostra de imagem. O pipeline e os notebooks associados são executados com sucesso, mas a pasta Failed em Imaging\DICOM\DICOM-HDS\YYYY\MM\DD contém um arquivo não compatível. Todos os outros arquivos válidos são processados com sucesso, resultando em um status geral de pipeline bem-sucedido. Incluímos intencionalmente esse arquivo inválido nos dados de amostra de imagem para ilustrar como o pipeline de imagem lida com arquivos inválidos e ajuda a identificar problemas no conjunto de dados.

Uma captura de tela exibindo o arquivo inválido na pasta  **Failed** .

Para confirmar que o pipeline extraiu com sucesso todos os metadados dos arquivos DICOM brutos, abra o bronze lakehouse, alterne para o ponto de extremidade de análise SQL e a consulta Select New SQL.

Uma captura de tela exibindo o switch de endpoint analítico SQL.

Se o pipeline foi executado corretamente, você deverá ver 7.739 instâncias DICOM processadas com sucesso na tabela ImagingDicom . Para verificar, execute a seguinte consulta SQL. Para um processamento bem-sucedido, você deverá ver 7739 no painel Resultados . Este número representa o número total de instâncias DICOM nos dados da amostra, compreendendo dados de diferentes modalidades, como tomografia computadorizada (TC) e ressonância magnética (RM).

select count(*) from ImagingDicom

Uma captura de tela exibindo as instâncias DICOM no bronze lakehouse.

Para confirmar que o pipeline hidratou com sucesso os lakehouses, abra o silver lakehouse, alterne para o endpoint analítico SQL e consulte Select New SQL. Para uma execução correta do pipeline, você deve ver 339 recursos do ImagingStudy processados com sucesso. Para verificar, execute a seguinte consulta SQL. Inicialmente, começamos com 340 recursos do ImagingStudy , mas um deles apresenta um erro durante o processamento.

 select count(*) from ImagingStudy

Uma captura de tela exibindo as instâncias DICOM no lakehouse prateado.

Opção 2: Integração com o serviço DICOM

Importante

Use esta opção de transformação somente se estiver usando o serviço DICOM do Health Data Services Azure e tiver implantado a API DICOM.

Essa abordagem de transformação estende o padrão Bring Your Own Storage (BYOS) com o serviço DICOM do Health Data Services Azure. O serviço DICOM é um subconjunto de APIs DICOMweb que permitem armazenar, revisar, pesquisar e excluir objetos DICOM. Ele se integra à conta Gen2 vinculada ao seu espaço de trabalho do Fabric, para que o pipeline de transformação possa acessar diretamente seus dados DICOM. Azure Data Lake Storage

Como alternativa, você pode pular o uso da API DICOM Azure e ingerir arquivos DICOM armazenados na sua conta Data Lake Storage Gen2 (nesse caso, comece em etapa 5).

  1. Revise e conclua a configuração em Implantar a API DICOM no Azure Health Data Services.

  2. Após implantar o serviço DICOM Azure, use a API Store (STOW-RS) para ingerir arquivos DCM. ... Teste-o baixando um arquivo DCM dos dados de amostra de imagem usando o OneLake file explorer ou o Azure Storage Explorer.

  3. Dependendo do seu idioma preferido, carregue os arquivos DCM para o servidor usando uma das seguintes opções:

  4. Verifique se o upload do arquivo foi bem-sucedido:

    1. No portal Azure, Select a conta de armazenamento vinculada ao serviço DICOM. ...
    2. Vá para Containers e siga o caminho [ContainerName]/AHDS/[AzureHealthDataServicesWorkspaceName]/dicom/[DICOMServiceName].
    3. Verifique se você consegue ver o arquivo DCM carregado Here.

    Uma captura de tela do portal do Azure exibindo os dados carregados.

    Observação

    • O nome do arquivo pode mudar quando carregado no servidor. Entretanto, o conteúdo do arquivo permanece inalterado.
    • Para obter informações sobre limites de tamanho de arquivo, consulte Tamanho do arquivo de ingestão.
  5. Crie um atalho no bronze lakehouse para o arquivo DICOM armazenado no local Data Lake Storage Gen2. Siga as etapas em Criar um Azure Data Lake Storage atalho Gen2.

    Para consistência, use a seguinte estrutura de pastas para criar o atalho: Files\External\Imaging\DICOM\[Namespace]\[BYOSShortcutName]. O valor Namespace garante a separação lógica de atalhos de diferentes sistemas de origem. Por exemplo, você pode usar o nome Data Lake Storage Gen2 para o valor Namespace .

    Uma captura de tela mostrando como criar o atalho usando a estrutura de pastas recomendada.

    Observação

    Os atalhos do OneLake também oferecem suporte a vários sistemas de armazenamento além do Data Lake Storage Gen2. Para obter uma lista completa dos tipos de armazenamento suportados, consulte Atalhos do OneLake.

  6. Configure o admin lakehouse para habilitar BYOS:

    1. Acesse healthcare#_msft_admin lakehouse e abra o arquivo deploymentParametersConfiguration.json em Files\system-configurations.

    2. Habilite a configuração BYOS neste arquivo de configuração. Use o explorador de arquivos OneLake para abrir o arquivo deploymentParametersConfiguration.json no seguinte caminho de pasta: OneLake - Microsoft\[WorkspaceName]\healthcare#_msft_admin.Lakehouse\Files\system-configurations. Use qualquer editor JSON ou de texto (como o Bloco de Notas do Windows) para abrir o arquivo, procure o parâmetro byos_enabled e defina-o como true.

      Uma captura de tela exibindo a configuração no arquivo de configuração.

  7. O recurso de transformação de dados DICOM agora pode acessar todos os seus arquivos DICOM em seu local de origem Data Lake Storage Gen2, independentemente da hierarquia/estrutura da pasta. Você não precisa ingerir manualmente os arquivos DICOM como feito na opção Ingerir . Comece a execução de etapa 2: Execute o pipeline de dados de imagem na seção anterior para usar o pipeline de imagem e transformar seus dados DICOM.

Observação

Para entender as limitações de integração com o serviço DICOM do Health Data Services Azure, consulte Integração com o serviço DICOM.