Ingerir dados clínicos usando Bases de dados de serviços de saúde

Artigo
11/15/2024

O recurso Transformação clínica é implantado como parte das Bases de dados de serviços de saúde. Esse recurso oferece pipelines de dados prontos para execução que podem preparar dados com eficiência para análise e modelagem de IA/machine learning.

Para obter mais informações sobre a implantação e os artefatos disponíveis, consulte:

Essencialmente, a implantação cria três lakehouses, cinco notebooks, um ambiente do Fabric e um pipeline de dados clínicos em seu ambiente de soluções de dados de serviços de saúde. Esse pipeline de dados ingere dados clínicos e os transforma a partir dos arquivos brutos de origem nos lakehouses bronze e prata. Conforme explicado em Padrões de ingestão de dados, ele oferece suporte a dois padrões de ingestão - Ingerir e Trazer seu próprio armazenamento (BYOS). A execução do pipeline de ingestão BYOS é explicada em Usar os Serviços de Dados de Saúde do Azure - Exportação de dados. Este artigo descreve como usar o padrão de ingestão para processar os dados clínicos de exemplo fornecidos com soluções de dados de serviços de saúde.

Observação

Você também pode usar seu próprio conjunto de dados FHIR em vez do conjunto de dados clínicos de exemplo. No entanto, revise as considerações em Considerações de uso antes de fazer isso.

Pré-requisitos

Implantar soluções de dados de serviços de saúde no Microsoft Fabric
Instale os notebooks e pipelines fundamentais em Implantar Bases de dados de serviços de saúde.
Implante os dados clínicos de exemplo conforme explicado em Implantar dados de exemplo.

Mover os dados clínicos de exemplo para a pasta de ingestão

Quando você implanta os dados de exemplo, conforme explicado em Implantar dados de exemplo, os arquivos de dados clínicos de exemplo devem estar disponíveis na estrutura de pastas unificada em Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients no lakehouse bronze. Use o OneLake ou o Gerenciador de Armazenamento do Azure para copiar os arquivos 51KSyntheticPatients de Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS para Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS no lakehouse bronze.

Executar o pipeline de dados

Execute o pipeline de dados healthcare#_msft_clinical_data_foundation_ingestion no lakehouse bronze. Dependendo do tamanho dos dados clínicos de exemplo e da capacidade do Fabric atribuída ao espaço de trabalho, a execução do pipeline deve ser concluída em uma hora. Após a conclusão da execução do pipeline, você poderá ver que o pipeline foi executado com êxito nos dados de exemplo, mas registrou um status Com Falha para a atividade do notebook fhir_ingestion_bronze_ingestion.

Validar os dados

Em cenários do mundo real, você fará a ingestão de dados de várias fontes com diferentes níveis de qualidade. O mecanismo de validação introduzido em Validação de dados, desencadeia intencionalmente validações em alguns dos dados clínicos de exemplo fornecidos. Durante a execução do pipeline, a atividade de ingestão tem falha devido à invalidade intencional dos dados de exemplo. Os arquivos com falha não são processados e são movidos para a pasta Com Falha. Todos os outros arquivos válidos são processados com êxito, resultando em um status geral de pipeline verde/com êxito.

Para investigar a falha, selecione o ícone ao lado do status Com Falha em Status da atividade. Ele fornece informações sobre como localizar os detalhes do erro, juntamente com uma consulta SQL de exemplo com base no valor runId na tabela BusinessEvents do lakehouse administrativo. Sete erros aparecem para essa runId, todos devidos a Last Updated does not exist. O arquivo NDJSON com falha correspondente reside na pasta Com Falha, com o sourceFilePath apontando para …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip.

Os arquivos processados com êxito deixam a pasta Ingerir (agora vazia) e são movidos para a pasta Processar.

Você também pode explorar os dados ingeridos na tabela ClinicalFhir do lakehouse bronze e as respectivas tabelas FHIR no modelo de dados de saúde no lakehouse prata. Veja um resumo das contagens de registros esperadas:

Lakehouse administrativo:
- Tabela BusinessEvents: sete registros
Lakehouse bronze:
- Tabela ClinicalFhir: 33.317.250 registros
- Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients: nenhum arquivo
- Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 arquivos
- Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients: um arquivo
Lakehouse prata:
- Tabela Pacientes: 47.564 registros
- Tabela Observação: 19.726.265 registros
- Tabela RiskAssessment risco: nenhum registro

Considerações sobre uso

Ao ingerir conjuntos de dados FHIR nas soluções de dados de serviços de saúde no Microsoft Fabric, considere os seguintes requisitos:

Todos os dados devem usar o formato NDJSON.
Cada arquivo deve conter dados somente para um único recurso FHIR.
Cada recurso no arquivo requer um campo de metadados com um valor válido para Meta.LastUpdated. Se esse valor não estiver presente, ocorrerá um erro de validação padrão, conforme explicado em Validação de dados.
Cada recurso no arquivo deve ter um valor para o campo ID. Se esse valor não estiver presente, ocorrerá um erro de validação padrão, conforme explicado em Validação de dados.

Compartilhar via

Ingerir dados clínicos usando Bases de dados de serviços de saúde

Pré-requisitos

Mover os dados clínicos de exemplo para a pasta de ingestão

Executar o pipeline de dados

Validar os dados

Considerações sobre uso

Recursos adicionais

Compartilhar via

Ingerir dados clínicos usando Bases de dados de serviços de saúde

Pré-requisitos

Mover os dados clínicos de exemplo para a pasta de ingestão

Executar o pipeline de dados

Validar os dados

Considerações sobre uso

Informações relacionadas

Recursos adicionais