Ingerir dados clínicos usando Bases de dados de serviços de saúde
O recurso Transformação clínica é implantado como parte das Bases de dados de serviços de saúde. Esse recurso oferece pipelines de dados prontos para execução que podem preparar dados com eficiência para análise e modelagem de IA/machine learning.
Para obter mais informações sobre a implantação e os artefatos disponíveis, consulte:
Essencialmente, a implantação cria três lakehouses, cinco notebooks, um ambiente do Fabric e um pipeline de dados clínicos em seu ambiente de soluções de dados de serviços de saúde. Esse pipeline de dados ingere dados clínicos e os transforma a partir dos arquivos brutos de origem nos lakehouses bronze e prata. Conforme explicado em Padrões de ingestão de dados, ele oferece suporte a dois padrões de ingestão - Ingerir e Trazer seu próprio armazenamento (BYOS). A execução do pipeline de ingestão BYOS é explicada em Usar os Serviços de Dados de Saúde do Azure - Exportação de dados. Este artigo descreve como usar o padrão de ingestão para processar os dados clínicos de exemplo fornecidos com soluções de dados de serviços de saúde.
Observação
Você também pode usar seu próprio conjunto de dados FHIR em vez do conjunto de dados clínicos de exemplo. No entanto, revise as considerações em Considerações de uso antes de fazer isso.
Pré-requisitos
- Implantar soluções de dados de serviços de saúde no Microsoft Fabric
- Instale os notebooks e pipelines fundamentais em Implantar Bases de dados de serviços de saúde.
- Implante os dados clínicos de exemplo conforme explicado em Implantar dados de exemplo.
Mover os dados clínicos de exemplo para a pasta de ingestão
Quando você implanta os dados de exemplo, conforme explicado em Implantar dados de exemplo, os arquivos de dados clínicos de exemplo devem estar disponíveis na estrutura de pastas unificada em Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
no lakehouse bronze. Use o OneLake ou o Gerenciador de Armazenamento do Azure para copiar os arquivos 51KSyntheticPatients de Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
para Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
no lakehouse bronze.
Executar o pipeline de dados
Execute o pipeline de dados healthcare#_msft_clinical_data_foundation_ingestion no lakehouse bronze. Dependendo do tamanho dos dados clínicos de exemplo e da capacidade do Fabric atribuída ao espaço de trabalho, a execução do pipeline deve ser concluída em uma hora. Após a conclusão da execução do pipeline, você poderá ver que o pipeline foi executado com êxito nos dados de exemplo, mas registrou um status Com Falha para a atividade do notebook fhir_ingestion_bronze_ingestion.
Validar os dados
Em cenários do mundo real, você fará a ingestão de dados de várias fontes com diferentes níveis de qualidade. O mecanismo de validação introduzido em Validação de dados, desencadeia intencionalmente validações em alguns dos dados clínicos de exemplo fornecidos. Durante a execução do pipeline, a atividade de ingestão tem falha devido à invalidade intencional dos dados de exemplo. Os arquivos com falha não são processados e são movidos para a pasta Com Falha. Todos os outros arquivos válidos são processados com êxito, resultando em um status geral de pipeline verde/com êxito.
Para investigar a falha, selecione o ícone ao lado do status Com Falha em Status da atividade. Ele fornece informações sobre como localizar os detalhes do erro, juntamente com uma consulta SQL de exemplo com base no valor runId
na tabela BusinessEvents do lakehouse administrativo. Sete erros aparecem para essa runId
, todos devidos a Last Updated does not exist
. O arquivo NDJSON com falha correspondente reside na pasta Com Falha, com o sourceFilePath
apontando para …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
.
Os arquivos processados com êxito deixam a pasta Ingerir (agora vazia) e são movidos para a pasta Processar.
Você também pode explorar os dados ingeridos na tabela ClinicalFhir do lakehouse bronze e as respectivas tabelas FHIR no modelo de dados de saúde no lakehouse prata. Veja um resumo das contagens de registros esperadas:
Lakehouse administrativo:
- Tabela BusinessEvents: sete registros
Lakehouse bronze:
- Tabela ClinicalFhir: 33.317.250 registros
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: nenhum arquivoFiles\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 67 arquivosFiles\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
: um arquivo
Lakehouse prata:
- Tabela Pacientes: 47.564 registros
- Tabela Observação: 19.726.265 registros
- Tabela RiskAssessment risco: nenhum registro
Considerações sobre uso
Ao ingerir conjuntos de dados FHIR nas soluções de dados de serviços de saúde no Microsoft Fabric, considere os seguintes requisitos:
- Todos os dados devem usar o formato NDJSON.
- Cada arquivo deve conter dados somente para um único recurso FHIR.
- Cada recurso no arquivo requer um campo de metadados com um valor válido para
Meta.LastUpdated
. Se esse valor não estiver presente, ocorrerá um erro de validação padrão, conforme explicado em Validação de dados. - Cada recurso no arquivo deve ter um valor para o campo
ID
. Se esse valor não estiver presente, ocorrerá um erro de validação padrão, conforme explicado em Validação de dados.