Compartilhar via


Anotações do ClinVar

Observação

Atualização importante de 19/09/2024: todas as URLs estão mudando. Estamos habilitando o acesso público a todos os contêineres do Genomics Data Lake. As "URLs assinadas" existentes (assinaturas de acesso compartilhado) serão desativadas em: 2024-11-04T00:00:00Z. Após esse tempo, as URLs sem uma cadeia de caracteres de consulta continuarão funcionando, no entanto, as "URLs assinadas" não funcionarão mais e retornarão um código de status HTTP 403. Planeje de acordo para acessar as URLs públicas sem uma cadeia de caracteres de consulta após essa data (remova os caracteres '?' e os caracteres à direita).

O recurso ClinVar é um arquivo público de relatórios acessível livremente – com evidências comprobatórias – sobre as relações entre variações humanas e fenótipos. Ele facilita o acesso e a comunicação sobre as supostas relações entre a variação humana e o status de saúde observado, e sobre o histórico dessa interpretação. Fornece acesso a um conjunto mais amplo de interpretações clínicas que os pesquisadores podem incorporar em fluxos de trabalho e aplicações de genômica.

Visite o Dicionário de Dados e o recurso de perguntas frequentes para obter mais informações sobre os dados.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Fonte de dados

Esse conjunto de dados é um espelho do recurso FTP da Biblioteca Nacional de Medicina ClinVar.

Frequência de atualização de dados

Esse conjunto de dados recebe atualizações diárias.

Acesso a dados

Recurso FTP

Visão geral do FTP

Termos de uso

Os dados estão disponíveis sem restrições. Para obter mais informações e detalhes de citação, confira Acessando e usando dados no ClinVar.

Contact

Para dúvidas ou comentários sobre esses conjuntos de dados, entre em contato pelo endereço clinvar@ncbi.nlm.nih.gov.

Acesso de dados

Azure Notebooks

Obter os dados do ClinVar no Azure Open Dataset

Vários recursos de dados de genômica pública foram carregados como Azure Open Dataset neste recurso.

Chamando os dados de “ClinVar Data Set”

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Baixar o arquivo específico

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.