Data lake Genomics
O Data Lake Genomics conta com vários conjuntos de dados públicos que podem ser acessados gratuitamente e integrados aos seus aplicativos e fluxos de trabalho de análise genômica. Os conjuntos de dados incluem: sequências de genomas, informações sobre variantes e metadados de indivíduos/amostras nos formatos de arquivo BAM, FASTA, VCF e CSV.
O Data Lake do Genomics está armazenado nas regiões do Azure Oeste dos EUA 2 e Centro-Oeste dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2 e no Centro-Oeste dos EUA por questão de afinidade.
Observação
O uso de conjuntos de dados está sujeito aos termos e condições definidos pelos proprietários do conjunto de dados. Confira a página de detalhes de cada conjunto de dados para ver os termos e condições aplicáveis.
Conjunto de dados
Conjunto de dados | Descrição |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Genomas de referência humanos | Genomas de referência humanos |
Anotações do ClinVar | Anotações do ClinVar |
SnpEff | SnpEff: Caixa de ferramentas de anotações de variante de genoma e previsão de efeito funcional |
gnomAD | gnomAD: Banco de Dados de Agregação de Genomas |
1000 Genomas | 1000 Genomas |
OpenCravat | OpenCRAVAT: Kit de Ferramentas da Análise Classificada Personalizada e Aberta de Variantes |
ENCODE | ENCODE: Enciclopédia de Elementos do DNA |
Pacote de recursos GATK | Pacote de recursos GATK |
Dados abertos do TCGA | Dados abertos do TCGA |
Pan UK-Biobank | Pan UK-Biobank |
Banco de dados ImmuneCODE | Banco de dados ImmuneCODE |
Conjunto de dados Open Targets | Conjunto de dados Open Targets |
Próximas etapas
Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.