Compartir a través de


Lago de datos de Genomics

El lago de datos de Genomics proporciona una gran variedad de conjuntos de datos públicos de acceso gratuito que puede integrar en sus aplicaciones y flujos de trabajo de análisis genómicos. Los conjuntos de datos incluyen secuencias genómicas, información de las variantes y metadatos sobre las muestras o los sujetos con los formatos de archivo BAM, FASTA, VCF y CSV.

El lago de datos Genomics Data Lake se hospeda en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de estas dos regiones.

Nota

El uso de los conjuntos de datos está sujeto a los términos y condiciones establecidos por sus propietarios. Vea la página de detalles de cada conjunto de datos para consultar los términos y condiciones aplicables.

Conjuntos de datos

Conjuntos de datos Descripción
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: cuadro de herramientas para predicciones de efectos funcionales y anotaciones de variantes genómicas
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Open Custom Ranked Analysis of Variants Toolkit
ENCODE ENCODE: Encyclopedia of DNA Elements
Lote de recursos de GATK Lote de recursos de GATK
Datos abiertos de TCGA Datos abiertos de TCGA
Pan UK-Biobank Pan UK-Biobank

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.