Genome Aggregation Database (gnomAD)
Il Genome Aggregation Database (gnomAD) è una risorsa sviluppata da una coalizione internazionale di ricercatori, con l'obiettivo di aggregare e uniformare i dati di sequenziamento di esomi e genomi da un'ampia gamma di progetti di sequenziamento su larga scala e rendere disponibili i dati di riepilogo per la comunità scientifica più ampia.
Nota
Microsoft fornisce i set di dati aperti di Azure così come sono e non fornisce né garanzie, esplicite o implicite, né specifica alcuna condizione in relazione all'uso dei set di dati. Nella misura consentita dalla legge locale, Microsoft declina tutte le responsabilità per eventuali danni o perdite, incluse dirette, consequenziali, speciali, indirette, accidentali o irreversibili, risultanti dall'uso dei set di dati.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Origine dati
Questo set di dati è ospitato grazie a una collaborazione con il Broad Institute; il catalogo di dati gnomAD completo è disponibile all'indirizzo https://gnomad.broadinstitute.org/downloads
Volumi di dati e frequenza di aggiornamento
Questo set di dati contiene all'incirca 30 TB di dati e viene aggiornato con ogni versione di gnomAD.
Posizione di archiviazione
L'account di archiviazione che ospita questo set di dati si trova nell'area di Azure Stati Uniti orientali. L'allocazione delle risorse di calcolo nell'area Stati Uniti orientali è consigliata per motivi di affinità.
Accesso ai dati
Account di archiviazione: 'https://datasetgnomad.blob.core.windows.net/dataset/'
I dati sono disponibili pubblicamente senza restrizioni e lo strumento AzCopy è consigliato per le operazioni in blocco. Per visualizzare ad esempio i file VCF della versione 3.0 di gnomAD:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Per scaricare tutti i file VCF in modo ricorsivo:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NOVITÀ: formato Parquet dei file VCF gnomAD v2.1.1 (esomi e genomi)
Per visualizzare i file Parquet:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Per scaricare tutti i file Parquet in modo ricorsivo:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Anche Azure Storage Explorer è uno strumento utile per esplorare l'elenco dei file nella versione di gnomAD.
Condizioni per l'utilizzo
I dati sono disponibili senza restrizioni. Per altre informazioni e dettagli sulla citazione, vedere la pagina di informazioni su gnomAD.
Contatto
Per eventuali domande o feedback su questo set di dati, contattare il team di gnomAD.
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.