Compartilhar via


1000 Genomas

Observação

Atualização importante de 19/09/2024: todas as URLs estão mudando. Estamos habilitando o acesso público a todos os contêineres do Genomics Data Lake. As "URLs assinadas" existentes (assinaturas de acesso compartilhado) serão desativadas em: 2024-11-04T00:00:00Z. Após esse tempo, as URLs sem uma cadeia de caracteres de consulta continuarão funcionando, no entanto, as "URLs assinadas" não funcionarão mais e retornarão um código de status HTTP 403. Planeje de acordo para acessar as URLs públicas sem uma cadeia de caracteres de consulta após essa data (remova os caracteres '?' e os caracteres à direita).

O Projeto 1000 Genomas foi executado entre 2008 e 2015, para criar o maior catálogo público de dados de variação humana e genótipo. O conjunto de dados final conta com informações sobre 2.504 indivíduos de 26 populações e 84 milhões de variantes identificadas. Para obter mais informações, visite o site do Projeto 1000 Genoma e estas publicações:

Análise Piloto: Um mapa da variação do genoma humano do sequenciamento em escala populacional Nature 467, 1061-1073 (28 de outubro de 2010)

Análise da Fase 1: Um mapa integrado da variação genética de 1.092 genomas humanos Nature 491, 56-65 (01 de novembro de 2012)

Análise da Fase 3: Uma referência global para variação genética humana Natureza 526, 68-74 (01 de outubro de 2015) e Um mapa integrado da variação estrutural em 2.504 genomas humanos Natureza 526, 75-81

Visite este recurso para obter mais informações sobre os formatos de dados relevantes.

[NOVO] o conjunto de dados também está disponível no formato parquet.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Fonte de dados

Esse conjunto de dados é um espelho desse recurso FTP.

Volumes de dados e frequência de atualização

Esse conjunto de dados contém aproximadamente 815 TB de dados. Ele recebe atualizações diárias.

Termos de uso

Após as publicações finais, os dados do Projeto 1000 Genomas ficarão disponíveis sem restrições para qualquer pessoa usar de acordo com as condições previstas pela origem do conjunto de dados. O uso dos dados deve ser citado por detalhes disponíveis no recurso de perguntas frequentes do Projeto 1000 Genoma.

Contato

Role para baixo neste recurso para obter as informações de contato.

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.