Compartilhar via


Criar conjunto de dados AML por meio do Azure Open Datasets

Neste artigo, você aprenderá a trazer os dados de enriquecimento coletados para seus experimentos de aprendizado de máquina local ou remoto, com conjunto de dados do Azure Machine Learning e Azure Open Datasets.

Com umconjunto de dados do AML, você cria uma referência para o local da fonte de dados junto a uma cópia de seus metadados. Como os conjuntos de dados são avaliados lentamente, e como os dados permanecem no local existente

  • Não arrisque alterações acidentais em suas fontes de dados originais
  • Não incorra em nenhum custo de armazenamento extra
  • Aprimorar as velocidades de desempenho do fluxo de trabalho do ML

Para obter mais informações sobre onde os conjuntos de dados se encaixam no fluxo de trabalho de acesso a dados geral do Azure Machine Learning, visite o artigo Acessar dados de maneira segura.

O Azure Open Datasets são conjuntos de dados públicos coletados que adicionam recursos específicos ao cenário para enriquecer suas soluções preditivas e melhorar a precisão dessas soluções. Visite o recurso Catálogo do Azure Open Datasets de dados de domínio público que podem ajudar no treinamento de modelos de aprendizado de máquina, por exemplo:

O Azure Open Datasets é hospedado na nuvem no Microsoft Azure. Tanto o SDK do Python do Azure Machine Learning quanto o Estúdio do Azure Machine Learning incluem eles.

Pré-requisitos

Você precisa de:

Observação

Algumas classes de conjunto de dados têm dependências no pacote azureml-dataprep. Esse pacote só é compatível com o Python de 64 bits. Para usuários do Linux, há suporte para essas classes somente nessas distribuições:

  • Debian (8, 9)
  • Fedora (27, 28)
  • Red Hat Enterprise Linux (7, 8)
  • Ubuntu (14.04, 16.04, 18.04)

Criar conjuntos de dados com o SDK

Para criar conjuntos de dados do Azure Machine Learning por meio de classes do Azure Open Datasets no SDK do Python, verifique se você instalou o pacote com o pip install azureml-opendatasets. No SDK, a classe de cada conjunto de dados discreto representa essa classe e determinadas classes estão disponíveis como um tipo de dados FileDataset do Azure Machine Learning, um tipo de dados TabularDataset do Azure Machine Learning ou ambos. Visite a documentação de referência para obter uma lista completa de classes opendatasets.

Você pode recuperar determinadas classes opendatasets como recursos TabularDataset ou FileDataset. Em seguida, você pode manipular e/ou baixar os arquivos diretamente. Outras classes podem recuperar o conjunto de dados somente com o uso das funções get_tabular_dataset() ou get_file_dataset() da classe Dataset no SDK do Python.

Este código mostra que a classe opendatasets MNIST pode retornar um TabularDataset ou FileDataset:

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Neste exemplo, a classe opendatasets Diabetes está disponível apenas como um TabularDataset. Isso exige o uso de get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Registrar os conjuntos de dados

Registre um conjunto de dados do Azure Machine Learning no seu espaço de trabalho, assim será possível compartilhar o conjunto de dados com outros e reutilizá-lo em experimentos no seu espaço de trabalho. Ao registrar um conjunto de dados do Azure Machine Learning criado a partir do Azure Open Datasets, nenhum dado é baixado imediatamente, mas os dados poderão ser acessados mais tarde (durante o treinamento, por exemplo) quando solicitado de um local de armazenamento central.

Para registrar seu conjunto de dados a partir de um espaço de trabalho, use oregister()método.

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Criar conjunto de dados com o estúdio

Você também pode criar conjuntos de dados do Azure Machine Learning a partir do Azure Open Datasets com o Estúdio do Azure Machine Learning. Essa interface Web consolidada inclui ferramentas de aprendizado de máquina para executar cenários de ciência de dados para profissionais de ciência de dados de todos os níveis de habilidade.

Observação

Os conjuntos de dados criados por meio do Estúdio do Azure Machine Learning são automaticamente registrados no espaço de trabalho.

  1. No espaço de trabalho, selecione os Dados na painel de navegação à esquerda. Na guia Ativos de dados, selecione Criar, conforme mostrado nesta captura de tela:

    Captura de tela mostrando o controle Criar na guia Ativos de dados.

  2. Na próxima tela, adicione um nome e uma descrição opcional para o novo ativo de dados. Em seguida, selecione Tabular na lista suspensa Digitar, conforme mostrado nesta captura de tela:

    Captura de tela mostrando a seleção da opção Tabular na lista suspensa Digitar.

  3. Na próxima tela, selecione Do Azure Open Datasets e selecione Avançar, conforme mostrado nesta captura de tela:

    Captura de tela mostrando a seleção da opção Do Azure Open Datasets.

  4. Na próxima tela, selecione um Azure Open Dataset disponível. Nesta captura de tela, selecionamos o conjunto de dados Dados de segurança de São Francisco:

    Captura de tela mostrando a seleção do conjunto de dados Estatísticas da Força de Trabalho nos EUA.

  5. Scroll down, se necessário, e selecione Avançar, conforme mostrado nesta captura de tela:

    Captura de tela mostrando a seleção do botão Avançar.

  6. Opcionalmente, filtre os dados com os filtros disponíveis e adequados para o conjunto de dados escolhido. Para o conjunto de dados Dados de segurança de São Francisco, definimos o intervalo de datas filtrados entre uma data de início de 1º de julho de 2024 e 17 de julho de 2024. Selecione Avançar, como mostrado nesta captura de tela:

    Captura de tela mostrando a seleção de valores de filtro e a seleção do botão Avançar.

  7. Na próxima tela, examine as configurações do novo ativo de dados e faça as alterações necessárias. Quando parecer bom, selecione Criar conforme mostrado nesta captura de tela:

    Captura de tela mostrando a revisão das configurações escolhidas e a seleção do botão Avançar.

  8. Para obter mais informações sobre as descrições de campo e intervalos de datas do conjunto de dados Dados de segurança de São Francisco, visite o recurso Dados de segurança de São Francisco. Para obter mais informações sobre os outros conjuntos de dados, visite o recurso Catálogo de Conjunto de Dados em Aberto no Azure.

Agora, o conjunto de dados está disponível em seu espaço de trabalho emConjunto de Dados. Você pode usar isso da mesma maneira que os outros conjuntos de dados criados.

Acessar os conjuntos de dados de seus experimentos

Use seus conjuntos de dados em seus experimentos de aprendizado de máquina de modelos de ML para treinamento. Para obter mais informações, visite Saiba mais sobre como treinar com conjuntos de dados.

Notebooks de exemplo

Para obter amostras e demonstrações de funcionalidade do Conjunto de Dados em Aberto no Azure, examine Esses notebooks de amostra.

Próximas etapas