Criar conjunto de dados AML por meio do Azure Open Datasets
Neste artigo, você aprenderá a trazer os dados de enriquecimento coletados para seus experimentos de aprendizado de máquina local ou remoto, com conjunto de dados do Azure Machine Learning e Azure Open Datasets.
Com umconjunto de dados do AML, você cria uma referência para o local da fonte de dados junto a uma cópia de seus metadados. Como os conjuntos de dados são avaliados lentamente, e como os dados permanecem no local existente
- Não arrisque alterações acidentais em suas fontes de dados originais
- Não incorra em nenhum custo de armazenamento extra
- Aprimorar as velocidades de desempenho do fluxo de trabalho do ML
Para obter mais informações sobre onde os conjuntos de dados se encaixam no fluxo de trabalho de acesso a dados geral do Azure Machine Learning, visite o artigo Acessar dados de maneira segura.
O Azure Open Datasets são conjuntos de dados públicos coletados que adicionam recursos específicos ao cenário para enriquecer suas soluções preditivas e melhorar a precisão dessas soluções. Visite o recurso Catálogo do Azure Open Datasets de dados de domínio público que podem ajudar no treinamento de modelos de aprendizado de máquina, por exemplo:
- Saúde e genômica
- Trabalho e economia
- População e segurança
- Conjuntos de dados complementares e comuns
- Transporte
O Azure Open Datasets é hospedado na nuvem no Microsoft Azure. Tanto o SDK do Python do Azure Machine Learning quanto o Estúdio do Azure Machine Learning incluem eles.
Pré-requisitos
Você precisa de:
Uma assinatura do Azure. Se você não tiver uma, crie uma conta gratuita antes de começar. Experimente a versão gratuita ou paga do Azure Machine Learning.
OSDK do AML do Python instalado,que inclui o
azureml-datasets
pacote.- Crie uma instância de computação do Azure Machine Learning, um ambiente de desenvolvimento totalmente configurado e gerenciado que inclui notebooks integrados e o SDK já instalado.
OR
- Trabalhe no seu ambiente de Python e instale você mesmo o SDK com estas instruções.
Observação
Algumas classes de conjunto de dados têm dependências no pacote azureml-dataprep. Esse pacote só é compatível com o Python de 64 bits. Para usuários do Linux, há suporte para essas classes somente nessas distribuições:
- Debian (8, 9)
- Fedora (27, 28)
- Red Hat Enterprise Linux (7, 8)
- Ubuntu (14.04, 16.04, 18.04)
Criar conjuntos de dados com o SDK
Para criar conjuntos de dados do Azure Machine Learning por meio de classes do Azure Open Datasets no SDK do Python, verifique se você instalou o pacote com o pip install azureml-opendatasets
. No SDK, a classe de cada conjunto de dados discreto representa essa classe e determinadas classes estão disponíveis como um tipo de dados FileDataset
do Azure Machine Learning, um tipo de dados TabularDataset
do Azure Machine Learning ou ambos. Visite a documentação de referência para obter uma lista completa de classes opendatasets
.
Você pode recuperar determinadas classes opendatasets
como recursos TabularDataset
ou FileDataset
. Em seguida, você pode manipular e/ou baixar os arquivos diretamente. Outras classes podem recuperar o conjunto de dados somente com o uso das funções get_tabular_dataset()
ou get_file_dataset()
da classe Dataset
no SDK do Python.
Este código mostra que a classe opendatasets
MNIST pode retornar um TabularDataset
ou FileDataset
:
from azureml.core import Dataset
from azureml.opendatasets import MNIST
# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()
Neste exemplo, a classe opendatasets
Diabetes está disponível apenas como um TabularDataset
. Isso exige o uso de get_tabular_dataset()
.
from azureml.opendatasets import Diabetes
from azureml.core import Dataset
# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()
Registrar os conjuntos de dados
Registre um conjunto de dados do Azure Machine Learning no seu espaço de trabalho, assim será possível compartilhar o conjunto de dados com outros e reutilizá-lo em experimentos no seu espaço de trabalho. Ao registrar um conjunto de dados do Azure Machine Learning criado a partir do Azure Open Datasets, nenhum dado é baixado imediatamente, mas os dados poderão ser acessados mais tarde (durante o treinamento, por exemplo) quando solicitado de um local de armazenamento central.
Para registrar seu conjunto de dados a partir de um espaço de trabalho, use oregister()
método.
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
Criar conjunto de dados com o estúdio
Você também pode criar conjuntos de dados do Azure Machine Learning a partir do Azure Open Datasets com o Estúdio do Azure Machine Learning. Essa interface Web consolidada inclui ferramentas de aprendizado de máquina para executar cenários de ciência de dados para profissionais de ciência de dados de todos os níveis de habilidade.
Observação
Os conjuntos de dados criados por meio do Estúdio do Azure Machine Learning são automaticamente registrados no espaço de trabalho.
No espaço de trabalho, selecione os Dados na painel de navegação à esquerda. Na guia Ativos de dados, selecione Criar, conforme mostrado nesta captura de tela:
Na próxima tela, adicione um nome e uma descrição opcional para o novo ativo de dados. Em seguida, selecione Tabular na lista suspensa Digitar, conforme mostrado nesta captura de tela:
Na próxima tela, selecione Do Azure Open Datasets e selecione Avançar, conforme mostrado nesta captura de tela:
Na próxima tela, selecione um Azure Open Dataset disponível. Nesta captura de tela, selecionamos o conjunto de dados Dados de segurança de São Francisco:
Scroll down, se necessário, e selecione Avançar, conforme mostrado nesta captura de tela:
Opcionalmente, filtre os dados com os filtros disponíveis e adequados para o conjunto de dados escolhido. Para o conjunto de dados Dados de segurança de São Francisco, definimos o intervalo de datas filtrados entre uma data de início de 1º de julho de 2024 e 17 de julho de 2024. Selecione Avançar, como mostrado nesta captura de tela:
Na próxima tela, examine as configurações do novo ativo de dados e faça as alterações necessárias. Quando parecer bom, selecione Criar conforme mostrado nesta captura de tela:
Para obter mais informações sobre as descrições de campo e intervalos de datas do conjunto de dados Dados de segurança de São Francisco, visite o recurso Dados de segurança de São Francisco. Para obter mais informações sobre os outros conjuntos de dados, visite o recurso Catálogo de Conjunto de Dados em Aberto no Azure.
Agora, o conjunto de dados está disponível em seu espaço de trabalho emConjunto de Dados. Você pode usar isso da mesma maneira que os outros conjuntos de dados criados.
Acessar os conjuntos de dados de seus experimentos
Use seus conjuntos de dados em seus experimentos de aprendizado de máquina de modelos de ML para treinamento. Para obter mais informações, visite Saiba mais sobre como treinar com conjuntos de dados.
Notebooks de exemplo
Para obter amostras e demonstrações de funcionalidade do Conjunto de Dados em Aberto no Azure, examine Esses notebooks de amostra.