Creare un set di dati di Azure Machine Learning dal set di dati aperti di Azure
Questo articolo illustra come inserire dati di arricchimento curati negli esperimenti di apprendimento automatico locale o remoto con il set di dati di Azure Machine Learning e il set di dati aperti di Azure.
Con un set di dati di Azure Machine Learning, si crea un riferimento al percorso dell'origine dati, insieme a una copia dei relativi metadati. Poiché i set di dati vengono valutati in modo differito e i dati rimangono nella posizione esistente
- Non rischiare modifiche involontarie alle origini dati originali
- Non sono previsti costi di archiviazione aggiuntivi
- Si migliora la velocità delle prestazioni del flusso di lavoro di ML
Per altre informazioni sul luogo di adattamento dei set di dati nel flusso di lavoro complessivo di accesso ai dati di Azure Machine Learning, vedere l'articolo Accedere ai dati in modo sicuro.
Il set di dati aperti di Azure include set di dati pubblici curati che aggiungono caratteristiche specifiche dello scenario per arricchire le soluzioni predittive e migliorarne l'accuratezza. Consultare la risorsa Catalogo dei set di dati aperti per i dati di dominio pubblico che consentono di eseguire il training di modelli di Machine Learning, ad esempio:
- Integrità e genomica
- Forza lavoro ed economia
- Popolazione e sicurezza
- Set di dati supplementari e comuni
- Trasporti
I set di dati aperti sono ospitati nel cloud in Microsoft Azure. Sia Azure Machine Learning Python SDK che Azure Machine Learning Studio li includono.
Prerequisiti
È necessario:
Una sottoscrizione di Azure. Se non se ne dispone, creare un account gratuito prima di iniziare. Provare la versione gratuita o a pagamento di Azure Machine Learning.
Un'area di lavoro di Azure Machine Learning.
L'Azure Machine Learning SDK per Python installato, che include il pacchetto
azureml-datasets
.- Creare un'istanza di ambiente di calcolo di Azure Machine Learning, un ambiente di sviluppo completamente configurato e gestito che include notebook integrati e l'SDK già installato.
OPPURE
- Usare il proprio ambiente Python e installare manualmente l'SDK con queste istruzioni.
Nota
Alcune classi di set di dati hanno dipendenze dal pacchetto azureml-dataprep. Questo pacchetto è compatibile solo con Python a 64 bit. Per gli utenti Linux, queste classi sono supportate solo in queste distribuzioni Linux:
- Debian (8, 9)
- Fedora (27, 28)
- Red Hat Enterprise Linux (7, 8)
- Ubuntu (14.04, 16.04, 18.04)
Creare set di dati con l'SDK
Per creare set di dati di Azure Machine Learning tramite le classi dei set di dati aperti di Azure in Python SDK, assicurarsi di aver installato il pacchetto con pip install azureml-opendatasets
. Nell'SDK la classe di ogni set di dati discreti rappresenta tale classe e determinate classi sono disponibili come tipo di dati di Azure Machine Learning FileDataset
, un tipo di dati di Azure Machine Learning TabularDataset
o entrambi. Per un elenco completo delle classi opendatasets
, vedere la documentazione di riferimento.
È possibile recuperare determinate classi opendatasets
come risorse TabularDataset
o FileDataset
. È quindi possibile modificare e/o scaricare direttamente i file. Altre classi possono recuperare un set di dati solo usando le funzioni get_tabular_dataset()
o get_file_dataset()
dalla classe Dataset
in Python SDK.
Il codice mostra che la classe opendatasets
MNIST può restituire un TabularDataset
o un FileDataset
:
from azureml.core import Dataset
from azureml.opendatasets import MNIST
# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()
In questo esempio, la classe Diabetes opendatasets
è disponibile solo come TabularDataset
. Ciò richiede l'uso di get_tabular_dataset()
.
from azureml.opendatasets import Diabetes
from azureml.core import Dataset
# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()
Registrare i set di dati
Registrare un set di dati di Azure Machine Learning con l'area di lavoro, in modo da poterlo condividere con altri utenti e riutilizzarlo tra esperimenti nell'area di lavoro. Quando si registra un set di dati di Azure Machine Learning creato da set di dati aperti, non viene scaricato immediatamente alcun dato, ma si dati divengono accessibili in un secondo momento (durante il training, ad esempio) quando vengono richiesti da una posizione di archiviazione centrale.
Per registrare i set di dati con un'area di lavoro, usare il metodo register()
.
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
Creare set di dati con lo studio
È anche possibile creare set di dati di Azure Machine Learning con studio di Azure Machine Learning. Questa interfaccia Web consolidata include gli strumenti di Machine Learning per eseguire scenari di data science per professionisti con tutti i livelli di competenze.
Nota
I set di dati creati tramite lo studio di Azure Machine Learning vengono registrati automaticamente nell'area di lavoro.
Nell'area di lavoro selezionare i dati nel riquadro di spostamento a sinistra. Nella scheda Asset di dati selezionare Crea, come illustrato in questo screenshot:
Nella schermata successiva aggiungere un nome e una descrizione facoltativa per il nuovo asset di dati. Selezionare quindi Tabulare nell'elenco a discesa Tipo, come illustrato in questo screenshot:
Nella schermata successiva selezionare Da Set di dati aperti di Azure, quindi selezionare Avanti, come illustrato in questo screenshot:
Nella schermata successiva selezionare un set di dati aperto di Azure disponibile. In questo screenshot è stato selezionato il set di dati Dati di sicurezza di San Francisco:
Scorrere verso il basso, se necessario, e selezionare Avanti, come illustrato in questo screenshot:
Facoltativamente, filtrare i dati con i filtri disponibili, appropriati per il set di dati scelto. Per il set di dati Dati di sicurezza di San Francisco, viene impostato l'intervallo di date filtrato tra una data di inizio del 1° luglio 2024 e il 17 luglio 2024. Selezionare quindi Avanti, come illustrato in questo screenshot:
Nella schermata successiva esaminare le impostazioni per il nuovo asset di dati e apportare le modifiche necessarie. Quando sembra corretto, selezionare Crea come illustrato in questo screenshot:
Per altre informazioni sulle descrizioni dei campi e sugli intervalli di date per il set di dati Dati di sicurezza di San Francisco, visitare la risorsa Dati di sicurezza di San Francisco. Per altre informazioni sugli altri set di dati, visitare la risorsa set di dati aperti di Azure.
Il set di dati è ora disponibile nell'area di lavoro in set di dati. È possibile usarlo nello stesso modo di altri set di dati creati.
Accedere ai set di dati per gli esperimenti
Usare i set di dati negli esperimenti di Machine Learning per il training dei modelli di Machine Learning. Per saperne di più, vedere Altre informazioni su come eseguire il training con i set di dati.
Notebook di esempio
Per esempi e dimostrazioni della funzionalità set di dati aperti, vedere questi notebook di esempio.