Trasformazione dei dati - Esempio e divisione
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Questo articolo descrive i moduli in Machine Learning Studio (versione classica) che è possibile usare per partizionare o campionare i dati.
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
La suddivisione e il campionamento dei set di dati sono entrambe attività importanti nell'apprendimento automatico. Ad esempio, è pratica comune dividere i dati in set di training e set di test per facilitare la valutazione di un modello in un set di dati di controllo. Anche il campionamento è sempre più importante nell'era dei Big Data, per garantire una distribuzione equa delle classi nei dati di training. Il campionamento consente anche di assicurarsi di non elaborare più dati del necessario.
È possibile usare i Machine Learning Studio (versione classica) per personalizzare la modalità di suddivisione o di esempio dei set di dati:
- Filtrare i dati di training in base a un attributo nei dati.
- Eseguire il campionamentostratificato per dividere equamente la variabile di classe tra n numero di gruppi.
- Dividere i dati di origine in un set di dati di training e di test usando un rapporto personalizzato.
- Applicare espressioni regolari ai dati per filtrare i valori non validi.
Scelta dell'operazione giusta: divisione o campionamento
Machine Learning Studio (versione classica) fornisce due moduli che incapsulano le attività. I moduli sono simili, ma hanno usi diversi e forniscono funzionalità complementari. È probabile che entrambi i moduli verranno utilizzati in un esperimento per ottenere la quantità e la combinazione di dati giusta.
Successivamente, si confrontano il modulo Split Data (Divisione dati) e il modulo Partition and Sample (Partizione ed esempio) per visualizzare le attività per cui viene comunemente usato ogni modulo.
Usi del modulo Split Data (Dividi dati)
- Dividere i dati in due gruppi. Usare il modulo Split Data (Dividi dati). Il modulo produce esattamente due divisioni dei dati. È possibile specificare la condizione in base alla quale i dati vengono suddivisi e la proporzione dei dati da inserire in ogni subset. La divisione dei dati salva sempre il subset di dati che non soddisfano le condizioni.
- Allocare equamente i valori delle etichette ai set di dati. L'opzione per la stratificazione in una colonna specificata è supportata da entrambi i moduli. Tuttavia, se si vogliono creare due set di dati e si è principalmente interessati alla colonna etichetta, il modulo Split Data (Dividi dati) è una soluzione rapida.
Esempio di uso del modulo Split Data (Dividi dati)
Si supponga di aver importato un set di dati di dimensioni molto grandi da un file CSV. Il set di dati contiene dati demografici dei clienti. Si vogliono creare modelli diversi per i clienti in paesi diversi, quindi si decide di suddividere i dati usando il valore della Country-Region
colonna. Ecco i passaggi da eseguire per completare questa attività:
- Aggiungere il modulo Split Data (Dividi dati) e quindi specificare un'espressione nel
Country-Region
campo. Il resto dei dati è disponibile nell'output secondario. - Aggiungere un'altra istanza del modulo Split Data (Dividi dati).
- Ripetere i passaggi 1 e 2. Specificare un paese diverso nell'espressione per ogni iterazione.
Il modulo Split Data (Dividi dati) supporta sia le espressioni regolari per i dati di testo che le espressioni relative per i dati numerici.
Il modulo Split Data (Dividi dati) offre anche funzionalità sofisticate che è possibile usare per dividere set di dati specializzati. Utilizzare la funzionalità per creare modelli di raccomandazione e generare stime.
Usi del modulo Partition e Sample
- Campionamento. Usare sempre il modulo Partition e Sample . Il modulo offre diversi metodi di campionamento personalizzabili, tra cui diverse opzioni per il campionamentostratificato.
- Assegnare case a più gruppi. Usare le opzioni Assegna a foldo Pick Fold nel modulo Partition and Sample .
- Restituisce solo un subset dei dati. Usare il modulo Partition and Sample . Il modulo fornisce il subset specificato nell'output primario. I dati rimanenti sono disponibili in un output secondario.
- Ottenere solo le prime 2.000 righe di un set di dati. Usare il modulo Partition and Sample . Selezionare l'opzione Head . Ciò è particolarmente utile quando si testa un nuovo esperimento e si vogliono eseguire brevi versioni di valutazione di un flusso di lavoro.
Esempio di uso del modulo Partition e Sample
Il modulo Partition e Sample può generare più partizioni dei dati, non solo due. Allo stesso tempo, può eseguire diverse operazioni di campionamento.
Si supponga, ad esempio, di dover ottenere solo il 10% dei dati, assicurando al tempo stesso che la distribuzione dell'attributo di destinazione sia la stessa dei dati di origine. Ecco i passaggi da eseguire per completare questa attività:
- Aggiungere il modulo Partition e Sample .
- Scegliere la modalità campionamento e quindi specificare 10%.
- Selezionare l'opzione di campionamento stratificato e quindi selezionare la colonna che contiene l'attributo di destinazione.
Se non è necessario conservare tutti i dati, usare il modulo Partition and Sample (Partizione ed esempio). I dati rimanenti sono ancora presenti nell'area di lavoro, ma non devono essere elaborati ulteriormente come parte dell'esperimento.
Attività correlate
- Aumentare il numero di casi rari in un campione o ribilanciare i case per un valore di destinazione: usare il modulo SMOTE .
- Eseguire la riduzione della dimensionalità individuando la combinazione di caratteristiche che meglio rappresenta lo spazio dati: usare il modulo Principal Component Analysis .
- Creare funzionalità compatte basate su un'analisi delle caratteristiche e dei conteggi: usare il modulo Learning con conteggi.
- Creare una vista o una proiezione usando solo le colonne specificate. Remove or hide columns in a dataset (Rimuovi o nascondi colonne in un set di dati): usare i moduli Select Columns in Dataset (Seleziona colonne nel set di dati) e Apply SQL Transformation (Applica SQL transformation).
- Applicare filtri dati, raggruppamenti o trasformazioni più complessi: usare i moduli Execute R Script (Esegui script R) e Apply SQL Transformation (Applica SQL trasformazione).
Elenco dei moduli
Questa categoria include i moduli seguenti:
- Partizione ed esempio: crea più partizioni di un set di dati in base al campionamento.
- Dividi dati: partiziona le righe di un set di dati in due set distinti.