Condividi tramite


Eseguire la conversione in valori di indicatori

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Converte i valori categorici delle colonne in valori di indicatore

Categoria: Trasformazione/Manipolazione dei dati

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Converti in valori indicatore in Machine Learning Studio (versione classica). Lo scopo di questo modulo è convertire le colonne che contengono valori categorici in una serie di colonne indicatore binarie che possono essere usate più facilmente come funzionalità in un modello di Machine Learning.

Come configurare Converti in valori indicatore

  1. Aggiungere il modulo Converti in valori indicatore all'esperimento Machine Learning e connetterlo al set di dati contenente le colonne da convertire. È possibile trovare questo modulo in Trasformazioni dati, nella categoria Manipolazione .

  2. Usare Column Selector per scegliere una o più colonne categoriche.

    Per assicurarsi che le colonne selezionate siano categoriche, usare Modifica metadati prima di Converti in valori indicatore nell'esperimento per contrassegnare la colonna di destinazione come categorica.

  3. Selezionare l'opzione Sovrascrivi colonne categoriche se si vuole visualizzare come output solo le nuove colonne booleane.

    Per impostazione predefinita, questa opzione è disattivata, che consente di visualizzare la colonna categorica che rappresenta l'origine, insieme alle colonne indicatore correlate.

    Suggerimento

    Se si sceglie l'opzione di sovrascrittura, la colonna di origine non viene effettivamente eliminata o modificata. Al contrario, le nuove colonne vengono generate e presentate nel set di dati di output e la colonna di origine rimane disponibile nell'area di lavoro. Se è necessario visualizzare i dati originali, è possibile usare il modulo Aggiungi colonne in qualsiasi momento per aggiungere nuovamente la colonna di origine.

  4. Eseguire l'esperimento.

Risultati

Si supponga, ad esempio, di avere una colonna con punteggi che indicano se un server ha una probabilità di errore alta, media o bassa.

ID del server Punteggio di errore
10301 Basso
10302 Medio
10303 Alto

Quando si applica Converti in valori indicatore, la singola colonna di etichette viene convertita in più colonne contenenti valori booleani:

ID del server Punteggio di errore - Basso Punteggio di errore - Medio Punteggio di errore - Alto
10301 1 0 0
10302 0 1 0
10303 0 0 1

Ecco come funziona la conversione:

  • Nella colonna Punteggio di errore che descrive il rischio sono presenti solo tre valori possibili (Alto, Medio e Basso) e nessun valore mancante. Vengono pertanto create esattamente tre nuove colonne.

  • Le nuove colonne indicatore vengono denominate in base alle intestazioni di colonna e ai valori della colonna di origine, usando questo modello: <colonna> di origine- <valore dei dati>.

  • Deve essere presente un valore 1 in una colonna indicatore e 0 in tutte le altre colonne indicatore. Ciò è dovuto al fatto che ogni server può avere una sola classificazione di rischio.

È ora possibile usare le tre colonne indicatore come caratteristiche e analizzarne la correlazione con altre proprietà associate a un livello di rischio diverso.

Esempio

Per esempi di come viene usato questo modulo, vedere il Azure AI Gallery:

  • Rilevamento del virus al seno: i pazienti vengono suddivisi in gruppi in base ai numeri id dei pazienti e quindi viene usato Indicator Values (Valori indicatore) per contrassegnare il gruppo a cui appartiene il paziente. In seguito vengono usati indicatori di gruppo per la classificazione dei modelli.

  • Marketing diretto: le probabilità vengono confrontate con una costante usando Applica operazione matematica e i valori Sì/No che indicano se il punteggio è superiore o inferiore alla costante vengono trasformati in nuove colonne indicatore.

  • Rilevamento intrusioni di rete: i dati di log vengono caricati da Archiviazione di Azure. La variabile di classe (che descrive ad esempio se un attacco è di tipo rootkit o sovraccarico del buffer) viene convertita in una colonna categorica e quindi espansa in più valori indicatore.

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

Suggerimenti per l'uso

  • solo le colonne contrassegnate come categoriche possono essere convertite in colonne indicatore Se viene visualizzato questo errore, è probabile che una delle colonne selezionate non sia categorica:

    Errore 0056: La colonna con il nome <di colonna name> non è in una categoria consentita.

    Per impostazione predefinita, la maggior parte delle colonne di tipo stringa viene gestita come funzionalità stringa, pertanto è necessario contrassegnarle in modo esplicito come categoriche usando Modifica metadati.

  • Se non si seleziona almeno una colonna di categoria, viene visualizzato un errore.

  • Non esiste alcun limite al numero di colonne che è possibile convertire in colonne indicatore. Tuttavia, poiché ogni colonna di valori può produrre più colonne indicatore, può essere necessario convertire ed esaminare solo alcune colonne alla volta.

  • Se la colonna contiene valori mancanti, viene creata una colonna indicatore separata per la categoria mancante, con questo nome: <colonna di origine>- Mancante

  • Se la colonna da convertire in valori indicatore contiene numeri, questi devono essere contrassegnati come categorici come qualsiasi altra colonna delle caratteristiche. Dopo aver eseguito questa operazione, i numeri vengono considerati come valori discreti. Ad esempio, se si dispone di una colonna numerica con valori MPG compresi tra 25 e 30, verrà creata una nuova colonna indicatore per ogni valore discreto:

    Casa automobilistica Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30
    Alfa Romeo 0 0 0 0 0 1

    Per evitare di ottenere un numero elevato di colonne indicatore, è consigliabile prima controllare il numero di valori nella colonna e bin o quantizzare i dati in modo appropriato.

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati con colonne categoriche

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Categorical columns to convert Qualsiasi ColumnSelection Selezionare le colonne categoriche da convertire in matrici indicatore.
Overwrite categorical columns Qualsiasi Boolean false Se il valore è True, sovrascrive le colonne categoriche selezionate. In caso contrario, aggiunge le matrici indicatore risultanti al set di dati.

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati con colonne categoriche convertite in matrici indicatore.

Vedi anche

Manipolazione
Trasformazioni dei dati
Elenco moduli A-Z