Condividi tramite


Trasformazioni di dati

Le trasformazioni dati vengono usate per:

  • Preparare i dati per il training del modello.
  • Applicare un modello importato in formato TensorFlow o ONNX.
  • Dopo aver passato i dati post-elaborazione tramite un modello.

Le trasformazioni in questa guida restituiscono classi che implementano l'interfaccia IEstimator. Le trasformazioni dati possono essere concatenate. Ogni trasformazione prevede e produce dati di determinati tipi e formati, che vengono specificati nella documentazione di riferimento collegata.

Alcune trasformazioni dati richiedono dati di training per calcolare i relativi parametri. Ad esempio, il trasformatore NormalizeMeanVariance calcola la media e la varianza dei dati di training durante l'operazione Fit() e usa tali parametri nell'operazione Transform().

Altre trasformazioni dati non richiedono dati di training. Ad esempio, la trasformazione ConvertToGrayscale può eseguire l'operazione Transform() senza la necessità di dati di training durante l'operazione Fit().

Mapping e raggruppamento di colonne

Trasformazione Definizione ONNX Exportable
Concatenate Concatenare una o più colonne di input in una nuova colonna di output
CopyColumns Copiare e rinominare una o più colonne di input
DropColumns Eliminare una o più colonne di input
SelectColumns Selezionare una o più colonne da mantenere dai dati di input

Normalizzazione e ridimensionamento

Trasformazione Definizione ONNX Exportable
NormalizeMeanVariance Sottrarre la media (dei dati di training) e dividere per la varianza (dei dati di training)
NormalizeLogMeanVariance Normalizzare in base al logaritmo dei dati di training
NormalizeLpNorm Ridimensionare i vettori di input in base al relativo valore lp-norm, dove p è 1, 2 o infinito. L'impostazione predefinita è l2-norm (distanza euclidea)
NormalizeGlobalContrast Ridimensionare ogni valore in una riga sottraendo la media dei dati di riga e dividere per la deviazione standard o l2-norm (della riga di dati) e moltiplicare per un fattore di scala configurabile (valore predefinito 2)
NormalizeBinning Assegnare il valore di input a un indice bin e dividere per il numero di bin per produrre un valore float compreso tra 0 e 1. I limiti di bin sono calcolati per distribuire uniformemente i dati di training tra bin
NormalizeSupervisedBinning Assegnare il valore di input a un bin in base alla relativa correlazione con la colonna etichetta
NormalizeMinMax Ridimensionare l'input in base alla differenza tra i valori minimo e massimo nei dati di training
NormalizeRobustScaling Ridimensionare ogni valore usando statistiche affidabili per gli outlier che centrano i dati intorno allo 0 e ridimensionare i dati in base all'intervallo quantile.

Conversioni tra tipi di dati

Trasformazione Definizione ONNX Exportable
ConvertType Convertire il tipo di una colonna di input in un nuovo tipo
MapValue Eseguire il mapping dei valori alle chiavi (categorie) in base al dizionario dei mapping fornito No
MapValueToKey Eseguire il mapping dei valori alle chiavi (categorie) creando il mapping dai dati di input
MapKeyToValue Convertire le chiavi ai valori originali
MapKeyToVector Convertire le chiavi ai vettori dei valori originali
MapKeyToBinaryVector Convertire le chiavi a un vettore binario dei valori originali No
Hash Eseguire l'hashing del valore nella colonna di input

Trasformazioni di testo

Trasformazione Definizione ONNX Exportable
FeaturizeText Trasformare una colonna di testo in una matrice float di conteggi normalizzati di n-grammi e char-grammi No
TokenizeIntoWords Suddividere una o più colonne di testo in singole parole
TokenizeIntoCharactersAsKeys Suddividere una o più colonne di testo in float di caratteri singoli in un set di argomenti
NormalizeText Cambiare l'uso di maiuscole/minuscole, rimuovere segni diacritici, segni di punteggiatura e numeri
ProduceNgrams Trasformare una colonna di testo in un elenco di conteggi di n-grammi (sequenze di parole consecutive)
ProduceWordBags Trasformare una colonna di testo in un elenco di conteggi del vettore di n-grammi
ProduceHashedNgrams Trasformare una colonna di testo in un vettore di conteggi di n-grammi con hash No
ProduceHashedWordBags Trasformare una colonna di testo in un elenco di conteggi di n-grammi con hash
RemoveDefaultStopWords Rimuovere parole non significative predefinite per la lingua specificata dalle colonne di input
RemoveStopWords Rimuovere parole non significative specifiche dalle colonne di input
LatentDirichletAllocation Trasformare un documento (rappresentato come vettore di float) in un vettore di float in un set di argomenti
ApplyWordEmbedding Convertire vettori di token di testo in vettori di frasi usando un modello preaddestrato

Trasformazioni di immagini

Trasformazione Definizione ONNX Exportable
ConvertToGrayscale Convertire un'immagine in gradazioni di grigio No
ConvertToImage Convertire un vettore di pixel in ImageDataViewType No
ExtractPixels Convertire pixel dall'immagine di input in un vettore di numeri No
LoadImages Caricare immagini da una cartella in memoria No
LoadRawImageBytes Carica immagini di byte non elaborati in una nuova colonna. No
ResizeImages Ridimensionamento delle immagini No
DnnFeaturizeImage Applica un modello DNN (Deep Neural Network) preaddestrato per trasformare un'immagine di input in un vettore di caratteristiche No

Trasformazioni dati categoriche

Trasformazione Definizione ONNX Exportable
OneHotEncoding Convertire una o più colonne di testo in vettori con codifica one-hot
OneHotHashEncoding Convertire una o più colonne di testo in vettori con codifica one-hot basati su hash No

Trasformazioni dati di serie temporali

Trasformazione Definizione ONNX Exportable
DetectAnomalyBySrCnn Rilevare anomalie nei dati delle serie temporali di input usando l'algoritmo SR (Spectral Residual) No
DetectChangePointBySsa Rilevare punti di modifica nei dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis) No
DetectIidChangePoint Rilevare punti di modifica nei dati delle serie temporali indipendenti e identicamente distribuite (IID) usando stime kernel di densità adattive e punteggi basati su martingala No
ForecastBySsa Prevedere i dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis) No
DetectSpikeBySsa Rilevare picchi nei dati delle serie temporali usando l'analisi SSA (Singular Spectrum Analysis) No
DetectIidSpike Rilevare picchi nei dati delle serie temporali indipendenti e identicamente distribuite (IID) usando stime kernel di densità adattive e punteggi basati su martingala No
DetectEntireAnomalyBySrCnn Rilevare le anomalie per tutti i dati di input usando l'algoritmo SRCNN. No
DetectSeasonality Rilevare la stagionalità usando l'analisi di Fourier. No
LocalizeRootCause Localizzare la causa radice dall'input della serie temporale usando un algoritmo ad albero decisionale. No
LocalizeRootCauses Localizzare le cause radice dall'input della serie di tie. No

Valori mancanti

Trasformazione Definizione ONNX Exportable
IndicateMissingValues Creare una nuova colonna di output booleana, il cui valore è true quando manca il valore nella colonna di input
ReplaceMissingValues Creare una nuova colonna di output, il cui valore è impostato su un valore predefinito se manca il valore dalla colonna di input, e il valore di input in caso contrario

Selezione di funzionalità

Trasformazione Definizione ONNX Exportable
SelectFeaturesBasedOnCount Selezionare le caratteristiche i cui valori non predefiniti sono superiori a una soglia
SelectFeaturesBasedOnMutualInformation Selezionare le caratteristiche da cui i dati nella colonna etichetta dipendono maggiormente

Trasformazioni di caratteristiche

Trasformazione Definizione ONNX Exportable
ApproximatedKernelMap Eseguire il mapping di ogni vettore di input a uno spazio di caratteristiche dimensionali inferiore, dove i prodotti interni approssimano una funzione kernel, in modo che le caratteristiche possano essere usate come input per gli algoritmi lineari No
ProjectToPrincipalComponents Ridurre le dimensioni del vettore di caratteristiche di input applicando l'algoritmo PCA (Principal Component Analysis)

Trasformazioni di interpretabilità

Trasformazione Definizione ONNX Exportable
CalculateFeatureContribution Calcolare i punteggi dei contributi per ogni elemento di un vettore di caratteristiche No

Trasformazioni di calibrazione

Trasformazione Definizione ONNX Exportable
Platt(String, String, String) Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe usando la regressione logistica con parametri stimati in base ai dati di training
Platt(Double, Double, String) Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe usando la regressione logistica con parametri fissi
Naive Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe assegnando punteggi ai bin e calcolando la probabilità in base alla distribuzione tra i bin
Isotonic Trasformare un punteggio non elaborato di un classificatore binario in una probabilità di classe assegnando punteggi ai bin, dove la posizione dei limiti e le dimensioni dei bin sono stimate in base ai dati di training No

Trasformazioni di Deep Learning

Trasformazione Definizione ONNX Exportable
ApplyOnnxModel Trasformare i dati di input con un modello ONNX importato No
LoadTensorFlowModel Trasformare i dati di input con un modello TensorFlow importato No

Trasformazioni personalizzate

Trasformazione Definizione ONNX Exportable
FilterByCustomPredicate Rimuove le righe in cui un predicato specificato restituisce true. No
FilterByStatefulCustomPredicate Rimuove le righe in cui un predicato specificato restituisce true, ma consente uno stato specificato. No
CustomMapping Trasformare le colonne esistenti in colonne nuove con un mapping definito dall'utente No
Expression Applicare un'espressione per trasformare le colonne in nuove colonne No