Condividi tramite


Feature Store dell'area di lavoro (legacy)

Nota

Questa documentazione illustra l'archivio delle funzionalità dell'area di lavoro. Workspace Feature Store è disponibile solo per le aree di lavoro create prima del 19 agosto 2024, alle 4:00:00 PM (UTC).

Databricks consiglia di usare Ingegneria delle caratteristiche in Unity Catalog. L'archivio delle funzionalità dell'area di lavoro sarà ritirato in futuro.

Perché usare il Feature Store dell'area di lavoro?

Workspace Feature Store è completamente integrato con altri componenti di Azure Databricks.

  • Individuabilità. L'interfaccia utente di Feature Store, accessibile dall'area di lavoro Databricks, consente di esplorare e cercare le funzionalità esistenti.
  • Derivazione. Quando si crea una funzionalità table in Azure Databricks, le origini dati usate per creare la funzionalità table vengono salvate e accessibili. Per ogni funzionalità in una caratteristica table, è anche possibile accedere ai modelli, ai notebook, ai processi e agli endpoint che utilizzano la funzionalità.
  • Integrazione con la valutazione e il servizio dei modelli. Quando si utilizzano le funzionalità dal Feature Store per addestrare un modello, il modello viene confezionato con i metadati delle funzionalità. Quando si utilizza il modello per la valutazione in batch o l'inferenza online, questo recupera automaticamente le funzionalità dal Feature Store. Il chiamante non deve conoscerli o includere la logica per accedere o utilizzare le funzionalità di join per valutare i nuovi dati. In questo modo, l’implementazione e l’aggiornamento dei modelli è molto più semplice.
  • Ricerche puntuali nel tempo. Il Feature Store supporta casi d'uso basati su serie temporali ed eventi che richiedono la correttezza puntuale nel tempo.

Come funziona la gestione delle funzionalità nell'area di lavoro?

Il flusso di lavoro tipico del machine learning che utilizza il Feature Store segue questo percorso:

  1. Scrivere codice per convertire i dati non elaborati in funzionalità e creare un DataFrame Spark contenente le funzionalità desiderate.
  2. Scrivere il dataframe come funzionalità table nell'archivio delle funzionalità dell'area di lavoro.
  3. Eseguire il training di un modello usando le funzionalità del repository. Quando si esegue questa operazione, il modello archivia le specifiche delle funzionalità usate per il training. Quando il modello viene utilizzato per l'inferenza, unisce automaticamente le caratteristiche dalla caratteristica appropriata tables.
  4. Registrare il modello nel Model Registry.

È quindi possibile usare il modello per fare previsioni sui nuovi dati. Per i casi d’utilizzo batch, il modello recupera automaticamente le funzionalità necessarie da Feature Store.

Flusso di lavoro di Feature Store per i casi d’utilizzo di Machine Learning in batch.

Per i casi d'uso in tempo reale, pubblicare le funzionalità in un archivio online. Consultare Archivi online di terze parti.

In fase di inferenza, il modello legge le funzionalità pre-calcolate dall’archivio online e le aggiunge ai dati forniti nella richiesta client all’endpoint di gestione del modello.

Flusso di lavoro del Feature Store per i modelli di machine learning serviti.

Iniziare a usare il Feature Store dell'Area di Lavoro

Per iniziare con get, usa questi notebook di esempio. Il notebook di base ti guida su come creare una caratteristica table, usarla per addestrare un modello e quindi assegnare i punteggi batch usando la ricerca automatica delle caratteristiche. Presenta anche l’interfaccia utente di “Progettazione Funzionalità” e mostra come usarlo per cercare funzionalità e comprendere come vengono create e usate le funzionalità.

Semplice notebook di esempio di Feature Store dell'area di lavoro

Get blocco note

Il notebook di esempio sui taxi illustra il processo di creazione di funzionalità, l'aggiornamento e l'uso di tali funzionalità per il training del modello e l'inferenza batch.

Notebook di esempio sul Feature Store dello spazio di lavoro per i taxi

Get portatile

Tipi di dati supportati

Per un elenco di tipi supportati, consultareTipi di dati supportati.