Condividi tramite


Maggio 2020

Queste funzionalità e i miglioramenti della piattaforma Azure Databricks sono stati rilasciati a maggio 2020.

Nota

Le versioni vengono gestite in staging. L'account Azure Databricks potrebbe non essere aggiornato fino a una settimana dopo la data di rilascio iniziale.

Macchine virtuali serie Easv4 (Beta)

29 maggio 2020

Azure Databricks offre ora il supporto beta per le macchine virtuali serie Easv4, che usano un'unità SSD Premium e possono ottenere una frequenza massima aumentata di 3,35 GHz. Questi tipi di istanza possono optimize le prestazioni del carico di lavoro per le applicazioni aziendali a elevato utilizzo di memoria.

Databricks Runtime 6.6 per Genomica disponibile a livello generale

26 maggio 2020

Databricks Runtime 6.6 per Genomica si basa su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:

  • Lettore GFF3
  • Supporto del genoma di riferimento personalizzato
  • Timeout della pipeline per esempio
  • Opzione di esportazione BAM
  • BLOB manifesto

Databricks Runtime 6.6 ML disponibile a livello generale

26 maggio 2020

Databricks Runtime 6.6 ML è basato su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:

  • Mlflow aggiornato: da 1.7.0 a 1.8.0

Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 6.6 ML (EoS).

Databricks Runtime 6.6 disponibile a livello generale

26 maggio 2020

Databricks Runtime 6.6 offre numerosi aggiornamenti della libreria e nuove funzionalità, incluse le funzionalità Delta Lake seguenti:

  • È ora possibile evolvere automaticamente il schema del table tramite l'operazione merge. Ciò è utile negli scenari where in cui si desidera inserire o aggiornare i dati delle modifiche in un table e la schema dei dati cambia nel tempo. Invece di rilevare e applicare cambiamenti schema prima di inserire o aggiornare, merge può contemporaneamente evolvere il schema e inserire o aggiornare le modifiche. Vedi evoluzione schema automatica per l'unione Delta Lake.
  • Le prestazioni delle operazioni di merge che dispongono solo di clausole corrispondenti, ovvero che hanno solo update azioni e delete senza insert azioni, sono state migliorate.
  • Parquet tables, a cui si fa riferimento nel metastore Hive, ora possono essere convertiti in Delta Lake tramite i loro identificatori di table utilizzando CONVERT TO DELTA.

Per altre informazioni, vedere le note sulla versione complete di Databricks Runtime 6.6 (EoS).

Le dimensioni dell'endpoint di eliminazione dell'API REST DBFS limit

21-28 maggio 2020: versione 3.20

Quando si elimina un numero elevato di file in modo ricorsivo usando l'API DBFS, l'operazione di eliminazione viene eseguita in incrementi. La chiamata restituisce una risposta dopo circa 45 secondi con un messaggio di errore che chiede di richiamare nuovamente l'operazione di eliminazione fino a quando la struttura di directory non viene eliminata completamente. Ad esempio:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Visualizzazione semplificata di un numero elevato di modelli registrati MLflow

21-28 maggio 2020: versione 3.20

Il Registro modelli MLflow supporta ora la ricerca sul lato server e la paginazione per i modelli registrati, che consente alle organizzazioni con un numero elevato di modelli di eseguire in modo efficiente elenchi e ricerche. Come in precedenza, è possibile cercare i modelli in base al nome e get risultati ordinati in base al nome o all'ora dell'ultimo aggiornamento. Tuttavia, se si dispone di un numero elevato di modelli, le pagine verranno caricate molto più velocemente e la ricerca recupererà la visualizzazione più aggiornata dei modelli.

Le librerie configurate per l’installazione in tutti i cluster non vengono installate nei cluster che eseguono Databricks Runtime 7.0 e versioni successive

21-28 maggio 2020: versione 3.20

In Databricks Runtime 7.0 e versioni successive la versione sottostante di Apache Spark usa Scala 2.12. Poiché le librerie compilate in Scala 2.11 possono disabilitare i cluster Databricks Runtime 7.0 in modi imprevisti, i cluster che eseguono Databricks Runtime 7.0 e versioni successive non installano le librerie configurate per l'installazione in tutti i cluster. La scheda Librerie cluster Skipped

Se si dispone di un cluster creato in una versione precedente di Databricks Runtime prima del rilascio della versione 3.20 nell'area di lavoro e ora si modifica tale cluster per usare Databricks Runtime 7.0, tutte le librerie configurate per l'installazione in tutti i cluster verranno installate in tale cluster. In questo caso, eventuali JAR incompatibili nelle librerie installate possono causare la disabilitazione del cluster. La soluzione alternativa consiste nel clonare il cluster o per creare un nuovo cluster.

Databricks Runtime 7.0 per Genomica (Beta)

21 maggio 2020

Databricks Runtime 7.0 per Genomica è basato su Databricks Runtime 7.0 e include le modifiche seguenti alla libreria:

  • La libreria ADAM è stata aggiornata dalla versione 0.30.0 alla 0.32.0.
  • La libreria Hail non è inclusa in Databricks Runtime 7.0 per Genomica perché non è disponibile alcuna versione basata su Apache Spark 3.0.

Databricks Runtime 7.0 ML (Beta)

21 maggio 2020

Databricks Runtime 7.0 ML è basato su Databricks Runtime 7.0 e include le nuove funzionalità seguenti:

  • Librerie Python con ambito notebook e ambienti personalizzati gestiti da comandi conda e pip.
  • Aggiornamenti per i pacchetti Python principali, tra cui tensorflow, tensorboard, pytorch, xgboost, sparkdl e hyperopt.
  • Appena aggiunti pacchetti Python lightgbm, nltk, petastorm e tracciati.
  • RStudio Server Open Source v1.2.

Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 7.0 ML (EoS).

Databricks Runtime 6.6 per Genomica (Beta)

7 maggio 2020

Databricks Runtime 6.6 per Genomica si basa su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:

  • Lettore GFF3
  • Supporto del genoma di riferimento personalizzato
  • Timeout della pipeline per esempio
  • Opzione di esportazione BAM
  • BLOB manifesto

Databricks Runtime 6.6 ML (Beta)

7 maggio 2020

Databricks Runtime 6.6 ML è basato su Databricks Runtime 6.6 e include le nuove funzionalità seguenti:

  • Mlflow aggiornato: da 1.7.0 a 1.8.0

Per altre informazioni, vedere le note sulla versione completa di Databricks Runtime 6.6 ML (EoS).

Databricks Runtime 6.6 (Beta)

7 maggio 2020

Databricks Runtime 6.6 (Beta) offre numerosi aggiornamenti della libreria e nuove funzionalità, incluse le funzionalità Delta Lake seguenti:

  • È ora possibile evolvere automaticamente il schema del table con l'operazione di merge. Ciò è utile negli scenari where in cui si desidera inserire o aggiornare i dati delle modifiche in un table e quando la schema dei dati cambia nel tempo. Invece di individuare e applicare le modifiche schema prima di inserire o aggiornare, merge può evolvere simultaneamente il schema e inserire o aggiornare le modifiche. Vedere 'evoluzione schema automatica per l'unione delta Lake.
  • Le prestazioni delle operazioni di merge che dispongono solo di clausole corrispondenti, ovvero che hanno solo update azioni e delete senza insert azioni, sono state migliorate.
  • I Parquet tables a cui si fa riferimento nel metastore Hive possono ora essere convertiti in Delta Lake attraverso i loro identificatori table utilizzando CONVERT TO DELTA.

Per altre informazioni, vedere le note sulla versione complete di Databricks Runtime 6.6 (EoS).

Cluster di processo ora contrassegnati con nome e ID del processo

5-12 maggio 2020: versione 3.19

I cluster di processo vengono contrassegnati automaticamente con il nome e l'ID del processo. I tag vengono visualizzati nei report sull'utilizzo fatturabile in modo che sia possibile attribuire facilmente l'utilizzo DBU in base al processo e identificare le anomalie. I tag vengono sanificati in base alle specifiche dei tag del cluster, ad esempio caratteri consentiti, dimensioni massime e numero massimo di tag. Il nome del RunName processo è contenuto nel tag e l'ID processo è contenuto nel JobId tag .

Restore celle eliminate del notebook

5-12 maggio 2020: versione 3.19

È ora possibile restore celle eliminate usando il tasto di scelta rapida (Z) o selezionando Modifica > Annulla celle.

Lavori in coda limit

5-12 maggio 2020: versione 3.19

Un'area di lavoro è ora limitata a 1000 esecuzioni di processi attivi (in esecuzione e in sospeso). Poiché un'area di lavoro è limitata a 150 esecuzioni simultanee (in esecuzione), un'area di lavoro può avere fino a 850 esecuzioni nella coda in sospeso.