Databricks Runtime 7.0 (EoS)

Articolo
09/03/2024

Nota

Il supporto per questa versione di Databricks Runtime è terminato. Per la data di fine del supporto, vedere Cronologia di fine del supporto. Per tutte le versioni supportate di Databricks Runtime, vedere Versioni e compatibilità delle note sulla versione di Databricks Runtime.

Databricks ha rilasciato questa versione nel giugno 2020.

Le note sulla versione seguenti forniscono informazioni su Databricks Runtime 7.0, basate su Apache Spark 3.0.

Nuove funzionalità

Databricks Runtime 7.0 include le nuove funzionalità seguenti:

Scala 2.12

Databricks Runtime 7.0 aggiorna Scala dalla versione 2.11.12 alla versione 2.12.10. L'elenco delle modifiche tra Scala 2.12 e 2.11 si trova nelle note sulla versione di Scala 2.12.0.
Il caricatore automatico (anteprima pubblica), rilasciato in Databricks Runtime 6.4, è stato migliorato in Databricks Runtime 7.0

Il caricatore automatico offre un modo più efficiente per elaborare i nuovi file di dati in modo incrementale man mano che arrivano in un archivio BLOB cloud durante LTL. Si tratta di un miglioramento rispetto allo streaming strutturato basato su file, che identifica i nuovi file elencando ripetutamente la directory cloud e monitorando i file visualizzati e può essere molto inefficiente man mano che la directory cresce. Il caricatore automatico è anche più pratico ed efficace rispetto allo streaming strutturato basato su notifica file, che richiede di configurare manualmente i servizi di notifica file nel cloud e non consente di riempire i file esistenti. Per informazioni dettagliate, vedere Che cos'è il caricatore automatico?.

In Databricks Runtime 7.0 non è più necessario richiedere un'immagine di Databricks Runtime personalizzata per usare il caricatore automatico.
COPY INTO (Anteprima pubblica), che consente di caricare dati in Delta Lake con tentativi idempotenti, è stato migliorato in Databricks Runtime 7.0

Rilasciato come anteprima pubblica in Databricks Runtime 6.4, il COPY INTO comando SQL consente di caricare dati in Delta Lake con tentativi idempotenti. Per caricare i dati in Delta Lake, è necessario usare le API dataframe di Apache Spark. Se si verificano errori durante i carichi, è necessario gestirli in modo efficace. Il nuovo COPY INTO comando fornisce un'interfaccia dichiarativa familiare per caricare i dati in SQL. Il comando tiene traccia dei file caricati in precedenza ed è possibile eseguirlo di nuovo in modo sicuro in caso di errori. Per informazioni dettagliate, vedere COPY INTO.

Miglioramenti

Il connettore Azure Synapse (in precedenza SQL Data Warehouse) supporta l'istruzione COPY .

Il vantaggio principale di COPY è che gli utenti con privilegi inferiori possono scrivere dati in Azure Synapse senza dover disporre di autorizzazioni rigorose CONTROL in Azure Synapse.
Il %matplotlib inline comando magic non è più necessario per visualizzare gli oggetti Matplolib inline nelle celle del notebook. Vengono sempre visualizzate inline per impostazione predefinita.
Il rendering delle figure matplolib viene ora eseguito con transparent=False, in modo che gli sfondi specificati dall'utente non vengano persi. Questo comportamento può essere sottoposto a override impostando la configurazione spark.databricks.workspace.matplotlib.transparent truedi Spark.
Quando si eseguono processi di produzione Structured Streaming in cluster in modalità concorrenza elevata, i riavvii di un processo hanno occasionalmente esito negativo perché il processo in esecuzione in precedenza non è stato terminato correttamente. Databricks Runtime 6.3 ha introdotto la possibilità di impostare la configurazione spark.sql.streaming.stopActiveRunOnRestart true SQL nel cluster per assicurarsi che l'esecuzione precedente si arresti. Questa configurazione è impostata per impostazione predefinita in Databricks Runtime 7.0.

Modifiche principali alla libreria

Pacchetti Python

Pacchetti Python principali aggiornati:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Pacchetti Python rimossi:

boto (usare boto3)
pycurl

Nota

L'ambiente Python in Databricks Runtime 7.0 usa Python 3.7, che è diverso dal sistema Ubuntu installato: /usr/bin/python e /usr/bin/python2 sono collegati a Python 2.7 ed /usr/bin/python3 è collegato a Python 3.6.

Pacchetti R

Pacchetti R aggiunti:

Scopa
highr
isoband
knitr
markdown
modelr
reprex
rmarkdown
rvest
selectr
tidyverse
tinytex
xfun

Pacchetti R rimossi:

abind
bitops
car
carData
doMC
gbm
h2o
Littler
lme4
mapproj
mappe
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
Rio de Janeiro
sp
SparseM
statmod
zip

Librerie Java e Scala

Versione di Apache Hive usata per gestire le funzioni definite dall'utente Hive e Hive SerDes aggiornate alla versione 2.3.
In precedenza Archiviazione di Azure e i file JAR dell'insieme di credenziali delle chiavi venivano inseriti nel pacchetto come parte di Databricks Runtime, impedendo così di usare versioni diverse di tali librerie collegate ai cluster. Le classi in com.microsoft.azure.storage e com.microsoft.azure.keyvault non sono più nel percorso della classe in Databricks Runtime. Se si dipende da uno di questi percorsi di classe, è ora necessario collegare Archiviazione di Azure SDK o Azure Key Vault SDK ai cluster.

Modifiche del comportamento

Questa sezione elenca le modifiche del comportamento da Databricks Runtime 6.6 a Databricks Runtime 7.0. Quando si esegue la migrazione dei carichi di lavoro da versioni inferiori di Databricks Runtime a Databricks Runtime 7.0 e versioni successive, è necessario tenere presente questi carichi di lavoro.

Modifiche al comportamento di Spark

Dato che Databricks Runtime 7.0 è il primo runtime di Databricks basato su Spark 3.0, quando si esegue la migrazione dei carichi di lavoro da Databricks Runtime 5.5 LTS o 6.x, basati su Spark 2.4, sono state apportate molte modifiche. Queste modifiche sono elencate nella sezione "Modifiche del comportamento" di ogni area funzionale nella sezione Apache Spark di questo articolo sulle note sulla versione:

Modifiche del comportamento per spark core, Spark SQL e Structured Streaming
Modifiche del comportamento per MLlib
Modifiche del comportamento per SparkR

Altre modifiche al comportamento

L'aggiornamento a Scala 2.12 comporta le modifiche seguenti:
- La serializzazione delle celle del pacchetto viene gestita in modo diverso. L'esempio seguente illustra la modifica del comportamento e come gestirla.
  
  L'esecuzione foo.bar.MyObjectInPackageCell.run() come definito nella cella del pacchetto seguente attiverà l'errore java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Per risolvere questo errore, è possibile eseguire il wrapping MyObjectInPackageCell all'interno di una classe serializzabile.
- Alcuni casi che usano DataStreamWriter.foreachBatch richiederanno un aggiornamento del codice sorgente. Questa modifica è dovuta al fatto che Scala 2.12 ha la conversione automatica da espressioni lambda a tipi SAM e può causare ambiguità.
  
  Ad esempio, il codice Scala seguente non può essere compilato:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Per correggere l'errore di compilazione, passare foreachBatch { (df, id) => myFunc(df, id) } a foreachBatch(myFunc _) o usare l'API Java in modo esplicito: foreachBatch(new VoidFunction2 ...).
Poiché la versione di Apache Hive usata per la gestione delle funzioni definite dall'utente Hive e Hive SerDes viene aggiornata alla versione 2.3, sono necessarie due modifiche:
- L'interfaccia di SerDe Hive viene sostituita da una classe AbstractSerDeastratta . Per qualsiasi implementazione personalizzata di Hive SerDe , è necessaria la migrazione a AbstractSerDe .
- L'impostazione spark.sql.hive.metastore.jars su builtin indica che il client metastore Hive 2.3 verrà usato per accedere ai metastore per Databricks Runtime 7.0. Se è necessario accedere ai metastore esterni basati su Hive 1.2, impostare spark.sql.hive.metastore.jars sulla cartella contenente i file JAR Hive 1.2.

Deprecazioni e rimozioni

L'indice di salto dei dati è stato deprecato in Databricks Runtime 4.3 e rimosso in Databricks Runtime 7.0. È consigliabile usare invece tabelle Delta, che offrono funzionalità di salto dei dati migliorate.
In Databricks Runtime 7.0 la versione sottostante di Apache Spark usa Scala 2.12. Poiché le librerie compilate in Scala 2.11 possono disabilitare i cluster Databricks Runtime 7.0 in modi imprevisti, i cluster che eseguono Databricks Runtime 7.0 e versioni successive non installano le librerie configurate per l'installazione in tutti i cluster. La scheda Librerie cluster mostra uno stato Skipped e un messaggio di deprecazione che illustra le modifiche nella gestione della libreria. Tuttavia, se è stato creato un cluster in una versione precedente di Databricks Runtime prima del rilascio della piattaforma Azure Databricks versione 3.20 nell'area di lavoro e ora si modifica tale cluster per usare Databricks Runtime 7.0, tutte le librerie configurate per l'installazione in tutti i cluster verranno installate in tale cluster. In questo caso, eventuali JAR incompatibili nelle librerie installate possono causare la disabilitazione del cluster. La soluzione alternativa consiste nel clonare il cluster o per creare un nuovo cluster.

Apache Spark

Databricks Runtime 7.0 include Apache Spark 3.0.

Core, Spark SQL, Structured Streaming

Caratteristiche salienti

(Progetto Idrogeno) Utilità di pianificazione con riconoscimento dell'acceleratore (SPARK-24615)
Esecuzione di query adattive (SPARK-31412)
Eliminazione delle partizioni dinamiche (SPARK-11150)
API UDF pandas riprogettata con hint di tipo (SPARK-28264)
Interfaccia utente di Structured Streaming (SPARK-29543)
API plug-in catalogo (SPARK-31121)
Migliore compatibilità SQL ANSI

Miglioramenti delle prestazioni

Esecuzione di query adattive (SPARK-31412)
- Framework di base (SPARK-23128)
- Rettifica del numero di partizione post shuffle (SPARK-28177)
- Riutilizzo di sottoquery dinamiche (SPARK-28753)
- Lettore casuale locale (SPARK-28560)
- Ottimizzazione dell'asimmetria dei join (SPARK-29544)
- Ottimizzare la lettura di blocchi casuali contigui (SPARK-9853)
Eliminazione delle partizioni dinamiche (SPARK-11150)
Altre regole di ottimizzazione
- Riutilizzo delle regoleSubquery (SPARK-27279)
- Rule PushDownLeftSemiAntiJoin (SPARK-19712)
- Push delle regoleLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Rule ReplaceNullWithFalse (SPARK-25860)
- Regola Elimina gli ordinamenti senza limiti nella sottoquery di Join/Aggregation (SPARK-29343)
- Regola PruneHiveTablePartitions (SPARK-15616)
- Eliminazione di campi annidati non necessari da Genera (SPARK-27707)
- RewriteNonCorrelatedExists (SPARK-29800)
Ridurre al minimo i costi di sincronizzazione della cache delle tabelle (SPARK-26917), (SPARK-26617), (SPARK-26548)
Suddividere il codice di aggregazione in funzioni di piccole dimensioni (SPARK-21870)
Aggiungere l'invio in batch nel comando INSERT e ALTER TABLE ADD PARTITION (SPARK-29938)

Miglioramenti dell'estendibilità

API plug-in catalogo (SPARK-31121)
Refactoring dell'API V2 dell'origine dati (SPARK-25390)
Supporto metastore Hive 3.0 e 3.1 (SPARK-27970),(SPARK-24360)
Estendere l'interfaccia del plug-in Spark al driver (SPARK-29396)
Estendere il sistema di metriche Spark con metriche definite dall'utente usando i plug-in executor (SPARK-28091)
API per sviluppatori per il supporto esteso per l'elaborazione a colonne (SPARK-27396)
Migrazione di origine predefinita con DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Allow Function Anywherection in SparkExtensions (SPARK-25560)
Consente la registrazione di Aggregator come UDAF (SPARK-27296)

Miglioramenti del connettore

Eliminazione delle colonne tramite espressioni non deterministiche (SPARK-29768)
Supporto spark.sql.statistics.fallBackToHdfs nelle tabelle dell'origine dati (SPARK-25474)
Consenti l'eliminazione della partizione con filtri di sottoquery nell'origine file (SPARK-26893)
Evitare il pushdown delle sottoquery nei filtri dell'origine dati (SPARK-25482)
Caricamento ricorsivo dei dati da origini file (SPARK-27990)
Parquet/ORC
- Pushdown dei predicati disgiuntivi (SPARK-27699)
- Generalizzare l'eliminazione della colonna nidificata (SPARK-25603) e attivata per impostazione predefinita (SPARK-29805)
- Solo Parquet
  - Pushdown predicato Parquet per i campi annidati (SPARK-17636)
- Solo ORC
  - Supporto dello schema di merge per ORC (SPARK-11412)
  - Eliminazione dello schema annidata per ORC (SPARK-27034)
  - Riduzione della complessità della conversione del predicato per ORC (SPARK-27105, SPARK-28108)
  - Aggiornare Apache ORC alla versione 1.5.9 (SPARK-30695)
CSV
- Pushdown dei filtri di supporto nell'origine dati CSV (SPARK-30323)
Hive SerDe
- Nessuna inferenza dello schema durante la lettura della tabella serde Hive con origine dati nativa (SPARK-27119)
- I comandi CTAS Hive devono usare l'origine dati se è convertibile (SPARK-25271)
- Usare l'origine dati nativa per ottimizzare l'inserimento di una tabella Hive partizionata (SPARK-28573)
Apache Kafka
- Aggiunta del supporto per le intestazioni Kafka (SPARK-23539)
- Aggiungere il supporto del token di delega Kafka (SPARK-25501)
- Introduzione della nuova opzione all'origine Kafka: offset per timestamp (inizio/fine) (SPARK-26848)
- Supportare l'opzione nell'origine minPartitions batch Kafka e nell'origine di streaming v1 (SPARK-30656)
- Aggiornare Kafka alla versione 2.4.1 (SPARK-31126)
Nuove origini dati predefinite
- Nuove origini dati di file binari predefinite (SPARK-25348)
- Nuove origini dati batch no-op (SPARK-26550) e sink di streaming no-op (SPARK-26649)

Miglioramenti delle funzionalità

[Idrogeno] Utilità di pianificazione con riconoscimento dell'acceleratore (SPARK-24615)
Introdurre un set completo di hint di join (SPARK-27225)
Aggiungere PARTITION BY hint per le query SQL (SPARK-28746)
Gestione dei metadati nel server Thrift (SPARK-28426)
Aggiungere funzioni di ordine superiore all'API scala (SPARK-27297)
Supporto di semplici operazioni di raccolta nel contesto dell'attività barriera (SPARK-30667)
Le funzioni definite dall'utente Hive supportano il tipo definito dall'utente (SPARK-28158)
Supporto degli operatori DELETE/UPDATE/MERGE in Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
Implementare DataFrame.tail (SPARK-30185)
Nuove funzioni predefinite
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- versione (SPARK-29554)
- xxhash64 (SPARK-27099)
Miglioramenti delle funzioni predefinite esistenti
- Miglioramento predefinito di funzioni/operazioni di data e ora (SPARK-31415)
- Modalità di supporto FAILFAST per from_json (SPARK-25243)
- array_sort aggiunge un nuovo parametro di confronto (SPARK-29020)
- Il filtro può ora accettare l'indice come input e l'elemento (SPARK-28962)

Miglioramenti della compatibilità SQL

Passare al calendario gregoriano proleptico (SPARK-26651)
Definizione del modello datetime di Spark (SPARK-31408)
Introdurre i criteri di assegnazione dell'archivio ANSI per l'inserimento di tabelle (SPARK-28495)
Seguire la regola di assegnazione dell'archivio ANSI nell'inserimento di tabelle per impostazione predefinita (SPARK-28885)
Aggiungere un SQLConf spark.sql.ansi.enabled (SPARK-28989)
Supporto della clausola di filtro SQL ANSI per l'espressione di aggregazione (SPARK-27986)
Supportare la funzione SQL OVERLAY ANSI (SPARK-28077)
Supportare i commenti annidati ANSI tra parentesi quadre (SPARK-28880)
Generare un'eccezione in caso di overflow per numeri interi (SPARK-26218)
Controllo dell'overflow per le operazioni aritmetiche intervallo (SPARK-30341)
Genera eccezione quando viene eseguito il cast di stringhe non valide al tipo numerico (SPARK-30292)
Rendere coerente il comportamento di overflow di intervallo e divisione con altre operazioni (SPARK-30919)
Aggiungere alias di tipo ANSI per char e decimal (SPARK-29941)
Il parser SQL definisce parole chiave riservate conformi a ANSI (SPARK-26215)
Impedisci parole chiave riservate come identificatori quando la modalità ANSI è attivata (SPARK-26976)
Supportare la sintassi SQL LIKE ... ESCAPE ANSI (SPARK-28083)
Supporto della sintassi booleana-predicato SQL ANSI (SPARK-27924)
Supporto migliore per l'elaborazione di sottoquery correlate (SPARK-18455)

Miglioramenti di monitoraggio e debug

Nuova interfaccia utente di Structured Streaming (SPARK-29543)
SHS: consente il roll over dei registri eventi per l'esecuzione di app di streaming (SPARK-28594)
Aggiungere un'API che consente a un utente di definire e osservare metriche arbitrarie su query batch e di streaming (SPARK-29345)
Strumentazione per tenere traccia del tempo di pianificazione per query (SPARK-26129)
Inserire le metriche casuali di base nell'operatore di scambio SQL (SPARK-26139)
L'istruzione SQL viene visualizzata nella scheda SQL anziché nel sito di chiamata (SPARK-27045)
Aggiungere una descrizione comando a SparkUI (SPARK-29449)
Migliorare le prestazioni simultanee del server cronologia (SPARK-29043)
EXPLAIN FORMATTED comando (SPARK-27395)
Supporto del dump dei piani troncati e del codice generato in un file (SPARK-26023)
Migliorare il framework di descrizione per descrivere l'output di una query (SPARK-26982)
Comando Add SHOW VIEWS (SPARK-31113)
Migliorare i messaggi di errore del parser SQL (SPARK-27901)
Supportare il monitoraggio prometheus in modo nativo (SPARK-29429)

Miglioramenti di PySpark

Funzioni definite dall'utente pandas riprogettati con hint di tipo (SPARK-28264)
Pipeline di funzioni definite dall'utente Pandas (SPARK-26412)
Supportare StructType come argomenti e tipi restituiti per la funzione definita dall'utente di Pandas scalari (SPARK-27240 )
Supportare il cogroup dei dataframe tramite funzioni definite dall'utente Pandas (SPARK-27463)
Aggiunta mapInPandas per consentire un iteratore di dataframe (SPARK-28198)
Alcune funzioni SQL devono accettare anche nomi di colonna (SPARK-26979)
Rendere più pythoniche le eccezioni di PySpark SQL (SPARK-31849)

Miglioramenti della documentazione e della copertura dei test

Creare un riferimento SQL (SPARK-28588)
Creare una guida utente per WebUI (SPARK-28372)
Compilare una pagina per la documentazione di configurazione di SQL (SPARK-30510)
Aggiungere informazioni sulla versione per la configurazione di Spark (SPARK-30839)
Test di regressione delle porte da PostgreSQL (SPARK-27763)
Copertura dei test thrift-server (SPARK-28608)
Copertura dei test delle funzioni definite dall'utente (UDF Python, UDF pandas, funzioni definite dall'utente scala) (SPARK-27921)

Altre modifiche rilevanti

Aggiornamento predefinito dell'esecuzione di Hive dalla versione 1.2.1 alla versione 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Usare la dipendenza Apache Hive 2.3 per impostazione predefinita (SPARK-30034)
GA Scala 2.12 e rimuovere 2.11 (SPARK-26132)
Migliorare la logica per il timeout degli executor nell'allocazione dinamica (SPARK-20286)
Blocchi RDD persistenti del disco gestiti dal servizio shuffle e ignorati per l'allocazione dinamica (SPARK-27677)
Acquisire nuovi executor per evitare blocchi a causa dell'elenco di blocchi (SPARK-22148)
Consentire la condivisione degli allocatori del pool di memoria di Netty (SPARK-24920)
Correzione del deadlock tra TaskMemoryManager e UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Introduzione AdmissionControl delle API per StructuredStreaming (SPARK-30669)
Miglioramento delle prestazioni della pagina principale della cronologia Spark (SPARK-25973)
Velocizzare e ridurre l'aggregazione delle metriche nel listener SQL (SPARK-29562)
Evitare la rete quando i blocchi casuali vengono recuperati dallo stesso host (SPARK-27651)
Migliorare l'elenco di file per DistributedFileSystem (SPARK-27801)

Modifiche del comportamento per spark core, Spark SQL e Structured Streaming

Le guide alla migrazione seguenti elencano le modifiche del comportamento tra Apache Spark 2.4 e 3.0. Queste modifiche possono richiedere aggiornamenti ai processi in esecuzione nelle versioni precedenti di Databricks Runtime:

Le modifiche di comportamento seguenti non sono descritte in queste guide alla migrazione:

In Spark 3.0 la classe org.apache.spark.sql.streaming.ProcessingTime deprecata è stata rimossa. Utilizzare invece org.apache.spark.sql.streaming.Trigger.ProcessingTime. Analogamente, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger è stato rimosso a favore di Trigger.Continuouse org.apache.spark.sql.execution.streaming.OneTimeTrigger è stato nascosto a favore di Trigger.Once. (SPARK-28199)
In Databricks Runtime 7.0, quando si legge una tabella SerDe Hive, per impostazione predefinita Spark non consente la lettura di file in una sottodirectory che non è una partizione di tabella. Per abilitarla, impostare la configurazione spark.databricks.io.hive.scanNonpartitionedDirectory.enabled su true. Ciò non influisce sui lettori di tabelle native e sui lettori di file Spark.

MLlib

Caratteristiche salienti

È stato aggiunto il supporto di più colonne a Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) e PySpark QuantileDiscretizer (SPARK-22796)
Supporto della trasformazione delle funzionalità basata su albero (SPARK-13677)
Sono stati aggiunti due nuovi analizzatori MultilabelClassificationEvaluator (SPARK-16692) e RankingEvaluator (SPARK-28045)
Il supporto dei pesi di esempio è stato aggiunto in DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612), RegressionEvaluator (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612)24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) e GaussianMixture (SPARK-30102)
Aggiunta dell'API R per PowerIterationClustering (SPARK-19827)
Aggiunta del listener spark ML per il rilevamento dello stato della pipeline di ML (SPARK-23674)
L'adattamento al set di convalida è stato aggiunto agli alberi con boosting sfumato in Python (SPARK-24333)
È stato aggiunto il trasformatore RobustScaler (SPARK-28399)
Sono stati aggiunti classificatori e regreditori di factorizzazione (SPARK-29224)
Sono stati aggiunti Gaussian Naive Bayes (SPARK-16872) e Complement Naive Bayes (SPARK-29942)
Parità della funzione ML tra Scala e Python (SPARK-28958)
predictRaw viene reso pubblico in tutti i modelli di classificazione. predictProbability viene reso pubblico in tutti i modelli di classificazione ad eccezione di LinearSVCModel (SPARK-30358)

Modifiche del comportamento per MLlib

La guida alla migrazione seguente elenca le modifiche del comportamento tra Apache Spark 2.4 e 3.0. Queste modifiche possono richiedere aggiornamenti ai processi in esecuzione nelle versioni precedenti di Databricks Runtime:

Guida alla migrazione: MLlib (Machine Learning)

Le modifiche di comportamento seguenti non sono descritte nella guida alla migrazione:

In Spark 3.0 una regressione logistica multiclasse in Pyspark restituirà LogisticRegressionSummaryora (correttamente) , non la sottoclasse BinaryLogisticRegressionSummary. In questo caso, i metodi aggiuntivi esposti da BinaryLogisticRegressionSummary non funzionano in questo caso. (SPARK-31681)
In Spark 3.0 pyspark.ml.param.shared.Has* i mixins non forniscono più metodi set*(self, value) setter, ma usano invece i rispettivi self.set(self.*, value) metodi. Per informazioni dettagliate, vedere SPARK-29093. (SPARK-29093)

SparkR

Ottimizzazione della freccia nell'interoperabilità di SparkR (SPARK-26759)
Miglioramento delle prestazioni tramite R gapply(), dapply(), createDataFrame, collect()
"Esecuzione eager" per la shell R, IDE (SPARK-24572)
API R per Power Iteration Clustering (SPARK-19827)

Modifiche del comportamento per SparkR

Guida alla migrazione: SparkR (R in Spark)

Elementi deprecati

Deprecare il supporto di Python 2 (SPARK-27884)
Deprecare il supporto di R < 3.4 (SPARK-26014)

Problemi noti

L'analisi del giorno dell'anno utilizzando la lettera di criterio 'D' restituisce il risultato errato se il campo year non è presente. Questa situazione può verificarsi nelle funzioni SQL come to_timestamp la quale analizza la stringa datetime ai valori datetime usando una stringa di criteri. (SPARK-31939)
Join/Window/Aggregate all'interno di sottoquery può causare risultati errati se le chiavi hanno valori -0.0 e 0.0. (SPARK-31958)
Una query di finestra potrebbe non riuscire con un errore di self join ambiguo in modo imprevisto. (SPARK-31956)
Le query di streaming con dropDuplicates operatore potrebbero non essere in grado di riavviare con il checkpoint scritto da Spark 2.x. (SPARK-31990)

Aggiornamenti di manutenzione

Vedere Aggiornamenti della manutenzione di Databricks Runtime 7.0.

Ambiente di sistema

Sistema operativo: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R versione 3.6.3 (2020-02-29)
Delta Lake 0.7.0

Librerie Python installate

Library	Versione	Library	Versione	Library	Versione
asn1crypto	1.3.0	backcall	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	cryptography	2.8	cycler	0.10.0
Cython	0.29.15	decorator	4.4.1	docutils	0.15.2
entrypoints	0.3	idna	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	pandas	1.0.1	parso	0.5.2
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
pip	20.0.2	prompt-toolkit	3.0.3	Psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	pygobject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	API Python	1.6.5+ubuntu0.3
python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
requests	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	seaborn	0.10.0	setuptools	45.2.0
six	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
tornado	6.0.3	traitlets	4.3.3	aggiornamenti automatici	0.1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
wheel	0.34.2

Librerie R installate

Le librerie R vengono installate dallo snapshot di Microsoft CRAN nel 2020-04-22.

Library	Versione	Library	Versione	Library	Versione
askpass	1.1	assertthat	0.2.1	backports	1.1.6
base	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bit	1.1-15.2	bit64	0.9-7	blob	1.2.1
boot	1.3-25	brew	1.0-6	Scopa	0.5.6
callr	3.4.3	caret	6.0-86	cellranger	1.1.0
chron	2.3-55	class	7.3-17	cli	2.0.2
clipr	0.7.0	cluster	2.1.0	codetools	0.2-16
colorspace	1.4-1	commonmark	1.7	compilatore	3.6.3
config	0.3	covr	3.5.0	crayon	1.3.4
crosstalk	1.1.0.1	curl	4.3	data.table	1.12.8
datasets	3.6.3	DBI	1.1.0	dbplyr	1.4.3
desc	1.2.0	devtools	2.3.0	digest	0.6.25
dplyr	0.8.5	DT	0.13	puntini di sospensione	0.3.0
evaluate	0.14	fansi	0.4.1	farver	2.0.3
fastmap	1.0.1	forcats	0.5.0	foreach	1.5.0
foreign	0.8-76	forge	0.2.0	fs	1.4.1
generics	0.0.2	ggplot2	3.3.0	gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globals	0.12.5
glue	1.4.0	Gower	0.2.1	grafica	3.6.3
grDevices	3.6.3	grid	3.6.3	gridExtra	2.3
gsubfn	0,7	gtable	0.3.0	haven	2.2.0
highr	0,8	hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	Iteratori	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	knitr	1.28
Etichettatura	0,3	later	1.0.0	Lattice	0.20-41
Java	1.6.7	lazyeval	0.2.2	lifecycle	0.2.0
lubridate	1.7.8	magrittr	1,5	markdown	1.1
MASS	7.3-51.6	Matrice	1.2-18	memoise	1.1.0
methods	3.6.3	mgcv	1.8-31	mime	0.9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	parallel	3.6.3	Concetto fondamentale	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	Proc	1.16.2	processx	3.4.2
prodlim	2019.11.13	Avanzamento	1.2.2	promises	1.1.0
proto	1.0.0	ps	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
ricette	0.1.10	rematch	1.0.1	rematch2	2.1.1
remotes	2.1.1	reprex	0.3.0	reshape2	1.4.4
rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0.11	rversions	2.0.1
rvest	0.3.5	Scalabilità	1.1.0	selectr	0.4-2
sessioninfo	1.1.1	Forma	1.4.4	shiny	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
spaziale	7.3-11	Spline	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	stats	3.6.3	stats4	3.6.3
stringi	1.4.6	stringr	1.4.0	Sopravvivenza	3.1-12
sys	3.3	tcltk	3.6.3	TeachingDemos	2.10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	timeDate	3043.102
tinytex	0.22	tools	3.6.3	usethis	1.6.0
utf8	1.1.4	utils	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	whisker	0.4	withr	2.2.0
xfun	0.13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	yaml	2.2.1

Librerie Java e Scala installate (versione del cluster Scala 2.12)

ID gruppo	ID artefatto	Versione
antlr	antlr	2.7.7
com.amazonaws	amazon-distribuisci-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-consultas	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	stream	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.mdfsoftware	kryo-shaded	4.0.2
com.mdfsoftware	minlog	1.3.0
com.fasterxml	compagno di classe	1.3.4
com.fasterxml.jackson.core	annotazioni jackson	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.caffeina	caffeina	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guaiava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	JSON	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocità	univocità-parser	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0,10
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pirolite	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	formato freccia	0.15.1
org.apache.arrow	freccia-memoria	0.15.1
org.apache.arrow	freccia-vettore	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curatore-cliente	2.7.1
org.apache.curator	curatore-framework	2.7.1
org.apache.curator	ricette curatori	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-annotations	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	hadoop-hdfs	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	hive-storage-api	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	Incubazione 3.1.0
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	orc-shim	1.5.10
org.apache.parquet	parquet-column	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	codifica parquet	1.10.1.2-databricks4
org.apache.parquet	formato parquet	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	velocità	1,5
org.apache.xbean	xbean-asm7-shaded	4.15
org.apache.yetus	annotazioni del gruppo di destinatari	0.5.0
org.apache.zookeeper	zookeeper	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-continuation	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	jetty-security	9.4.18.v20190429
org.eclipse.jetty	jetty-server	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	maglia-comune	2.30
org.glassfish.jersey.core	jersey-server	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	jersey-media-jaxb	2.30
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	Spessori	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	inutilizzato	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	treten-extra	1.5.0
org.cortanaani	xz	1,5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1,5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0,52

Condividi tramite

Databricks Runtime 7.0 (EoS)

Nuove funzionalità

Miglioramenti

Modifiche principali alla libreria

Pacchetti Python

Pacchetti R

Librerie Java e Scala

Modifiche del comportamento

Modifiche al comportamento di Spark

Altre modifiche al comportamento

Deprecazioni e rimozioni

Apache Spark

Contenuto della sezione:

Core, Spark SQL, Structured Streaming

Caratteristiche salienti

Miglioramenti delle prestazioni

Miglioramenti dell'estendibilità

Miglioramenti del connettore

Miglioramenti delle funzionalità

Miglioramenti della compatibilità SQL

Miglioramenti di monitoraggio e debug

Miglioramenti di PySpark

Miglioramenti della documentazione e della copertura dei test

Altre modifiche rilevanti

Modifiche del comportamento per spark core, Spark SQL e Structured Streaming

MLlib

Caratteristiche salienti

Modifiche del comportamento per MLlib

SparkR

Modifiche del comportamento per SparkR

Elementi deprecati

Problemi noti

Aggiornamenti di manutenzione

Ambiente di sistema

Librerie Python installate

Librerie R installate

Librerie Java e Scala installate (versione del cluster Scala 2.12)

Commenti e suggerimenti

Risorse aggiuntive