Databricks Runtime 7.0 (EoS)
Nota
Il supporto per questa versione di Databricks Runtime è terminato. Per la data di fine del supporto, vedere Cronologia di fine del supporto. Per tutte le versioni supportate di Databricks Runtime, vedere Versioni e compatibilità delle note sulla versione di Databricks Runtime.
Databricks ha rilasciato questa versione nel giugno 2020.
Le note sulla versione seguenti forniscono informazioni su Databricks Runtime 7.0, basate su Apache Spark 3.0.
Nuove funzionalità
Databricks Runtime 7.0 include le nuove funzionalità seguenti:
Scala 2.12
Databricks Runtime 7.0 aggiorna Scala dalla versione 2.11.12 alla versione 2.12.10. L'elenco delle modifiche tra Scala 2.12 e 2.11 si trova nelle note sulla versione di Scala 2.12.0.
Il caricatore automatico (anteprima pubblica), rilasciato in Databricks Runtime 6.4, è stato migliorato in Databricks Runtime 7.0
Il caricatore automatico offre un modo più efficiente per elaborare i nuovi file di dati in modo incrementale man mano che arrivano in un archivio BLOB cloud durante LTL. Si tratta di un miglioramento rispetto allo streaming strutturato basato su file, che identifica i nuovi file elencando ripetutamente la directory cloud e monitorando i file visualizzati e può essere molto inefficiente man mano che la directory cresce. Il caricatore automatico è anche più pratico ed efficace rispetto allo streaming strutturato basato su notifica file, che richiede di configurare manualmente i servizi di notifica file nel cloud e non consente di riempire i file esistenti. Per informazioni dettagliate, vedere Che cos'è il caricatore automatico?.
In Databricks Runtime 7.0 non è più necessario richiedere un'immagine di Databricks Runtime personalizzata per usare il caricatore automatico.
COPY INTO
(Anteprima pubblica), che consente di caricare dati in Delta Lake con tentativi idempotenti, è stato migliorato in Databricks Runtime 7.0Rilasciato come anteprima pubblica in Databricks Runtime 6.4, il
COPY INTO
comando SQL consente di caricare dati in Delta Lake con tentativi idempotenti. Per caricare i dati in Delta Lake, è necessario usare le API dataframe di Apache Spark. Se si verificano errori durante i carichi, è necessario gestirli in modo efficace. Il nuovoCOPY INTO
comando fornisce un'interfaccia dichiarativa familiare per caricare i dati in SQL. Il comando tiene traccia dei file caricati in precedenza ed è possibile eseguirlo di nuovo in modo sicuro in caso di errori. Per informazioni dettagliate, vedere COPY INTO.
Miglioramenti
Il connettore Azure Synapse (in precedenza SQL Data Warehouse) supporta l'istruzione
COPY
.Il vantaggio principale di
COPY
è che gli utenti con privilegi inferiori possono scrivere dati in Azure Synapse senza dover disporre di autorizzazioni rigoroseCONTROL
in Azure Synapse.Il
%matplotlib inline
comando magic non è più necessario per visualizzare gli oggetti Matplolib inline nelle celle del notebook. Vengono sempre visualizzate inline per impostazione predefinita.Il rendering delle figure matplolib viene ora eseguito con
transparent=False
, in modo che gli sfondi specificati dall'utente non vengano persi. Questo comportamento può essere sottoposto a override impostando la configurazionespark.databricks.workspace.matplotlib.transparent true
di Spark.Quando si eseguono processi di produzione Structured Streaming in cluster in modalità concorrenza elevata, i riavvii di un processo hanno occasionalmente esito negativo perché il processo in esecuzione in precedenza non è stato terminato correttamente. Databricks Runtime 6.3 ha introdotto la possibilità di impostare la configurazione
spark.sql.streaming.stopActiveRunOnRestart true
SQL nel cluster per assicurarsi che l'esecuzione precedente si arresti. Questa configurazione è impostata per impostazione predefinita in Databricks Runtime 7.0.
Modifiche principali alla libreria
Pacchetti Python
Pacchetti Python principali aggiornati:
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
Pacchetti Python rimossi:
- boto (usare boto3)
- pycurl
Nota
L'ambiente Python in Databricks Runtime 7.0 usa Python 3.7, che è diverso dal sistema Ubuntu installato: /usr/bin/python
e /usr/bin/python2
sono collegati a Python 2.7 ed /usr/bin/python3
è collegato a Python 3.6.
Pacchetti R
Pacchetti R aggiunti:
- Scopa
- highr
- isoband
- knitr
- markdown
- modelr
- reprex
- rmarkdown
- rvest
- selectr
- tidyverse
- tinytex
- xfun
Pacchetti R rimossi:
- abind
- bitops
- car
- carData
- doMC
- gbm
- h2o
- Littler
- lme4
- mapproj
- mappe
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- Rio de Janeiro
- sp
- SparseM
- statmod
- zip
Librerie Java e Scala
- Versione di Apache Hive usata per gestire le funzioni definite dall'utente Hive e Hive SerDes aggiornate alla versione 2.3.
- In precedenza Archiviazione di Azure e i file JAR dell'insieme di credenziali delle chiavi venivano inseriti nel pacchetto come parte di Databricks Runtime, impedendo così di usare versioni diverse di tali librerie collegate ai cluster. Le classi in
com.microsoft.azure.storage
ecom.microsoft.azure.keyvault
non sono più nel percorso della classe in Databricks Runtime. Se si dipende da uno di questi percorsi di classe, è ora necessario collegare Archiviazione di Azure SDK o Azure Key Vault SDK ai cluster.
Modifiche del comportamento
Questa sezione elenca le modifiche del comportamento da Databricks Runtime 6.6 a Databricks Runtime 7.0. Quando si esegue la migrazione dei carichi di lavoro da versioni inferiori di Databricks Runtime a Databricks Runtime 7.0 e versioni successive, è necessario tenere presente questi carichi di lavoro.
Modifiche al comportamento di Spark
Dato che Databricks Runtime 7.0 è il primo runtime di Databricks basato su Spark 3.0, quando si esegue la migrazione dei carichi di lavoro da Databricks Runtime 5.5 LTS o 6.x, basati su Spark 2.4, sono state apportate molte modifiche. Queste modifiche sono elencate nella sezione "Modifiche del comportamento" di ogni area funzionale nella sezione Apache Spark di questo articolo sulle note sulla versione:
- Modifiche del comportamento per spark core, Spark SQL e Structured Streaming
- Modifiche del comportamento per MLlib
- Modifiche del comportamento per SparkR
Altre modifiche al comportamento
L'aggiornamento a Scala 2.12 comporta le modifiche seguenti:
La serializzazione delle celle del pacchetto viene gestita in modo diverso. L'esempio seguente illustra la modifica del comportamento e come gestirla.
L'esecuzione
foo.bar.MyObjectInPackageCell.run()
come definito nella cella del pacchetto seguente attiverà l'errorejava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }
Per risolvere questo errore, è possibile eseguire il wrapping
MyObjectInPackageCell
all'interno di una classe serializzabile.Alcuni casi che usano
DataStreamWriter.foreachBatch
richiederanno un aggiornamento del codice sorgente. Questa modifica è dovuta al fatto che Scala 2.12 ha la conversione automatica da espressioni lambda a tipi SAM e può causare ambiguità.Ad esempio, il codice Scala seguente non può essere compilato:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }
Per correggere l'errore di compilazione, passare
foreachBatch { (df, id) => myFunc(df, id) }
aforeachBatch(myFunc _)
o usare l'API Java in modo esplicito:foreachBatch(new VoidFunction2 ...)
.
Poiché la versione di Apache Hive usata per la gestione delle funzioni definite dall'utente Hive e Hive SerDes viene aggiornata alla versione 2.3, sono necessarie due modifiche:
- L'interfaccia di
SerDe
Hive viene sostituita da una classeAbstractSerDe
astratta . Per qualsiasi implementazione personalizzata di HiveSerDe
, è necessaria la migrazione aAbstractSerDe
. - L'impostazione
spark.sql.hive.metastore.jars
subuiltin
indica che il client metastore Hive 2.3 verrà usato per accedere ai metastore per Databricks Runtime 7.0. Se è necessario accedere ai metastore esterni basati su Hive 1.2, impostarespark.sql.hive.metastore.jars
sulla cartella contenente i file JAR Hive 1.2.
- L'interfaccia di
Deprecazioni e rimozioni
- L'indice di salto dei dati è stato deprecato in Databricks Runtime 4.3 e rimosso in Databricks Runtime 7.0. È consigliabile usare invece tabelle Delta, che offrono funzionalità di salto dei dati migliorate.
- In Databricks Runtime 7.0 la versione sottostante di Apache Spark usa Scala 2.12. Poiché le librerie compilate in Scala 2.11 possono disabilitare i cluster Databricks Runtime 7.0 in modi imprevisti, i cluster che eseguono Databricks Runtime 7.0 e versioni successive non installano le librerie configurate per l'installazione in tutti i cluster. La scheda Librerie cluster mostra uno stato
Skipped
e un messaggio di deprecazione che illustra le modifiche nella gestione della libreria. Tuttavia, se è stato creato un cluster in una versione precedente di Databricks Runtime prima del rilascio della piattaforma Azure Databricks versione 3.20 nell'area di lavoro e ora si modifica tale cluster per usare Databricks Runtime 7.0, tutte le librerie configurate per l'installazione in tutti i cluster verranno installate in tale cluster. In questo caso, eventuali JAR incompatibili nelle librerie installate possono causare la disabilitazione del cluster. La soluzione alternativa consiste nel clonare il cluster o per creare un nuovo cluster.
Apache Spark
Databricks Runtime 7.0 include Apache Spark 3.0.
Contenuto della sezione:
Core, Spark SQL, Structured Streaming
Caratteristiche salienti
- (Progetto Idrogeno) Utilità di pianificazione con riconoscimento dell'acceleratore (SPARK-24615)
- Esecuzione di query adattive (SPARK-31412)
- Eliminazione delle partizioni dinamiche (SPARK-11150)
- API UDF pandas riprogettata con hint di tipo (SPARK-28264)
- Interfaccia utente di Structured Streaming (SPARK-29543)
- API plug-in catalogo (SPARK-31121)
- Migliore compatibilità SQL ANSI
Miglioramenti delle prestazioni
- Esecuzione di query adattive (SPARK-31412)
- Framework di base (SPARK-23128)
- Rettifica del numero di partizione post shuffle (SPARK-28177)
- Riutilizzo di sottoquery dinamiche (SPARK-28753)
- Lettore casuale locale (SPARK-28560)
- Ottimizzazione dell'asimmetria dei join (SPARK-29544)
- Ottimizzare la lettura di blocchi casuali contigui (SPARK-9853)
- Eliminazione delle partizioni dinamiche (SPARK-11150)
- Altre regole di ottimizzazione
- Riutilizzo delle regoleSubquery (SPARK-27279)
- Rule PushDownLeftSemiAntiJoin (SPARK-19712)
- Push delle regoleLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Rule ReplaceNullWithFalse (SPARK-25860)
- Regola Elimina gli ordinamenti senza limiti nella sottoquery di Join/Aggregation (SPARK-29343)
- Regola PruneHiveTablePartitions (SPARK-15616)
- Eliminazione di campi annidati non necessari da Genera (SPARK-27707)
- RewriteNonCorrelatedExists (SPARK-29800)
- Ridurre al minimo i costi di sincronizzazione della cache delle tabelle (SPARK-26917), (SPARK-26617), (SPARK-26548)
- Suddividere il codice di aggregazione in funzioni di piccole dimensioni (SPARK-21870)
- Aggiungere l'invio in batch nel comando INSERT e ALTER TABLE ADD PARTITION (SPARK-29938)
Miglioramenti dell'estendibilità
- API plug-in catalogo (SPARK-31121)
- Refactoring dell'API V2 dell'origine dati (SPARK-25390)
- Supporto metastore Hive 3.0 e 3.1 (SPARK-27970),(SPARK-24360)
- Estendere l'interfaccia del plug-in Spark al driver (SPARK-29396)
- Estendere il sistema di metriche Spark con metriche definite dall'utente usando i plug-in executor (SPARK-28091)
- API per sviluppatori per il supporto esteso per l'elaborazione a colonne (SPARK-27396)
- Migrazione di origine predefinita con DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Allow Function Anywherection in SparkExtensions (SPARK-25560)
- Consente la registrazione di Aggregator come UDAF (SPARK-27296)
Miglioramenti del connettore
- Eliminazione delle colonne tramite espressioni non deterministiche (SPARK-29768)
- Supporto
spark.sql.statistics.fallBackToHdfs
nelle tabelle dell'origine dati (SPARK-25474) - Consenti l'eliminazione della partizione con filtri di sottoquery nell'origine file (SPARK-26893)
- Evitare il pushdown delle sottoquery nei filtri dell'origine dati (SPARK-25482)
- Caricamento ricorsivo dei dati da origini file (SPARK-27990)
- Parquet/ORC
- Pushdown dei predicati disgiuntivi (SPARK-27699)
- Generalizzare l'eliminazione della colonna nidificata (SPARK-25603) e attivata per impostazione predefinita (SPARK-29805)
- Solo Parquet
- Pushdown predicato Parquet per i campi annidati (SPARK-17636)
- Solo ORC
- Supporto dello schema di merge per ORC (SPARK-11412)
- Eliminazione dello schema annidata per ORC (SPARK-27034)
- Riduzione della complessità della conversione del predicato per ORC (SPARK-27105, SPARK-28108)
- Aggiornare Apache ORC alla versione 1.5.9 (SPARK-30695)
- CSV
- Pushdown dei filtri di supporto nell'origine dati CSV (SPARK-30323)
- Hive SerDe
- Nessuna inferenza dello schema durante la lettura della tabella serde Hive con origine dati nativa (SPARK-27119)
- I comandi CTAS Hive devono usare l'origine dati se è convertibile (SPARK-25271)
- Usare l'origine dati nativa per ottimizzare l'inserimento di una tabella Hive partizionata (SPARK-28573)
- Apache Kafka
- Aggiunta del supporto per le intestazioni Kafka (SPARK-23539)
- Aggiungere il supporto del token di delega Kafka (SPARK-25501)
- Introduzione della nuova opzione all'origine Kafka: offset per timestamp (inizio/fine) (SPARK-26848)
- Supportare l'opzione nell'origine
minPartitions
batch Kafka e nell'origine di streaming v1 (SPARK-30656) - Aggiornare Kafka alla versione 2.4.1 (SPARK-31126)
- Nuove origini dati predefinite
- Nuove origini dati di file binari predefinite (SPARK-25348)
- Nuove origini dati batch no-op (SPARK-26550) e sink di streaming no-op (SPARK-26649)
Miglioramenti delle funzionalità
- [Idrogeno] Utilità di pianificazione con riconoscimento dell'acceleratore (SPARK-24615)
- Introdurre un set completo di hint di join (SPARK-27225)
- Aggiungere
PARTITION BY
hint per le query SQL (SPARK-28746) - Gestione dei metadati nel server Thrift (SPARK-28426)
- Aggiungere funzioni di ordine superiore all'API scala (SPARK-27297)
- Supporto di semplici operazioni di raccolta nel contesto dell'attività barriera (SPARK-30667)
- Le funzioni definite dall'utente Hive supportano il tipo definito dall'utente (SPARK-28158)
- Supporto degli operatori DELETE/UPDATE/MERGE in Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
- Implementare DataFrame.tail (SPARK-30185)
- Nuove funzioni predefinite
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- versione (SPARK-29554)
- xxhash64 (SPARK-27099)
- Miglioramenti delle funzioni predefinite esistenti
- Miglioramento predefinito di funzioni/operazioni di data e ora (SPARK-31415)
- Modalità di supporto
FAILFAST
perfrom_json
(SPARK-25243) array_sort
aggiunge un nuovo parametro di confronto (SPARK-29020)- Il filtro può ora accettare l'indice come input e l'elemento (SPARK-28962)
Miglioramenti della compatibilità SQL
- Passare al calendario gregoriano proleptico (SPARK-26651)
- Definizione del modello datetime di Spark (SPARK-31408)
- Introdurre i criteri di assegnazione dell'archivio ANSI per l'inserimento di tabelle (SPARK-28495)
- Seguire la regola di assegnazione dell'archivio ANSI nell'inserimento di tabelle per impostazione predefinita (SPARK-28885)
- Aggiungere un SQLConf
spark.sql.ansi.enabled
(SPARK-28989) - Supporto della clausola di filtro SQL ANSI per l'espressione di aggregazione (SPARK-27986)
- Supportare la funzione SQL
OVERLAY
ANSI (SPARK-28077) - Supportare i commenti annidati ANSI tra parentesi quadre (SPARK-28880)
- Generare un'eccezione in caso di overflow per numeri interi (SPARK-26218)
- Controllo dell'overflow per le operazioni aritmetiche intervallo (SPARK-30341)
- Genera eccezione quando viene eseguito il cast di stringhe non valide al tipo numerico (SPARK-30292)
- Rendere coerente il comportamento di overflow di intervallo e divisione con altre operazioni (SPARK-30919)
- Aggiungere alias di tipo ANSI per char e decimal (SPARK-29941)
- Il parser SQL definisce parole chiave riservate conformi a ANSI (SPARK-26215)
- Impedisci parole chiave riservate come identificatori quando la modalità ANSI è attivata (SPARK-26976)
- Supportare la sintassi SQL
LIKE ... ESCAPE
ANSI (SPARK-28083) - Supporto della sintassi booleana-predicato SQL ANSI (SPARK-27924)
- Supporto migliore per l'elaborazione di sottoquery correlate (SPARK-18455)
Miglioramenti di monitoraggio e debug
- Nuova interfaccia utente di Structured Streaming (SPARK-29543)
- SHS: consente il roll over dei registri eventi per l'esecuzione di app di streaming (SPARK-28594)
- Aggiungere un'API che consente a un utente di definire e osservare metriche arbitrarie su query batch e di streaming (SPARK-29345)
- Strumentazione per tenere traccia del tempo di pianificazione per query (SPARK-26129)
- Inserire le metriche casuali di base nell'operatore di scambio SQL (SPARK-26139)
- L'istruzione SQL viene visualizzata nella scheda SQL anziché nel sito di chiamata (SPARK-27045)
- Aggiungere una descrizione comando a SparkUI (SPARK-29449)
- Migliorare le prestazioni simultanee del server cronologia (SPARK-29043)
EXPLAIN FORMATTED
comando (SPARK-27395)- Supporto del dump dei piani troncati e del codice generato in un file (SPARK-26023)
- Migliorare il framework di descrizione per descrivere l'output di una query (SPARK-26982)
- Comando Add
SHOW VIEWS
(SPARK-31113) - Migliorare i messaggi di errore del parser SQL (SPARK-27901)
- Supportare il monitoraggio prometheus in modo nativo (SPARK-29429)
Miglioramenti di PySpark
- Funzioni definite dall'utente pandas riprogettati con hint di tipo (SPARK-28264)
- Pipeline di funzioni definite dall'utente Pandas (SPARK-26412)
- Supportare StructType come argomenti e tipi restituiti per la funzione definita dall'utente di Pandas scalari (SPARK-27240 )
- Supportare il cogroup dei dataframe tramite funzioni definite dall'utente Pandas (SPARK-27463)
- Aggiunta
mapInPandas
per consentire un iteratore di dataframe (SPARK-28198) - Alcune funzioni SQL devono accettare anche nomi di colonna (SPARK-26979)
- Rendere più pythoniche le eccezioni di PySpark SQL (SPARK-31849)
Miglioramenti della documentazione e della copertura dei test
- Creare un riferimento SQL (SPARK-28588)
- Creare una guida utente per WebUI (SPARK-28372)
- Compilare una pagina per la documentazione di configurazione di SQL (SPARK-30510)
- Aggiungere informazioni sulla versione per la configurazione di Spark (SPARK-30839)
- Test di regressione delle porte da PostgreSQL (SPARK-27763)
- Copertura dei test thrift-server (SPARK-28608)
- Copertura dei test delle funzioni definite dall'utente (UDF Python, UDF pandas, funzioni definite dall'utente scala) (SPARK-27921)
Altre modifiche rilevanti
- Aggiornamento predefinito dell'esecuzione di Hive dalla versione 1.2.1 alla versione 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Usare la dipendenza Apache Hive 2.3 per impostazione predefinita (SPARK-30034)
- GA Scala 2.12 e rimuovere 2.11 (SPARK-26132)
- Migliorare la logica per il timeout degli executor nell'allocazione dinamica (SPARK-20286)
- Blocchi RDD persistenti del disco gestiti dal servizio shuffle e ignorati per l'allocazione dinamica (SPARK-27677)
- Acquisire nuovi executor per evitare blocchi a causa dell'elenco di blocchi (SPARK-22148)
- Consentire la condivisione degli allocatori del pool di memoria di Netty (SPARK-24920)
- Correzione del deadlock tra
TaskMemoryManager
eUnsafeExternalSorter$SpillableIterator
(SPARK-27338) - Introduzione
AdmissionControl
delle API per StructuredStreaming (SPARK-30669) - Miglioramento delle prestazioni della pagina principale della cronologia Spark (SPARK-25973)
- Velocizzare e ridurre l'aggregazione delle metriche nel listener SQL (SPARK-29562)
- Evitare la rete quando i blocchi casuali vengono recuperati dallo stesso host (SPARK-27651)
- Migliorare l'elenco di file per
DistributedFileSystem
(SPARK-27801)
Modifiche del comportamento per spark core, Spark SQL e Structured Streaming
Le guide alla migrazione seguenti elencano le modifiche del comportamento tra Apache Spark 2.4 e 3.0. Queste modifiche possono richiedere aggiornamenti ai processi in esecuzione nelle versioni precedenti di Databricks Runtime:
- Guida alla migrazione: Spark Core
- Guida alla migrazione: SQL, set di dati e dataframe
- Guida alla migrazione: Structured Streaming
- Guida alla migrazione: PySpark (Python in Spark)
Le modifiche di comportamento seguenti non sono descritte in queste guide alla migrazione:
- In Spark 3.0 la classe
org.apache.spark.sql.streaming.ProcessingTime
deprecata è stata rimossa. Utilizzare inveceorg.apache.spark.sql.streaming.Trigger.ProcessingTime
. Analogamente,org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger
è stato rimosso a favore diTrigger.Continuous
eorg.apache.spark.sql.execution.streaming.OneTimeTrigger
è stato nascosto a favore diTrigger.Once
. (SPARK-28199) - In Databricks Runtime 7.0, quando si legge una tabella SerDe Hive, per impostazione predefinita Spark non consente la lettura di file in una sottodirectory che non è una partizione di tabella. Per abilitarla, impostare la configurazione
spark.databricks.io.hive.scanNonpartitionedDirectory.enabled
sutrue
. Ciò non influisce sui lettori di tabelle native e sui lettori di file Spark.
MLlib
Caratteristiche salienti
- È stato aggiunto il supporto di più colonne a Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) e PySpark QuantileDiscretizer (SPARK-22796)
- Supporto della trasformazione delle funzionalità basata su albero (SPARK-13677)
- Sono stati aggiunti due nuovi analizzatori MultilabelClassificationEvaluator (SPARK-16692) e RankingEvaluator (SPARK-28045)
- Il supporto dei pesi di esempio è stato aggiunto in DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612), RegressionEvaluator (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612)24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) e GaussianMixture (SPARK-30102)
- Aggiunta dell'API R per PowerIterationClustering (SPARK-19827)
- Aggiunta del listener spark ML per il rilevamento dello stato della pipeline di ML (SPARK-23674)
- L'adattamento al set di convalida è stato aggiunto agli alberi con boosting sfumato in Python (SPARK-24333)
- È stato aggiunto il trasformatore RobustScaler (SPARK-28399)
- Sono stati aggiunti classificatori e regreditori di factorizzazione (SPARK-29224)
- Sono stati aggiunti Gaussian Naive Bayes (SPARK-16872) e Complement Naive Bayes (SPARK-29942)
- Parità della funzione ML tra Scala e Python (SPARK-28958)
- predictRaw viene reso pubblico in tutti i modelli di classificazione. predictProbability viene reso pubblico in tutti i modelli di classificazione ad eccezione di LinearSVCModel (SPARK-30358)
Modifiche del comportamento per MLlib
La guida alla migrazione seguente elenca le modifiche del comportamento tra Apache Spark 2.4 e 3.0. Queste modifiche possono richiedere aggiornamenti ai processi in esecuzione nelle versioni precedenti di Databricks Runtime:
Le modifiche di comportamento seguenti non sono descritte nella guida alla migrazione:
- In Spark 3.0 una regressione logistica multiclasse in Pyspark restituirà
LogisticRegressionSummary
ora (correttamente) , non la sottoclasseBinaryLogisticRegressionSummary
. In questo caso, i metodi aggiuntivi esposti daBinaryLogisticRegressionSummary
non funzionano in questo caso. (SPARK-31681) - In Spark 3.0
pyspark.ml.param.shared.Has*
i mixins non forniscono più metodiset*(self, value)
setter, ma usano invece i rispettiviself.set(self.*, value)
metodi. Per informazioni dettagliate, vedere SPARK-29093. (SPARK-29093)
SparkR
- Ottimizzazione della freccia nell'interoperabilità di SparkR (SPARK-26759)
- Miglioramento delle prestazioni tramite R gapply(), dapply(), createDataFrame, collect()
- "Esecuzione eager" per la shell R, IDE (SPARK-24572)
- API R per Power Iteration Clustering (SPARK-19827)
Modifiche del comportamento per SparkR
La guida alla migrazione seguente elenca le modifiche del comportamento tra Apache Spark 2.4 e 3.0. Queste modifiche possono richiedere aggiornamenti ai processi in esecuzione nelle versioni precedenti di Databricks Runtime:
Elementi deprecati
- Deprecare il supporto di Python 2 (SPARK-27884)
- Deprecare il supporto di R < 3.4 (SPARK-26014)
Problemi noti
- L'analisi del giorno dell'anno utilizzando la lettera di criterio 'D' restituisce il risultato errato se il campo year non è presente. Questa situazione può verificarsi nelle funzioni SQL come
to_timestamp
la quale analizza la stringa datetime ai valori datetime usando una stringa di criteri. (SPARK-31939) - Join/Window/Aggregate all'interno di sottoquery può causare risultati errati se le chiavi hanno valori -0.0 e 0.0. (SPARK-31958)
- Una query di finestra potrebbe non riuscire con un errore di self join ambiguo in modo imprevisto. (SPARK-31956)
- Le query di streaming con
dropDuplicates
operatore potrebbero non essere in grado di riavviare con il checkpoint scritto da Spark 2.x. (SPARK-31990)
Aggiornamenti di manutenzione
Vedere Aggiornamenti della manutenzione di Databricks Runtime 7.0.
Ambiente di sistema
- Sistema operativo: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: R versione 3.6.3 (2020-02-29)
- Delta Lake 0.7.0
Librerie Python installate
Library | Versione | Library | Versione | Library | Versione |
---|---|---|---|---|---|
asn1crypto | 1.3.0 | backcall | 0.1.0 | boto3 | 1.12.0 |
botocore | 1.15.0 | certifi | 2020.4.5 | cffi | 1.14.0 |
chardet | 3.0.4 | cryptography | 2.8 | cycler | 0.10.0 |
Cython | 0.29.15 | decorator | 4.4.1 | docutils | 0.15.2 |
entrypoints | 0.3 | idna | 2.8 | ipykernel | 5.1.4 |
ipython | 7.12.0 | ipython-genutils | 0.2.0 | jedi | 0.14.1 |
jmespath | 0.9.4 | joblib | 0.14.1 | jupyter-client | 5.3.4 |
jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
numpy | 1.18.1 | pandas | 1.0.1 | parso | 0.5.2 |
patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
pip | 20.0.2 | prompt-toolkit | 3.0.3 | Psycopg2 | 2.8.4 |
ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
Pygments | 2.5.2 | pygobject | 3.26.1 | pyOpenSSL | 19.1.0 |
pyparsing | 2.4.6 | PySocks | 1.7.1 | API Python | 1.6.5+ubuntu0.3 |
python-dateutil | 2.8.1 | pytz | 2019.3 | pyzmq | 18.1.1 |
requests | 2.22.0 | s3transfer | 0.3.3 | scikit-learn | 0.22.1 |
scipy | 1.4.1 | seaborn | 0.10.0 | setuptools | 45.2.0 |
six | 1.14.0 | ssh-import-id | 5.7 | statsmodels | 0.11.0 |
tornado | 6.0.3 | traitlets | 4.3.3 | aggiornamenti automatici | 0.1 |
urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
wheel | 0.34.2 |
Librerie R installate
Le librerie R vengono installate dallo snapshot di Microsoft CRAN nel 2020-04-22.
Library | Versione | Library | Versione | Library | Versione |
---|---|---|---|---|---|
askpass | 1.1 | assertthat | 0.2.1 | backports | 1.1.6 |
base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
bit | 1.1-15.2 | bit64 | 0.9-7 | blob | 1.2.1 |
boot | 1.3-25 | brew | 1.0-6 | Scopa | 0.5.6 |
callr | 3.4.3 | caret | 6.0-86 | cellranger | 1.1.0 |
chron | 2.3-55 | class | 7.3-17 | cli | 2.0.2 |
clipr | 0.7.0 | cluster | 2.1.0 | codetools | 0.2-16 |
colorspace | 1.4-1 | commonmark | 1.7 | compilatore | 3.6.3 |
config | 0.3 | covr | 3.5.0 | crayon | 1.3.4 |
crosstalk | 1.1.0.1 | curl | 4.3 | data.table | 1.12.8 |
datasets | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
desc | 1.2.0 | devtools | 2.3.0 | digest | 0.6.25 |
dplyr | 0.8.5 | DT | 0.13 | puntini di sospensione | 0.3.0 |
evaluate | 0.14 | fansi | 0.4.1 | farver | 2.0.3 |
fastmap | 1.0.1 | forcats | 0.5.0 | foreach | 1.5.0 |
foreign | 0.8-76 | forge | 0.2.0 | fs | 1.4.1 |
generics | 0.0.2 | ggplot2 | 3.3.0 | gh | 1.1.0 |
git2r | 0.26.1 | glmnet | 3.0-2 | globals | 0.12.5 |
glue | 1.4.0 | Gower | 0.2.1 | grafica | 3.6.3 |
grDevices | 3.6.3 | grid | 3.6.3 | gridExtra | 2.3 |
gsubfn | 0,7 | gtable | 0.3.0 | haven | 2.2.0 |
highr | 0,8 | hms | 0.5.3 | htmltools | 0.4.0 |
htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
ipred | 0.9-9 | isoband | 0.2.1 | Iteratori | 1.0.12 |
jsonlite | 1.6.1 | KernSmooth | 2.23-17 | knitr | 1.28 |
Etichettatura | 0,3 | later | 1.0.0 | Lattice | 0.20-41 |
Java | 1.6.7 | lazyeval | 0.2.2 | lifecycle | 0.2.0 |
lubridate | 1.7.8 | magrittr | 1,5 | markdown | 1.1 |
MASS | 7.3-51.6 | Matrice | 1.2-18 | memoise | 1.1.0 |
methods | 3.6.3 | mgcv | 1.8-31 | mime | 0.9 |
ModelMetrics | 1.2.2.2 | modelr | 0.1.6 | munsell | 0.5.0 |
nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
openssl | 1.4.1 | parallel | 3.6.3 | Concetto fondamentale | 1.4.3 |
pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
plogr | 0.2.0 | plyr | 1.8.6 | praise | 1.0.0 |
prettyunits | 1.1.1 | Proc | 1.16.2 | processx | 3.4.2 |
prodlim | 2019.11.13 | Avanzamento | 1.2.2 | promises | 1.1.0 |
proto | 1.0.0 | ps | 1.3.2 | purrr | 0.3.4 |
r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
Rcpp | 1.0.4.6 | readr | 1.3.1 | readxl | 1.3.1 |
ricette | 0.1.10 | rematch | 1.0.1 | rematch2 | 2.1.1 |
remotes | 2.1.1 | reprex | 0.3.0 | reshape2 | 1.4.4 |
rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
RSQLite | 2.2.0 | rstudioapi | 0.11 | rversions | 2.0.1 |
rvest | 0.3.5 | Scalabilità | 1.1.0 | selectr | 0.4-2 |
sessioninfo | 1.1.1 | Forma | 1.4.4 | shiny | 1.4.0.2 |
sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
spaziale | 7.3-11 | Spline | 3.6.3 | sqldf | 0.4-11 |
SQUAREM | 2020.2 | stats | 3.6.3 | stats4 | 3.6.3 |
stringi | 1.4.6 | stringr | 1.4.0 | Sopravvivenza | 3.1-12 |
sys | 3.3 | tcltk | 3.6.3 | TeachingDemos | 2.10 |
testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
tidyselect | 1.0.0 | tidyverse | 1.3.0 | timeDate | 3043.102 |
tinytex | 0.22 | tools | 3.6.3 | usethis | 1.6.0 |
utf8 | 1.1.4 | utils | 3.6.3 | vctrs | 0.2.4 |
viridisLite | 0.3.0 | whisker | 0.4 | withr | 2.2.0 |
xfun | 0.13 | xml2 | 1.3.1 | xopen | 1.0.0 |
xtable | 1.8-4 | yaml | 2.2.1 |
Librerie Java e Scala installate (versione del cluster Scala 2.12)
ID gruppo | ID artefatto | Versione |
---|---|---|
antlr | antlr | 2.7.7 |
com.amazonaws | amazon-distribuisci-client | 1.12.0 |
com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
com.amazonaws | aws-java-sdk-config | 1.11.655 |
com.amazonaws | aws-java-sdk-core | 1.11.655 |
com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
com.amazonaws | aws-java-sdk-directory | 1.11.655 |
com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
com.amazonaws | aws-java-sdk-efs | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticloadbalancing | 1.11.655 |
com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
com.amazonaws | aws-java-sdk-emr | 1.11.655 |
com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
com.amazonaws | aws-java-sdk-iam | 1.11.655 |
com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
com.amazonaws | aws-java-sdk-consultas | 1.11.655 |
com.amazonaws | aws-java-sdk-kms | 1.11.655 |
com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
com.amazonaws | aws-java-sdk-logs | 1.11.655 |
com.amazonaws | aws-java-sdk-machinelearning | 1.11.655 |
com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
com.amazonaws | aws-java-sdk-rds | 1.11.655 |
com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
com.amazonaws | aws-java-sdk-ses | 1.11.655 |
com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
com.amazonaws | aws-java-sdk-sns | 1.11.655 |
com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
com.amazonaws | aws-java-sdk-sts | 1.11.655 |
com.amazonaws | aws-java-sdk-support | 1.11.655 |
com.amazonaws | aws-java-sdk-swf-libraries | 1.11.22 |
com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
com.amazonaws | jmespath-java | 1.11.655 |
com.chuusai | shapeless_2.12 | 2.3.3 |
com.clearspring.analytics | stream | 2.9.6 |
com.databricks | Rserve | 1.8-3 |
com.databricks | jets3t | 0.7.1-0 |
com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
com.mdfsoftware | kryo-shaded | 4.0.2 |
com.mdfsoftware | minlog | 1.3.0 |
com.fasterxml | compagno di classe | 1.3.4 |
com.fasterxml.jackson.core | annotazioni jackson | 2.10.0 |
com.fasterxml.jackson.core | jackson-core | 2.10.0 |
com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
com.github.ben-manes.caffeina | caffeina | 2.3.4 |
com.github.fommil | jniloader | 1.1 |
com.github.fommil.netlib | core | 1.1.2 |
com.github.fommil.netlib | native_ref-java | 1.1 |
com.github.fommil.netlib | native_ref-java-natives | 1.1 |
com.github.fommil.netlib | native_system-java | 1.1 |
com.github.fommil.netlib | native_system-java-natives | 1.1 |
com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
com.github.luben | zstd-jni | 1.4.4-3 |
com.github.wendykierp | JTransforms | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.2.4 |
com.google.flatbuffers | flatbuffers-java | 1.9.0 |
com.google.guava | guaiava | 15.0 |
com.google.protobuf | protobuf-java | 2.6.1 |
com.h2database | h2 | 1.4.195 |
com.helger | profiler | 1.1.1 |
com.jcraft | jsch | 0.1.50 |
com.jolbox | bonecp | 0.8.0.RELEASE |
com.microsoft.azure | azure-data-lake-store-sdk | 2.2.8 |
com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
com.ning | compress-lzf | 1.0.3 |
com.sun.mail | javax.mail | 1.5.2 |
com.tdunning | JSON | 1.8 |
com.thoughtworks.paranamer | paranamer | 2.8 |
com.trueaccord.lenses | lenses_2.12 | 0.4.12 |
com.twitter | chill-java | 0.9.5 |
com.twitter | chill_2.12 | 0.9.5 |
com.twitter | util-app_2.12 | 7.1.0 |
com.twitter | util-core_2.12 | 7.1.0 |
com.twitter | util-function_2.12 | 7.1.0 |
com.twitter | util-jvm_2.12 | 7.1.0 |
com.twitter | util-lint_2.12 | 7.1.0 |
com.twitter | util-registry_2.12 | 7.1.0 |
com.twitter | util-stats_2.12 | 7.1.0 |
com.typesafe | config | 1.2.1 |
com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
com.univocità | univocità-parser | 2.8.3 |
com.zaxxer | HikariCP | 3.1.0 |
commons-beanutils | commons-beanutils | 1.9.4 |
commons-cli | commons-cli | 1.2 |
commons-codec | commons-codec | 1.10 |
commons-collections | commons-collections | 3.2.2 |
commons-configuration | commons-configuration | 1.6 |
commons-dbcp | commons-dbcp | 1.4 |
commons-digester | commons-digester | 1.8 |
commons-fileupload | commons-fileupload | 1.3.3 |
commons-httpclient | commons-httpclient | 3.1 |
commons-io | commons-io | 2.4 |
commons-lang | commons-lang | 2.6 |
commons-logging | commons-logging | 1.1.3 |
commons-net | commons-net | 3.1 |
commons-pool | commons-pool | 1.5.4 |
info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
io.airlift | aircompressor | 0,10 |
io.dropwizard.metrics | metrics-core | 4.1.1 |
io.dropwizard.metrics | metrics-graphite | 4.1.1 |
io.dropwizard.metrics | metrics-healthchecks | 4.1.1 |
io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
io.dropwizard.metrics | metrics-jmx | 4.1.1 |
io.dropwizard.metrics | metrics-json | 4.1.1 |
io.dropwizard.metrics | metrics-jvm | 4.1.1 |
io.dropwizard.metrics | metrics-servlets | 4.1.1 |
io.netty | netty-all | 4.1.47.Final |
jakarta.annotation | jakarta.annotation-api | 1.3.5 |
jakarta.validation | jakarta.validation-api | 2.0.2 |
jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
javax.activation | activation | 1.1.1 |
javax.el | javax.el-api | 2.2.4 |
javax.jdo | jdo-api | 3.0.1 |
javax.servlet | javax.servlet-api | 3.1.0 |
javax.servlet.jsp | jsp-api | 2.1 |
javax.transaction | jta | 1.1 |
javax.transaction | transaction-api | 1.1 |
javax.xml.bind | jaxb-api | 2.2.2 |
javax.xml.stream | stax-api | 1.0-2 |
javolution | javolution | 5.5.1 |
jline | jline | 2.14.6 |
joda-time | joda-time | 2.10.5 |
log4j | apache-log4j-extras | 1.2.17 |
log4j | log4j | 1.2.17 |
net.razorvine | pirolite | 4.30 |
net.sf.jpam | jpam | 1.1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.supercsv | super-csv | 2.2.0 |
net.snowflake | snowflake-ingest-sdk | 0.9.6 |
net.snowflake | snowflake-jdbc | 3.12.0 |
net.snowflake | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
net.sourceforge.f2j | arpack_combined_all | 0.1 |
org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.7.1 |
org.antlr | stringtemplate | 3.2.1 |
org.apache.ant | ant | 1.9.2 |
org.apache.ant | ant-jsch | 1.9.2 |
org.apache.ant | ant-launcher | 1.9.2 |
org.apache.arrow | formato freccia | 0.15.1 |
org.apache.arrow | freccia-memoria | 0.15.1 |
org.apache.arrow | freccia-vettore | 0.15.1 |
org.apache.avro | avro | 1.8.2 |
org.apache.avro | avro-ipc | 1.8.2 |
org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
org.apache.commons | commons-compress | 1.8.1 |
org.apache.commons | commons-crypto | 1.0.0 |
org.apache.commons | commons-lang3 | 3.9 |
org.apache.commons | commons-math3 | 3.4.1 |
org.apache.commons | commons-text | 1.6 |
org.apache.curator | curatore-cliente | 2.7.1 |
org.apache.curator | curatore-framework | 2.7.1 |
org.apache.curator | ricette curatori | 2.7.1 |
org.apache.derby | derby | 10.12.1.1 |
org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
org.apache.directory.api | api-util | 1.0.0-M20 |
org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
org.apache.hadoop | hadoop-annotations | 2.7.4 |
org.apache.hadoop | hadoop-auth | 2.7.4 |
org.apache.hadoop | hadoop-client | 2.7.4 |
org.apache.hadoop | hadoop-common | 2.7.4 |
org.apache.hadoop | hadoop-hdfs | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
org.apache.hive | hive-beeline | 2.3.7 |
org.apache.hive | hive-cli | 2.3.7 |
org.apache.hive | hive-common | 2.3.7 |
org.apache.hive | hive-exec-core | 2.3.7 |
org.apache.hive | hive-jdbc | 2.3.7 |
org.apache.hive | hive-llap-client | 2.3.7 |
org.apache.hive | hive-llap-common | 2.3.7 |
org.apache.hive | hive-metastore | 2.3.7 |
org.apache.hive | hive-serde | 2.3.7 |
org.apache.hive | hive-shims | 2.3.7 |
org.apache.hive | hive-storage-api | 2.7.1 |
org.apache.hive | hive-vector-code-gen | 2.3.7 |
org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
org.apache.hive.shims | hive-shims-common | 2.3.7 |
org.apache.hive.shims | hive-shims-scheduler | 2.3.7 |
org.apache.htrace | htrace-core | Incubazione 3.1.0 |
org.apache.httpcomponents | httpclient | 4.5.6 |
org.apache.httpcomponents | httpcore | 4.4.12 |
org.apache.ivy | ivy | 2.4.0 |
org.apache.orc | orc-core | 1.5.10 |
org.apache.orc | orc-mapreduce | 1.5.10 |
org.apache.orc | orc-shim | 1.5.10 |
org.apache.parquet | parquet-column | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-common | 1.10.1.2-databricks4 |
org.apache.parquet | codifica parquet | 1.10.1.2-databricks4 |
org.apache.parquet | formato parquet | 2.4.0 |
org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.velocity | velocità | 1,5 |
org.apache.xbean | xbean-asm7-shaded | 4.15 |
org.apache.yetus | annotazioni del gruppo di destinatari | 0.5.0 |
org.apache.zookeeper | zookeeper | 3.4.14 |
org.codehaus.jackson | jackson-core-asl | 1.9.13 |
org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
org.codehaus.jackson | jackson-xc | 1.9.13 |
org.codehaus.janino | commons-compiler | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.datanucleus | datanucleus-api-jdo | 4.2.4 |
org.datanucleus | datanucleus-core | 4.1.17 |
org.datanucleus | datanucleus-rdbms | 4.1.19 |
org.datanucleus | javax.jdo | 3.2.0-m3 |
org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-continuation | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-security | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-server | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-webapp | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
org.glassfish.hk2 | hk2-api | 2.6.1 |
org.glassfish.hk2 | hk2-locator | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
org.glassfish.jersey.containers | jersey-container-servlet | 2.30 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2.30 |
org.glassfish.jersey.core | jersey-client | 2.30 |
org.glassfish.jersey.core | maglia-comune | 2.30 |
org.glassfish.jersey.core | jersey-server | 2.30 |
org.glassfish.jersey.inject | jersey-hk2 | 2.30 |
org.glassfish.jersey.media | jersey-media-jaxb | 2.30 |
org.hibernate.validator | hibernate-validator | 6.1.0.Final |
org.javassist | javassist | 3.25.0-GA |
org.jboss.logging | jboss-logging | 3.3.2.Final |
org.jdbi | jdbi | 2.63.1 |
org.joda | joda-convert | 1.7 |
org.jodd | jodd-core | 3.5.2 |
org.json4s | json4s-ast_2.12 | 3.6.6 |
org.json4s | json4s-core_2.12 | 3.6.6 |
org.json4s | json4s-jackson_2.12 | 3.6.6 |
org.json4s | json4s-scalap_2.12 | 3.6.6 |
org.lz4 | lz4-java | 1.7.1 |
org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
org.objenesis | objenesis | 2.5.1 |
org.postgresql | postgresql | 42.1.4 |
org.roaringbitmap | RoaringBitmap | 0.7.45 |
org.roaringbitmap | Spessori | 0.7.45 |
org.rocksdb | rocksdbjni | 6.2.2 |
org.rosuda.REngine | REngine | 2.1.0 |
org.scala-lang | scala-compiler_2.12 | 2.12.10 |
org.scala-lang | scala-library_2.12 | 2.12.10 |
org.scala-lang | scala-reflect_2.12 | 2.12.10 |
org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
org.scala-sbt | test-interface | 1.0 |
org.scalacheck | scalacheck_2.12 | 1.14.2 |
org.scalactic | scalactic_2.12 | 3.0.8 |
org.scalanlp | breeze-macros_2.12 | 1.0 |
org.scalanlp | breeze_2.12 | 1.0 |
org.scalatest | scalatest_2.12 | 3.0.8 |
org.slf4j | jcl-over-slf4j | 1.7.30 |
org.slf4j | jul-to-slf4j | 1.7.30 |
org.slf4j | slf4j-api | 1.7.30 |
org.slf4j | slf4j-log4j12 | 1.7.30 |
org.spark-project.spark | inutilizzato | 1.0.0 |
org.springframework | spring-core | 4.1.4.RELEASE |
org.springframework | spring-test | 4.1.4.RELEASE |
org.threeten | treten-extra | 1.5.0 |
org.cortanaani | xz | 1,5 |
org.typelevel | algebra_2.12 | 2.0.0-M2 |
org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
org.typelevel | machinist_2.12 | 0.6.8 |
org.typelevel | macro-compat_2.12 | 1.1.1 |
org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
org.typelevel | spire-util_2.12 | 0.17.0-M1 |
org.typelevel | spire_2.12 | 0.17.0-M1 |
org.xerial | sqlite-jdbc | 3.8.11.2 |
org.xerial.snappy | snappy-java | 1.1.7.5 |
org.yaml | snakeyaml | 1.24 |
oro | oro | 2.0.8 |
pl.edu.icm | JLargeArrays | 1,5 |
software.amazon.ion | ion-java | 1.0.2 |
stax | stax-api | 1.0.1 |
xmlenc | xmlenc | 0,52 |