Wartungsupdates für Databricks Runtime (archiviert)
Auf dieser archivierten Seite werden die Wartungsupdates für Databricks Runtime-Releases aufgelistet, die nicht mehr unterstützt werden. Um ein Wartungsupdate zu einem bestehenden Cluster hinzuzufügen, starten Sie den Cluster neu.
Wichtig
Diese Dokumentation wurde eingestellt und wird unter Umständen nicht aktualisiert. Die in diesem Inhalt erwähnten Produkte, Dienste oder Technologien haben das Ende des Supports erreicht. Weitere Informationen finden Sie unter Versionshinweise, Versionen und Kompatibilität von Databricks Runtime.
Hinweis
Dieser Artikel enthält Verweise auf den Begriff Whitelist, einen Begriff, den Azure Databricks nicht verwendet. Sobald der Begriff aus der Software entfernt wird, wird er auch aus diesem Artikel entfernt.
Databricks Runtime-Releases
Wartungsupdates nach Release:
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Databricks Runtime 6.4 Erweiterter Support (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Databricks Light 2.4: Erweiterter Support
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
Informationen zu den Wartungsupdates für unterstützte Databricks Runtime-Versionen finden Sie unter Databricks Runtime-Wartungsupdates.
Databricks Runtime 15.1
Siehe Databricks Runtime 15.1 (EoS).
- 22. Oktober 2024
- [SPARK-49863][SQL] Fix NormalizeFloatingNumbers to preserve nullability of nested structs
- [SPARK-46632][SQL] Beheben der Eliminierung von Subexpressionen, wenn entsprechende ternäre Ausdrücke unterschiedliche untergeordnete Elemente haben
- [SPARK-49782][SQL] ResolveDataFrameDropColumns-Regel löst UnresolvedAttribute mit untergeordneter Ausgabe auf
- [SPARK-49905] Verwenden Sie dedizierte ShuffleOrigin für zustandsbehafteten Operator, um zu verhindern, dass das Shuffle-Steuerelement von AQE geändert wird.
- [SPARK-49829] Überarbeiten der Optimierung zum Hinzufügen von Eingaben zum Zustandsspeicher in stream-stream join (Korrektur der Korrektheit)
- Updates der Betriebssystemsicherheit.
- 10. Oktober 2024
- [SPARK-49688][CONNECT] Korrigieren eines Datenrennens zwischen Unterbrechungs- und Ausführungsplan
- [SPARK-49743][SQL] OptimizeCsvJsonExpr sollte beim Löschen von GetArrayStructFields keine Schemafelder ändern
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Klassifizierungsfehlerklasse für FlatMapGroupsWithState-Benutzerfunktionsfehler
- Updates der Betriebssystemsicherheit.
- 25. September 2024
- [SPARK-49628][SQL] ConstantFolding sollte zustandsbehafteten Ausdruck kopieren, bevor er ausgewertet wird.
- [SPARK-48719][SQL] Beheben des Berechnungsfehlers von RegrSlope & RegrIntercept, wenn der erste Parameter null ist
- [SPARK-49492][CONNECT] Erneutes Anfügen von inaktiven Ausführungshaltern
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" where t is empty table by expanding RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Serverseitige Sitzungs-ID über ReattachExecute bereitstellen
- Updates der Betriebssystemsicherheit.
- 17. September 2024
- [SPARK-49336][CONNECT] Beschränken der Schachtelungsebene beim Abschneiden einer Protobuf-Nachricht
- [SPARK-49526][CONNECT] Unterstützen von Pfaden im Windows-Stil in ArtifactManager
- [SPARK-49409][CONNECT] Anpassen des Standardwerts von CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Beheben des Auslösens "Unerwarteter BlockId-Typ" bei der Diagnose der Shuffle-Beschädigung
- [SPARK-49366][CONNECT] Union-Knoten als Blatt in datenframespaltenauflösung behandeln
- 29. August 2024
- [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
- [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
- [SPARK-48862][PYTHON][CONNECT]
_proto_to_string
Anrufe vermeiden, wenn die INFO-Ebene nicht aktiviert ist - [SPARK-49146][SS] Verschieben von Assertion-Fehlern im Zusammenhang mit fehlenden Wasserzeichen in Streaming-Abfragen im Append-Modus in den Fehlerrahmen
- 14. August 2024
- [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
- [SPARK-48050][SS] Logischen Plan beim Starten der Abfrage protokollieren
- [SPARK-48706][PYTHON] Python UDF in höheren Reihenfolge Funktionen sollten keinen internen Fehler auslösen
- [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
- [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
- [SPARK-49047][PYTHON] [CONNECT] Abschneiden der Nachricht für die Protokollierung
- [SPARK-48740][SQL] Fehler bei fehlender Fensterspezifikation frühzeitig erfassen
- 1. August 2024
- Für serverloses Computing für Notebooks und Aufträge ist der ANSI SQL-Modus standardmäßig aktiviert. Weitere Informationen finden Sie unter Unterstützte Spark-Konfigurationsparameter.
- Auf Rechnern, die mit dem gemeinsamen Zugriffsmodus konfiguriert sind, gelten für Kafka-Batch-Lese- und -Schreibvorgänge nun die gleichen Einschränkungen wie für Structured Streaming. Weitere Informationen finden Sie unter Streamingeinschränkungen für den gemeinsamen Zugriff auf Unity Catalog.
- Die Ausgabe aus einer
SHOW CREATE TABLE
Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken. - [SPARK-48544][SQL] Reduzieren des Speicherdrucks leerer TreeNode-BitSets
- [SPARK-46957] [CORE] Außerbetriebnahme migrierter Shuffle-Dateien sollte in der Lage sein, vom Executor zu bereinigen
- [SPARK-47202][PYTHON] Korrektur von Tippfehlern bei Datumsangaben mit tzinfo
- [SPARK-48713][SQL] Indexbereichsüberprüfung für "UnsafeRow.pointTo" hinzufügen, wenn baseObject -Bytearray ist
- [SPARK-48896][SPARK-48909][SPARK-48883] Korrekturen für Backport Spark ML Writer
- [SPARK-48810][CONNECT] Die Session Stop()-API sollte idempotent sein und nicht fehlschlagen, wenn die Sitzung bereits vom Server geschlossen wurde
- [SPARK-48873][SQL] Verwenden Sie "UnsafeRow" im JSON-Parser.
- [SPARK-48934][SS] Python-Datetime-Typen wurden für die Einstellung der Zeitüberschreitung in applyInPandasWithState falsch konvertiert
- [SPARK-48705][PYTHON] Verwenden Sie worker_main explizit, wenn sie mit pyspark beginnt
- [SPARK-48889][SS] testStream zum Entladen von Zustandsspeichern vor Abschluss
- [SPARK-48047][SQL] Reduzieren des Speicherdrucks leerer TreeNode-Tags
- [SPARK-48463] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
- Updates der Betriebssystemsicherheit.
- 11. Juli 2024
- (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie
.checkpoint()
, um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten. - Der JDBC-Treiber von Snowflake wird auf Version 3.16.1 aktualisiert.
- Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
- Für serverloses Computing für Notebooks und Aufträge ist der ANSI SQL-Modus standardmäßig aktiviert. Weitere Informationen finden Sie unter Unterstützte Spark-Konfigurationsparameter.
- Um ungültige Partitionen beim Lesen von Daten, dateibasierten Datenquellen, z. B. Parkett, ORC, CSV oder JSON, zu ignorieren, kann die Datenquellenoption ignoreInvalidPartitionPaths auf „true“ festgelegt werden. Beispiel: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Sie können auch die SQL-Konfiguration spark.sql.files.ignoreInvalidPartitionPaths verwenden. Die Datenquellenoption hat jedoch Vorrang vor der SQL-Konfiguration. Diese Einstellung ist standardmäßig „false“.
- [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
- [SPARK-48100][SQL] Beheben von Problemen beim Überspringen von geschachtelten Strukturfeldern, die nicht im Schema ausgewählt sind
- [SPARK-47463] [SQL] Verwenden von V2Predicate zum Umbrechen eines Ausdrucks mit Rückgabetyp vom Typ boolean
- [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
- [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
- [SPARK-48566][PYTHON] Fix für einen Fehler, bei dem Partitionsindizes falsch sind, wenn UDTF analyze() sowohl select als auch partitionColumns verwendet
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags ordnungsgemäß threadlocal machen
- [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
- [SPARK-48252][SQL] Aktualisieren von CommonExpressionRef bei Bedarf
- [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
- [SPARK-48294][SQL] Behandeln von Kleinbuchstaben in nestedTypeMissingElementTypeError
- [SPARK-48286] Beheben der Analyse der Spalte mit vorhandenem Standardausdruck – Hinzufügen eines benutzerbezogenen Fehlers
- [SPARK-47309][SQL] XML: Hinzufügen von Schemarückschlusstests für Wert-Tags
- [SPARK-47309][SQL][XML] Hinzufügen von Komponententests für Schemarückschlüsse
- [SPARK-48273][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
- Updates der Betriebssystemsicherheit.
- (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie
- 17. Juni 2024
applyInPandasWithState()
ist für freigegebene Cluster verfügbar.- Es wird ein Fehler behoben, bei dem die Optimierung des Bewertungsfensters mithilfe den von Photon TopK fälschlicherweise verarbeiteten Partitionen mit Strukturen verarbeitet wurde.
- [SPARK-48310][PYTHON][CONNECT] Zwischengespeicherte Eigenschaften müssen Kopien zurückgeben.
- [SPARK-48276][PYTHON][CONNECT] Hinzufügen der fehlenden
__repr__
-Methode fürSQLExpression
- [SPARK-48277] Verbessern von Fehlermeldung für ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Bereinigen von ShuffleCleanupMode-Abhängigkeiten
- Updates der Betriebssystemsicherheit.
- 21. Mai 2024
- Ein Fehler in der Funktion try_divide() wurde behoben, bei dem Eingaben mit Dezimalstellen zu unerwarteten Ausnahmen geführt haben.
- [SPARK-48173][SQL] Gesamter Abfrageplan sollte für CheckAnalysis zur Verfügung stehen
- [SPARK-48016][SQL] Beheben eines Fehlers in eine try_divide-Funktion bei Dezimalstellen
- [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
- [SPARK-48197][SQL] Vermeiden eines Assert-Fehlers für ungültige Lambda-Funktion
- [SPARK-48180][SQL] Verbessern des Fehlers, wenn UDTF-Aufruf mit TABLE arg Klammern um mehrere PARTITION/ORDER BY-Auslöser vergisst
- [SPARK-48014][SQL] Ändern des makeFromJava-Fehlers in EvaluatePython in einen benutzerbezogenen Fehler
- [SPARK-48056][CONNECT][PYTHON] Plan erneut ausführen, wenn ein SESSION_NOT_FOUND-Fehler ausgelöst wird und keine Teilantwort empfangen wurde
- [SPARK-48146][SQL] Beheben der Aggregatfunktion in der untergeordneten Assertion des Ausdrucks
- [SPARK-47994][SQL] Beheben eines Fehlers mit CASE WHEN-Spaltenfilter-Pushdown in SQLServer
- Updates der Betriebssystemsicherheit.
- 9. Mai 2024
- [SPARK-47543][CONNECT][PYTHON] Ableiten von dict als MapType von Pandas DataFrame zum Zulassen der DataFrame-Erstellung
- [SPARK-47739][SQL] Registrieren des logischen avro-Typs
- [SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47855][CONNECT] Hinzufügen von
spark.sql.execution.arrow.pyspark.fallback.enabled
in der Liste der nicht unterstützten Werte - [SPARK-48010][SQL] Vermeiden wiederholter Aufrufe von conf.resolver in resolveExpression
- [SPARK-47941][SS] [Connect] Weitergabe von ForeachBatch Worker-Initialisierungsfehlern an Benutzer für PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Asynchronen Rückruf für die Bereinigung der Ausführung verwenden
- [SPARK-47956][SQL] Plausibilitätsprüfung für nicht aufgelöste LCA-Referenz
- [SPARK-47839][SQL] Behebung des Aggregat-Fehlers in RewriteWithExpression
- [SPARK-48018][SS] Behebung von groupId „NULL“, die einen Fehler für fehlenden Parameter auslöst, wenn KafkaException.couldNotReadOffsetRange ausgelöst wird
- [SPARK-47371] [SQL] XML: Zeilentags in CDATA ignorieren
- [SPARK-47907][SQL] Bang wurde unter einer Konfiguration abgelegt
- [SPARK-47895][SQL] „group by all“ sollte idempotent sein
- [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT] [PYTHON] Eine neue Sitzung kann nicht erstellt werden, wenn die Standardsitzung vom Server geschlossen wird.
- Updates der Betriebssystemsicherheit.
Databricks Runtime 15.0
Siehe Databricks Runtime 15.0 (EoS).
- 30. Mai 2024
- (Verhaltensänderung)
dbutils.widgets.getAll()
wird jetzt unterstützt, um alle Widgetwerte in einem Notizbuch abzurufen.
- (Verhaltensänderung)
- 25. April 2024
- [SPARK-47786] SELECT DISTINCT () sollte nicht SELECT DISTINCT struct() werden (vorheriges Verhalten wiederherstellen)
- [SPARK-47802][SQL] Wiederherstellen von () von der Bedeutung struct() zurück zur Bedeutung *
- [SPARK-47509][SQL] Blockieren von Unterabfrageausdrücken in Lambda-Funktionen sowie in Funktionen höherer Ordnung
- [SPARK-47722] Warten, bis die RocksDB-Hintergrundarbeit abgeschlossen ist vor dem Schließen
- [SPARK-47081][CONNECT][FOLLOW] Verbessern der Benutzerfreundlichkeit des Progress-Handlers
- [SPARK-47694][CONNECT] Maximale Nachrichtengröße auf der Clientseite konfigurierbar machen
- [SPARK-47669][SQL] [CONNECT][PYTHON] Hinzufügen von
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT] [Cherry-pick-15.0] Überprüfen des Spaltennamens mit zwischengespeichertem Schema
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Einführung von Plancache in SparkConnectPlanner zur Verbesserung der Leistung von Analyseanforderungen
- [SPARK-47704][SQL] Die JSON-Analyse schlägt mit „java.lang.ClassCastException“ fehl, wenn spark.sql.json.enablePartialResults aktiviert ist
- [SPARK-47755][CONNECT] Pivotieren sollte fehlschlagen, wenn die Anzahl unterschiedlicher Werte zu groß ist
- [SPARK-47713][SQL] [CONNECT] Beheben eines Selbstverknüpfungsfehlers
- [SPARK-47812][CONNECT] Unterstützung der Serialisierung von SparkSession für ForEachBatch-Worker
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
schlägt mit ungültigem Plan fehl - [SPARK-47862][PYTHON][CONNECT] Beheben der Generierung von proto-Dateien
- [SPARK-47800][SQL] Neue Methode für die Konvertierung von „identifier“ zu „tableIdentifier“ erstellen
- Updates der Betriebssystemsicherheit.
- 3. April 2024
- (Verhaltensänderung) Um ein einheitliches Verhalten zwischen Computetypen sicherzustellen, weisen PySpark-UDFs in freigegebenen Clustern nun das gleiche Verhalten auf wie UDFs in nicht isolierten und zugewiesenen Clustern. Dieses Update enthält folgende Änderungen, die ggf. dazu führen, dass bereits vorhandener Code nicht mehr funktioniert:
- Von UDFs mit dem Rückgabetyp
string
werden nicht mehr implizitstring
-fremde Werte instring
-Werte konvertiert. Zuvor wurde der Rückgabewert von UDFs mit dem Rückgabetypstr
unabhängig vom tatsächlichen Datentyp des zurückgegebenen Werts in einestr()
-Funktion eingeschlossen. - Von UDFs mit Rückgaben vom Typ
timestamp
wird nicht mehr implizit eine Konvertierung intimestamp
mittimezone
angewendet. - Die Spark-Clusterkonfigurationen
spark.databricks.sql.externalUDF.*
gelten nicht mehr für PySpark-UDFs in freigegebenen Clustern. - Die Spark-Clusterkonfiguration
spark.databricks.safespark.externalUDF.plan.limit
hat keine Auswirkungen mehr auf PySpark-UDFs. Dadurch wird die Public Preview-Einschränkung von fünf UDFs pro Abfrage für PySpark UDFs entfernt. - Die Spark-Clusterkonfiguration
spark.databricks.safespark.sandbox.size.default.mib
gilt nicht mehr für PySpark-UDFs in freigegebenen Clustern. Stattdessen wird verfügbarer Arbeitsspeicher des Systems verwendet. Verwenden Siespark.databricks.pyspark.udf.isolation.memoryLimit
mit dem Mindestwert100m
, um den Arbeitsspeicher von PySpark-UDFs einzuschränken.
- Von UDFs mit dem Rückgabetyp
- Der
TimestampNTZ
-Datentyp wird jetzt als Clusterspalte mit Liquid Clustering unterstützt. Weitere Informationen finden Sie unter Verwenden von Liquid Clustering für Delta-Tabellen. - [SPARK-47218][SQL] XML: Ignorieren kommentierter Zeilentags im XML-Tokenizer
- [SPARK-46990][SQL] Korrigieren des Ladens leerer Avro-Dateien, die von Event Hubs ausgegeben werden
- [SPARK-47033][SQL] Beheben des Problems, dass „EXECUTE IMMEDIATE USING“ Namen von Sitzungsvariablen nicht erkennt
- [SPARK-47368][SQL] Entfernen der Überprüfung der inferTimestampNTZ-Konfiguration in „ParquetRowConverter“
- [SPARK-47561][SQL] Beheben von Problemen mit der Reihenfolge von Analyseregeln im Zusammenhang mit dem Alias
- [SPARK-47638][PS][CONNECT] Überspringen der Spaltennamenüberprüfung in PS
- [SPARK-46906][BACKPORT][SS] Hinzufügen einer Überprüfung auf eine zustandsbehaftete Operator-Änderung für Streaming
- [SPARK-47569][SQL] Verhindern der Verwendung einer Vergleichsvariante
- [SPARK-47241][SQL] Beheben von Regelreihenfolgeproblemen für „ExtractGenerator“
- [SPARK-47218][SQL] XML: „SchemaOfXml“ wurde geändert, sodass im DROPMALFORMED-Modus ein Fehler auftritt
- [SPARK-47300][SQL]
quoteIfNeeded
soll Bezeichner zitieren, die mit Ziffern beginnen - [SPARK-47009][SQL][Sortierung] Aktivieren von Tabellenerstellungsunterstützung für die Sortierung
- [SPARK-47322][PYTHON][CONNECT] Erreichen einer konsistenten Behandlung der Duplizierung von
withColumnsRenamed
-Spaltennamen mitwithColumnRenamed
- [SPARK-47544][PYTHON] SparkSession-Builder-Methode nicht mit IntelliSense von Visual Studio Code kompatibel
- [SPARK-47511][SQL] Kanonisieren mit Ausdrücken durch erneutes Zuweisen von IDs
- [SPARK-47385] Korrigieren von Tupel-Encodern mit Optionseingaben
- [SPARK-47200][SS] Fehlerklasse für ForEachBatchSink-Benutzerfunktionsfehler
- [SPARK-47135][SS] Implementieren von Fehlerklassen für Kafka-Datenverlustausnahmen
- [SPARK-38708][SQL] Upgraden des Hive-Metastoreclients auf 3.1.3 für Hive 3.1
- [SPARK-47305][SQL] Korrigieren von „PruneFilters“, um das isStreaming-Flag von „LocalRelation“ korrekt zu kennzeichnen, wenn der Plan sowohl über Batch als auch über Streaming verfügt
- [SPARK-47380][CONNECT] Sicherstellen, dass die Spark-Sitzung auf der Serverseite identisch ist
- Updates der Betriebssystemsicherheit.
- (Verhaltensänderung) Um ein einheitliches Verhalten zwischen Computetypen sicherzustellen, weisen PySpark-UDFs in freigegebenen Clustern nun das gleiche Verhalten auf wie UDFs in nicht isolierten und zugewiesenen Clustern. Dieses Update enthält folgende Änderungen, die ggf. dazu führen, dass bereits vorhandener Code nicht mehr funktioniert:
Databricks Runtime 14.2
Siehe Databricks Runtime 14.2 (EoS).
- 22. Oktober 2024
- [SPARK-49782][SQL] ResolveDataFrameDropColumns-Regel löst UnresolvedAttribute mit untergeordneter Ausgabe auf
- [SPARK-49905] Verwenden Sie dedizierte ShuffleOrigin für zustandsbehafteten Operator, um zu verhindern, dass das Shuffle-Steuerelement von AQE geändert wird.
- Updates der Betriebssystemsicherheit.
- 10. Oktober 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr sollte beim Löschen von GetArrayStructFields keine Schemafelder ändern
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Klassifizierungsfehlerklasse für FlatMapGroupsWithState-Benutzerfunktionsfehler
- 25. September 2024
- [SPARK-48719][SQL] Beheben Sie den Berechnungsfehler von "RegrS...
- [SPARK-49628][SQL] ConstantFolding sollte zustandsbehafteten Ausdruck kopieren, bevor er ausgewertet wird.
- [SPARK-49000][SQL] Fix "select count(distinct 1) from t" where t is empty table by expanding RewriteDistinctAggregates
- [SPARK-43242][CORE] Beheben des Auslösens "Unerwarteter BlockId-Typ" bei der Diagnose der Shuffle-Beschädigung
- [SPARK-46601] [CORE] Beheben des Protokollfehlers in handleStatusMessage
- Updates der Betriebssystemsicherheit.
- 17. September 2024
- [SPARK-49526][CONNECT] Unterstützen von Pfaden im Windows-Stil in ArtifactManager
- 29. August 2024
- [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
- [SPARK-49146][SS] Verschieben von Assertion-Fehlern im Zusammenhang mit fehlenden Wasserzeichen in Streaming-Abfragen im Append-Modus in den Fehlerrahmen
- [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
- 14. August 2024
- [SPARK-48050][SS] Logischen Plan beim Starten der Abfrage protokollieren
- [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
- [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
- [SPARK-48706][PYTHON] Python UDF in höheren Reihenfolge Funktionen sollten keinen internen Fehler auslösen
- 1. August 2024
- Diese Version enthält einen Fehlerkorrektur für die Klassen
ColumnVector
undColumnarArray
in der Spark-Java-Schnittstelle. Vor dieser Korrektur konnte einArrayIndexOutOfBoundsException
ausgelöst oder falsche Daten zurückgegeben werden, wenn eine Instanz einer dieser Klassennull
-Werte enthielt. - Die Ausgabe aus einer
SHOW CREATE TABLE
Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken. - [SPARK-47202][PYTHON] Korrektur von Tippfehlern bei Datumsangaben mit tzinfo
- [SPARK-48705][PYTHON] Verwenden Sie worker_main explizit, wenn sie mit pyspark beginnt
- Updates der Betriebssystemsicherheit.
- Diese Version enthält einen Fehlerkorrektur für die Klassen
- 11. Juli 2024
- (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie
.checkpoint()
, um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten. - Der JDBC-Treiber von Snowflake wird auf Version 3.16.1 aktualisiert.
- Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
- [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
- [SPARK-48273][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
- [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
- [SPARK-48100][SQL] Beheben von Problemen beim Überspringen von geschachtelten Strukturfeldern, die nicht im Schema ausgewählt sind
- [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
- [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
- Updates der Betriebssystemsicherheit.
- (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie
- 17. Juni 2024
- Es wird ein Fehler behoben, bei dem die Optimierung des Bewertungsfensters mithilfe den von Photon TopK fälschlicherweise verarbeiteten Partitionen mit Strukturen verarbeitet wurde.
- [SPARK-48276][PYTHON][CONNECT] Hinzufügen der fehlenden
__repr__
-Methode fürSQLExpression
- [SPARK-48277] Verbessern von Fehlermeldung für ErrorClassesJsonReader.getErrorMessage
- Updates der Betriebssystemsicherheit.
- 21. Mai 2024
- (Verhaltensänderung)
dbutils.widgets.getAll()
wird jetzt unterstützt, um alle Widgetwerte in einem Notizbuch abzurufen. - [SPARK-48173][SQL] Gesamter Abfrageplan sollte für CheckAnalysis zur Verfügung stehen
- [SPARK-48197][SQL] Vermeiden eines Assert-Fehlers für ungültige Lambda-Funktion
- [SPARK-47994][SQL] Beheben eines Fehlers mit CASE WHEN-Spaltenfilter-Pushdown in SQLServer
- [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
- Updates der Betriebssystemsicherheit.
- (Verhaltensänderung)
- 9. Mai 2024
- [SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47956][SQL] Plausibilitätsprüfung für nicht aufgelöste LCA-Referenz
- [SPARK-47371] [SQL] XML: Zeilentags in CDATA ignorieren
- [SPARK-47812][CONNECT] Unterstützung der Serialisierung von SparkSession für ForEachBatch-Worker
- [SPARK-47895][SQL] „group by all“ sollte idempotent sein
- [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
- Updates der Betriebssystemsicherheit.
- [SPARK-48044][PYTHON][CONNECT] Cache
- 25. April 2024
- [SPARK-47704][SQL] Die JSON-Analyse schlägt mit „java.lang.ClassCastException“ fehl, wenn spark.sql.json.enablePartialResults aktiviert ist
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
schlägt mit ungültigem Plan fehl - Updates der Betriebssystemsicherheit.
- 11. April 2024
- [SPARK-47309][SQL][XML] Hinzufügen von Komponententests für Schemarückschlüsse
- [SPARK-46990][SQL] Korrigieren des Ladens leerer Avro-Dateien, die von Event Hubs ausgegeben werden
- [SPARK-47638][PS][CONNECT] Überspringen der Spaltennamenüberprüfung in PS
- [SPARK-47509][SQL] Blockieren von Unterabfrageausdrücken in Lambda-Funktionen sowie in Funktionen höherer Ordnung
- [SPARK-38708][SQL] Upgraden des Hive-Metastoreclients auf 3.1.3 für Hive 3.1
- Updates der Betriebssystemsicherheit.
- 1. April 2024
- [SPARK-47322][PYTHON][CONNECT] Erreichen einer konsistenten Behandlung der Duplizierung von
withColumnsRenamed
-Spaltennamen mitwithColumnRenamed
- [SPARK-47385] Korrigieren von Tupel-Encodern mit Optionseingaben
- [SPARK-47070] Beheben ungültiger Aggregation nach dem Neuschreiben von Unterabfragen
- [SPARK-47218][SQL] XML: „SchemaOfXml“ wurde geändert, sodass im DROPMALFORMED-Modus ein Fehler auftritt
- [SPARK-47305][SQL] Korrigieren von „PruneFilters“, um das isStreaming-Flag von „LocalRelation“ korrekt zu kennzeichnen, wenn der Plan sowohl über Batch als auch über Streaming verfügt
- [SPARK-47218][SQL] XML: Ignorieren kommentierter Zeilentags im XML-Tokenizer
- Zurücksetzen von „[SPARK-46861][CORE] Deadlock in DAGScheduler vermeiden“
- [SPARK-47300][SQL]
quoteIfNeeded
soll Bezeichner zitieren, die mit Ziffern beginnen - [SPARK-47368][SQL] Entfernen der Überprüfung der inferTimestampNTZ-Konfiguration in „ParquetRowConverter“
- Updates der Betriebssystemsicherheit.
- [SPARK-47322][PYTHON][CONNECT] Erreichen einer konsistenten Behandlung der Duplizierung von
- 14. März 2024
- [SPARK-47035][SS][CONNECT] Protokoll für clientseitigen Listener
- [SPARK-47121][CORE] Vermeiden von RejectedExecutionExceptions während des Herunterfahrens von StandaloneSchedulerBackend
- [SPARK-47145][SQL] Übergeben Sie den Tabellenbezeichner an den Zeilendatenquellenscan-Exec für die V2-Strategie.
- [SPARK-47176][SQL] Verwenden einer ResolveAllExpressionsUpWithPruning-Hilfsfunktion
- [SPARK-47167][SQL] Hinzufügen einer konkreten Klasse für anonyme JDBC-Relation von Daten
- [SPARK-47129][CONNECT] [SQL] Erstellen eines ordnungsgemäßen
ResolveRelations
-Cacheverbindungsplans - [SPARK-47044][SQL] Hinzufügen von ausgeführten Abfragen für externe JDBC-Datenquellen zur Erläuterung der Ausgabe
- Updates der Betriebssystemsicherheit.
- 29. Februar 2024
- Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
- Zum Erstellen eines Schemas mit einem definierten Speicherort muss der Benutzer jetzt über SELECT- und MODIFY-Berechtigungen für ALLE DATEIEN verfügen.
- Sie können jetzt XML-Dateien mit Autochanger, read_files, COPY INTO, DLT und DBSQL erfassen. Die XML-Dateiunterstützung kann Schemas automatisch ableiten und weiterentwickeln, Daten mit Typenkonflikten retten, XML mithilfe von XSD überprüfen und SQL-Ausdrücke wie from_xml, schema_of_xml und to_xml unterstützen. Weitere Informationen finden Sie unter XML-Dateiunterstützung. Wenn Sie zuvor das externe Spark-XML-Paket verwendet haben, finden Sie hier Anleitungen zur Migration.
- [SPARK-46954][SQL] XML: Wrap InputStreamReader mit BufferedReader
- [SPARK-46630][SQL] XML: Überprüfung des XML-Elementnamens beim Schreiben
- [SPARK-46248][SQL] XML: Unterstützung für die Optionen ignoreCorruptFiles und ignoreMissingFiles
- [SPARK-46954][SQL] XML: Optimieren der Schemaindex-Suche.
- [SPARK-47059][SQL] Fehlerkontext für ALTER COLUMN v1-Befehl anfügen
- [SPARK-46993][SQL] Fix zur Konstantenentfaltung für Sitzungsvariablen
- 8. Februar 2024
- CDF-Abfragen (Change Data Feed; Änderungsdatenfeed) für materialisierte Unity Catalog-Sichten werden nicht unterstützt, und der Versuch, eine CDF-Abfrage mit einer materialisierten Unity Catalog-Sicht auszuführen, hat einen Fehler zur Folge. Unity Catalog Streaming tables support CDF queries on non-tables
APPLY CHANGES
in Databricks Runtime 14.1 and later. CDF-Abfragen werden mit Unity Catalog Streaming-Tabellen in Databricks Runtime 14.0 und früheren Versionen nicht unterstützt. - [SPARK-46930] Fügen Sie Unterstützung für ein benutzerdefiniertes Präfix für Union-Typfelder in Avro hinzu.
- [SPARK-46822] Respektieren Sie spark.sql.legacy.charVarcharAsString, wenn Sie den Katalysatortyp in Schriftart umwandeln.
- [SPARK-46952] XML: Begrenzen der Größe eines beschädigten Datensatzes.
- [SPARK-46644] Ändern Sie das Hinzufügen und Zusammenführen in SQLMetric, um isZero zu verwenden.
- [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
- [SPARK-46794] Entfernen Sie Unterabfragen aus LogicalRDD-Einschränkungen.
- [SPARK-46941] Der Knoten „Fenstergruppengrenzwert“ kann nicht für die Berechnung der obersten k-Ebene eingefügt werden, wenn sizeBasedWindowFunction enthalten ist.
- [SPARK-46933] Fügen Sie die Abfrageausführungszeitmetrik zu Connectors hinzu, die JDBCRDD verwenden.
- Updates der Betriebssystemsicherheit.
- CDF-Abfragen (Change Data Feed; Änderungsdatenfeed) für materialisierte Unity Catalog-Sichten werden nicht unterstützt, und der Versuch, eine CDF-Abfrage mit einer materialisierten Unity Catalog-Sicht auszuführen, hat einen Fehler zur Folge. Unity Catalog Streaming tables support CDF queries on non-tables
- 31. Januar 2024
- [SPARK-46382] XML: Dokument aktualisieren für
ignoreSurroundingSpaces
. - [SPARK-46382] XML: Erfassung von Werten, die an verschiedenen Stellen zwischen Elementen eingefügt werden.
- [SPARK-46763] Beheben des Assertionsfehlers in ReplaceDeduplicateWithAggregate für doppelte Attribute.
- Wiederherstellen [SPARK-46769] Verfeinern Sie den Zeitstempel im Zusammenhang mit der Schemainferenz.
- [SPARK-46677] Behebung der
dataframe["*"]
-Auflösung. - [SPARK-46382] XML: Festlegung des Standardwerts von ignoreSurroundingSpaces auf „true“.
- [SPARK-46633] Korrigieren Sie den Avro-Reader, um Blöcke der Länge Null zu verarbeiten.
- [SPARK-45964] Entfernung des privaten SQL-Accessors in XML- und JSON-Paketen unter dem Catalyst-Paket.
- [SPARK-46581] Aktualisierung des Kommentars zu isZero in AccumulatorV2.
- [SPARK-45912] Erweiterung der XSDToSchema-API: Wechsel zur HDFS-API zum Sicherstellen der Zugänglichkeit des Cloudspeichers.
- [SPARK-45182] Ignorieren Sie den Abschluss der Aufgabe aus der alten Phase, nachdem Sie die übergeordnete Phase erneut versucht haben, die durch Prüfsumme bestimmt wird.
- [SPARK-46660] Aktualisierung des Aktivitätsstatus von SessionHolder durch ReattachExecute-Anforderungen.
- [SPARK-46610] Create-Tabelle sollte eine Ausnahme auslösen, wenn kein Wert für einen Schlüssel in den Optionen angegeben wird.
- [SPARK-46383] Reduzieren Sie die Heap-Auslastung des Treibers, indem Sie die Lebensdauer von
TaskInfo.accumulables()
reduzieren. - [SPARK-46769] Verfeinern Sie den Zeitstempel im Zusammenhang mit der Schemainferenz.
- [SPARK-46684] Korrigieren Sie CoGroup.applyInPandas/Arrow, um Argumente ordnungsgemäß zu übergeben.
- [SPARK-46676] dropDuplicatesWithinWatermark sollte bei der Kanonisierung des Plans nicht fehlschlagen.
- [SPARK-45962] Entfernen Sie
treatEmptyValuesAsNulls
und verwenden Sie stattdessen dienullValue
-Option in XML. - [SPARK-46541] Korrigieren Sie den mehrdeutigen Spaltenverweis in der Selbstverknüpfung.
- [SPARK-46599] XML: Verwendung von TypeCoercion.findTightestCommonType für die Kompatibilitätsüberprüfung.
- Updates der Betriebssystemsicherheit.
- [SPARK-46382] XML: Dokument aktualisieren für
- 17. Januar 2024
- Der
shuffle
-Knoten des Erklärungsplans, der von einer Photon-Abfrage zurückgegeben wird, wird aktualisiert, um dascausedBroadcastJoinBuildOOM=true
-Flag hinzuzufügen, wenn ein Out-of-Memory-Fehler während eines Shuffle auftritt, der Teil einer Übertragungsverknüpfung ist. - Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
- [SPARK-46261]
DataFrame.withColumnsRenamed
sollte die Reihenfolge für Verzeichnis/Zuordnung beibehalten. - [SPARK-46538] Beheben des Problems mit mehrdeutigen Spaltenverweisen in
ALSModel.transform
. - [SPARK-46145] spark.catalog.listTables löst keine Ausnahme aus, wenn die Tabelle oder Ansicht nicht gefunden wird.
- [SPARK-46484] Sorgt dafür, dass
resolveOperators
-Hilfsfunktionen die Plan-ID beibehalten. - [SPARK-46394] Beheben von Problemen mit spark.catalog.listDatabases() bei Schemas mit Sonderzeichen, wenn
spark.sql.legacy.keepCommandOutputSchema
auf WAHR festgelegt ist. - [SPARK-46609] Vermeidung einer exponentiellen Zunahme (Explosion) in PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Deaktivieren von Unterabfragen mit korreliertem OFFSET, um Fehler mit der Korrektheit zu beheben.
- [SPARK-46152] XML: Hinzufügung der DecimalType-Unterstützung im XML-Schemarückschluss.
- [SPARK-46602] Propagieren von
allowExisting
beim Erstellen der Ansicht, wenn die Ansicht/Tabelle nicht vorhanden ist. - [SPARK-45814] close()-Aufruf durch ArrowConverters.createEmptyArrowBatch, um Arbeitsspeicherverlust zu vermeiden.
- [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
- [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
- [SPARK-46600] Verschieben von freigegebenem Code zwischen SqlConf und SqlApiConf zu SqlApiConfHelper.
- [SPARK-46478] Wiederherstellen von SPARK-43049, um Oracle varchar(255) für Zeichenfolgen zu verwenden.
- [SPARK-46417] Keinen Fehler zurückgeben beim Aufrufen von hive.getTable und throwException ist FALSCH.
- [SPARK-46153] XML: Hinzufügen von Support für TimestampNTZType.
- [SPARK-46056][BACKPORT] Behebt vektorisiertes Lesen von NPE in Parquet mit dem Standardwert byteArrayDecimalType.
- [SPARK-46466] Vektorisierter Parquet-Leser sollte niemals ein Rebase für Zeitstempel ntz ausführen.
- [SPARK-46260]
DataFrame.withColumnsRenamed
sollte die Reihenfolge der Verzeichnisse beachten. - [SPARK-46036] [SC-149356][SQL] Entfernung von „error-class“ aus der Funktion „raise_error“.
- [SPARK-46294] Bereinigung der Semantik des Initialisierungswerts im Vergleich zum Nullwert.
- [SPARK-46173] Überspringen des trimAll-Aufrufs während der Datumsanalyse.
- [SPARK-46250] Deflagieren von test_parity_listener.
- [SPARK-46587] XML: Beheben der XSD-Konvertierung einer großen Ganzzahl.
- [SPARK-46396] Der Zeitstempelrückschluss sollte keine Ausnahme auslösen.
- [SPARK-46241] Beheben der Fehlerbehandlungsroutine, damit sie nicht in eine unendliche Rekursion fällt.
- [SPARK-46355] XML: Schließen von InputStreamReader nach Abschluss des Lesevorgangs.
- [SPARK-46370] Beheben eines Fehlers beim Abfragen aus der Tabelle nach dem Ändern der Spaltenstandardwerte.
- [SPARK-46265] Assertionen in AddArtifact RPC machen den Connect-Client inkompatibel mit älteren Clustern.
- [SPARK-46308] Rekursive Fehlerbehandlung verbieten.
- [SPARK-46337]
CTESubstitution
soll diePLAN_ID_TAG
beibehalten.
- Der
- 14. Dezember 2023
- [SPARK-46141] Änderung des Standardwerts für spark.sql.legacy.ctePrecedencePolicy in CORRECTED.
- [SPARK-45730] ReloadingX509TrustManagerSuite weniger fehleranfällig machen.
- [SPARK-45852] Ordentlicher Umgang mit Rekursionsfehlern während der Protokollierung.
- [SPARK-45808] Bessere Fehlerbehandlung für SQL-Ausnahmen.
- [SPARK-45920] Gruppieren nach Ordnungszahl sollte idempotent sein.
- Wiederherstellen von „[SPARK-45649] Vereinheitlichen des Vorbereitungsframeworks für
OffsetWindowFunctionFrame
“. - [SPARK-45733] Unterstützen mehrerer RETRY-Richtlinien.
- [SPARK-45509] Beheben des Verweisverhaltens der df-Spalte für Spark Connect.
- [SPARK-45655] Zulassen von nicht deterministischen Ausdrücken innerhalb von AggregateFunctions in CollectMetrics.
- [SPARK-45905] Der kleinste gemeinsame Typ zwischen Dezimaltypen sollte zuerst ganzzahlige Ziffern beibehalten.
- [SPARK-45136] Verbessern von ClosureCleaner mit Ammonit-Support.
- [SPARK-46255] Unterstützen des komplexen Typs –> Zeichenfolgenkonvertierung.
- [SPARK-45859] UDF-Objekte in ml.functions träge machen.
- [SPARK-46028]
Column.__getitem__
sollte Eingabespalten akzeptieren. - [SPARK-45798] Bestätigen der serverseitigen Sitzungs-ID.
- [SPARK-45892] Überprüfung des Optimierungsplans umgestaltet, um
validateSchemaOutput
undvalidateExprIdUniqueness
zu entkoppeln. - [SPARK-45844] Implementieren der Nichtunterscheidung nach Groß-/Kleinschreibung für XML.
- [SPARK-45770] Einführung des Plans
DataFrameDropColumns
fürDataframe.drop
. - [SPARK-44790] XML: to_xml-Implementierung und Bindungen für Python, Connect und SQL.
- [SPARK-45851] Unterstützen mehrerer Richtlinien im Scala-Client.
- Updates der Betriebssystemsicherheit.
- 29. November 2023
- Installiert ein neues Paket
pyarrow-hotfix
, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben. - Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in
getColumns
-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden. - [SPARK-45730] Zeiteinschränkungen für
ReloadingX509TrustManagerSuite
verbessert. - [SPARK-45852] Der Python-Client für Spark Connect erfasst jetzt Rekursionsfehler während der Textkonvertierung.
- [SPARK-45808] Verbesserte Fehlerbehandlung für SQL-Ausnahmen.
- [SPARK-45920] Die Ordnungszahl
GROUP BY
ersetzt nicht die Ordnungszahl. - Rückgängig gemacht: [SPARK-45649].
- [SPARK-45733] Unterstützung für mehrere Wiederholungsrichtlinien hinzugefügt.
- [SPARK-45509] Verweisverhalten der
df
-Spalte für Spark Connect korrigiert. - [SPARK-45655] Zulassen von nicht deterministischen Ausdrücken innerhalb von
AggregateFunctions
inCollectMetrics
. - [SPARK-45905] Der kleinste gemeinsame Typ zwischen Dezimaltypen behält jetzt zuerst ganzzahlige Ziffern bei.
- [SPARK-45136]
ClosureCleaner
wurde mit Ammonite-Unterstützung optimiert. - [SPARK-45859] UDF-Objekte in
ml.functions
wurden als verzögert festgelegt. - [SPARK-46028]
Column.__getitem__
akzeptiert Eingabespalten. - [SPARK-45798] Bestätigen der serverseitigen Sitzungs-ID.
- [SPARK-45892] Überprüfung des Optimierungsplans umgestaltet, um
validateSchemaOutput
undvalidateExprIdUniqueness
zu entkoppeln. - [SPARK-45844] Implementieren der Nichtunterscheidung nach Groß-/Kleinschreibung für XML.
- [SPARK-45770] Spaltenauflösung mit
DataFrameDropColumns
fürDataframe.drop
korrigiert. - [SPARK-44790]
to_xml
-Implementierung und Bindungen für Python, Spark Connect und SQL hinzugefügt. - [SPARK-45851] Unterstützung für mehrere Richtlinien im Scala-Client hinzugefügt.
- Updates der Betriebssystemsicherheit.
- Installiert ein neues Paket
Databricks Runtime 14.0
Siehe Databricks Runtime 14.0 (EoS).
- 8. Februar 2024
- [SPARK-46396] Der Zeitstempelrückschluss sollte keine Ausnahme auslösen.
- [SPARK-46794] Entfernen Sie Unterabfragen aus LogicalRDD-Einschränkungen.
- [SPARK-45182] Ignorieren Sie den Abschluss der Aufgabe aus der alten Phase, nachdem Sie die übergeordnete Phase erneut versucht haben, die durch Prüfsumme bestimmt wird.
- [SPARK-46933] Fügen Sie die Abfrageausführungszeitmetrik zu Connectors hinzu, die JDBCRDD verwenden.
- [SPARK-45957] Vermeiden Sie das Generieren des Ausführungsplans für nicht ausführbare Befehle.
- [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
- [SPARK-46930] Fügen Sie Unterstützung für ein benutzerdefiniertes Präfix für Union-Typfelder in Avro hinzu.
- [SPARK-46941] Der Knoten „Fenstergruppengrenzwert“ kann nicht für die Berechnung der obersten k-Ebene eingefügt werden, wenn sizeBasedWindowFunction enthalten ist.
- [SPARK-45582] Stellen Sie sicher, dass die Speicherinstanz nach dem Aufrufen des Commits innerhalb der Streamingaggregation im Ausgabemodus nicht verwendet wird.
- Updates der Betriebssystemsicherheit.
- 31. Januar 2024
- [SPARK-46541] Korrigieren Sie den mehrdeutigen Spaltenverweis in der Selbstverknüpfung.
- [SPARK-46676] dropDuplicatesWithinWatermark sollte bei der Kanonisierung des Plans nicht fehlschlagen.
- [SPARK-46769] Verfeinern Sie den Zeitstempel im Zusammenhang mit der Schemainferenz.
- [SPARK-45498] Followup: Ignorieren des Aufgabenabschlusses aus alten Phasenversuchen.
- Wiederherstellen [SPARK-46769] Verfeinern Sie den Zeitstempel im Zusammenhang mit der Schemainferenz.
- [SPARK-46383] Reduzieren Sie die Heap-Auslastung des Treibers, indem Sie die Lebensdauer von
TaskInfo.accumulables()
reduzieren. - [SPARK-46633] Korrigieren Sie den Avro-Reader, um Blöcke der Länge Null zu verarbeiten.
- [SPARK-46677] Behebung der
dataframe["*"]
-Auflösung. - [SPARK-46684] Korrigieren Sie CoGroup.applyInPandas/Arrow, um Argumente ordnungsgemäß zu übergeben.
- [SPARK-46763] Beheben des Assertionsfehlers in ReplaceDeduplicateWithAggregate für doppelte Attribute.
- [SPARK-46610] Create-Tabelle sollte eine Ausnahme auslösen, wenn kein Wert für einen Schlüssel in den Optionen angegeben wird.
- Updates der Betriebssystemsicherheit.
- 17. Januar 2024
- Der
shuffle
-Knoten des Erklärungsplans, der von einer Photon-Abfrage zurückgegeben wird, wird aktualisiert, um dascausedBroadcastJoinBuildOOM=true
-Flag hinzuzufügen, wenn ein Out-of-Memory-Fehler während eines Shuffle auftritt, der Teil einer Übertragungsverknüpfung ist. - Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
- [SPARK-46394] Beheben von Problemen mit spark.catalog.listDatabases() bei Schemas mit Sonderzeichen, wenn
spark.sql.legacy.keepCommandOutputSchema
auf WAHR festgelegt ist. - [SPARK-46250] Deflagieren von test_parity_listener.
- [SPARK-45814] close()-Aufruf durch ArrowConverters.createEmptyArrowBatch, um Arbeitsspeicherverlust zu vermeiden.
- [SPARK-46173] Überspringen des trimAll-Aufrufs während der Datumsanalyse.
- [SPARK-46484] Sorgt dafür, dass
resolveOperators
-Hilfsfunktionen die Plan-ID beibehalten. - [SPARK-46466] Vektorisierter Parquet-Leser sollte niemals ein Rebase für Zeitstempel ntz ausführen.
- [SPARK-46056] Beheben des vektorisierten Lesens von NPE in Parquet mit dem Standardwert byteArrayDecimalType.
- [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
- [SPARK-46478] Wiederherstellen von SPARK-43049, um Oracle varchar(255) für Zeichenfolgen zu verwenden.
- [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
- [SPARK-46417] Keinen Fehler zurückgeben beim Aufrufen von hive.getTable und throwException ist FALSCH.
- [SPARK-46261]
DataFrame.withColumnsRenamed
sollte die Reihenfolge für Verzeichnis/Zuordnung beibehalten. - [SPARK-46370] Beheben eines Fehlers beim Abfragen aus der Tabelle nach dem Ändern der Spaltenstandardwerte.
- [SPARK-46609] Vermeidung einer exponentiellen Zunahme (Explosion) in PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Verschieben von freigegebenem Code zwischen SqlConf und SqlApiConf zu SqlApiConfHelper.
- [SPARK-46538] Beheben des Problems mit mehrdeutigen Spaltenverweisen in
ALSModel.transform
. - [SPARK-46337]
CTESubstitution
soll diePLAN_ID_TAG
beibehalten. - [SPARK-46602] Propagieren von
allowExisting
beim Erstellen der Ansicht, wenn die Ansicht/Tabelle nicht vorhanden ist. - [SPARK-46260]
DataFrame.withColumnsRenamed
sollte die Reihenfolge der Verzeichnisse beachten. - [SPARK-46145] spark.catalog.listTables löst keine Ausnahme aus, wenn die Tabelle oder Ansicht nicht gefunden wird.
- Der
- 14. Dezember 2023
- Es wurde ein Problem behoben, bei dem mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, falsch behandelt und als Platzhalterzeichen interpretiert wurden.
- [SPARK-46255] Unterstützen des komplexen Typs –> Zeichenfolgenkonvertierung.
- [SPARK-46028]
Column.__getitem__
sollte Eingabespalten akzeptieren. - [SPARK-45920] Gruppieren nach Ordnungszahl sollte idempotent sein.
- [SPARK-45433] Beheben des CSV/JSON-Schemarückschlusses, wenn die Zeitstempel nicht mit dem angegebenen timestampFormat übereinstimmen.
- [SPARK-45509] Beheben des Verweisverhaltens der df-Spalte für Spark Connect.
- Updates der Betriebssystemsicherheit.
- 29. November 2023
- Installiert ein neues Paket
pyarrow-hotfix
, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben. - Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in
getColumns
-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden. - Beim Aufnehmen von CSV-Daten mit automatischen Lade- oder Streamingtabellen sind große CSV-Dateien jetzt teilbar und können während der Schemaausleitung und datenverarbeitung parallel verarbeitet werden.
- Der Spark-snowflake-Connector wird auf 2.12.0 aktualisiert.
- [SPARK-45859] UDF-Objekte in
ml.functions
wurden als verzögert festgelegt. - Rückgängig gemacht: [SPARK-45592].
- [SPARK-45892] Überprüfung des Optimierungsplans umgestaltet, um
validateSchemaOutput
undvalidateExprIdUniqueness
zu entkoppeln. - [SPARK-45592] Problem mit der Korrektheit in AQE mit
InMemoryTableScanExec
behoben. - [SPARK-45620] APIs im Zusammenhang mit Python-UDF verwenden jetzt camelCase.
- [SPARK-44784] SBT-Tests wurden als hermetisch festgelegt.
- [SPARK-45770] Spaltenauflösung mit
DataFrameDropColumns
fürDataframe.drop
korrigiert. - [SPARK-45544] SSL-Unterstützung in
TransportContext
integriert. - [SPARK-45730] Zeiteinschränkungen für
ReloadingX509TrustManagerSuite
verbessert. - Updates der Betriebssystemsicherheit.
- Installiert ein neues Paket
- 10. November 2023
- Geänderte Datenfeedabfragen in Unity Catalog-Streamingtabellen und materialisierten Ansichten zum Anzeigen von Fehlermeldungen.
- [SPARK-45545]
SparkTransportConf
erbtSSLOptions
bei der Erstellung. - [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit
TakeOrderedAndProjectExec
behoben. - [SPARK-45427] RPC-SSL-Einstellungen zu
SSLOptions
undSparkTransportConf
hinzugefügt. - [SPARK-45541]
SSLFactory
hinzugefügt. - [SPARK-45430]
FramelessOffsetWindowFunction
löst beiIGNORE NULLS
undoffset > rowCount
keinen Fehler mehr aus. - [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
- [SPARK-44219] Zusätzliche Überprüfungen pro Regel für Optimierungsumschreibungen hinzugefügt.
- [SPARK-45543] Problem behoben, durch das
InferWindowGroupLimit
einen Fehler verursachte, wenn die anderen Fensterfunktionen nicht über denselben Fensterrahmen wie Funktionen mit demselben Rang verfügten. - Updates der Betriebssystemsicherheit.
- 23. Oktober 2023
- [SPARK-45426] Unterstützung für
ReloadingX509TrustManager
hinzugefügt. - [SPARK-45396] Dokumenteintrag für
PySpark.ml.connect
-Modul hinzugefügt, undEvaluator
zu__all__
beiml.connect
hinzugefügt. - [SPARK-45256] Ein Problem wurde behoben, das dazu führte, dass
DurationWriter
fehlschlug, wenn mehr Werte als die Anfangskapazität geschrieben wurden. - [SPARK-45279]
plan_id
an alle logischen Pläne angefügt. - [SPARK-45250] Unterstützung für das Aufgabenressourcenprofil auf Stagingebene für yarn-Cluster hinzugefügt, wenn die dynamische Zuordnung deaktiviert ist.
- [SPARK-45182] Unterstützung für Rollbacks der Kartenmischphase hinzugefügt, sodass alle Stagingaufgaben erneut ausgeführt werden können, wenn die Stagingausgabe unbestimmt ist.
- [SPARK-45419] Vermeiden Sie,
rocksdb sst
-Dateien in einer anderenrocksdb
-Instanz wiederzuverwenden, indem Sie den Dateiversionszuordnungseintrag größerer Versionen entfernen. - [SPARK-45386] Problem behoben, durch das
StorageLevel.NONE
fälschlicherweise „0“ (null) zurückgegeben hat. - Updates der Betriebssystemsicherheit.
- [SPARK-45426] Unterstützung für
- 13. Oktober 2023
- Die Abhängigkeit von snowflake-jdbc wurde von Version 3.13.29 auf Version 3.13.33 aktualisiert.
- Die Funktion
array_insert
basiert für positive und Indizes auf 1, während sie für negative Indizes zuvor auf 0 basierte. Es fügt nun ein neues Element am Ende des Eingabe-Arrays für den Index -1 ein. Um das vorherige Verhalten wiederherzustellen, legen Siespark.sql.legacy.negativeIndexInArrayInsert
auftrue
fest. - Beschädigte Dateien werden von Azure Databricks nicht mehr ignoriert, wenn
ignoreCorruptFiles
während des CSV-Schemarückschlusses mit Autoloader aktiviert wurde. - [SPARK-45227] Ein kleines Threadsicherheitsproblem wurde mit
CoarseGrainedExecutorBackend
behoben. - [SPARK-44658]
ShuffleStatus.getMapStatus
mussNone
anstelle vonSome(null)
zurückgeben. - [SPARK-44910]
Encoders.bean
unterstützt keine übergeordneten Klassen mit generischen Typargumenten. - [SPARK-45346] Beim Parquet-Schemarückschluss wird die Groß-/Kleinschreibung von Flags während der Zusammenführung des Schemas beachtet.
- Rückgängig gemacht: [SPARK-42946].
- [SPARK-42205] Das JSON-Protokoll aktualisiert, um die Protokollierung von Accumulables in Startereignissen von Aufgaben oder Stages zu entfernen.
- [SPARK-45360] Spark-Sitzungsgenerator unterstützt die Initialisierung von
SPARK_REMOTE
. - [SPARK-45316] Hinzufügen der neuen Parameter
ignoreCorruptFiles
/ignoreMissingFiles
zuHadoopRDD
undNewHadoopRDD
- [SPARK-44909] Überspringen des Ausführens des Protokollstreamingservers von TorchDistributor, wenn nicht verfügbar
- [SPARK-45084]
StateOperatorProgress
verwendet jetzt die korrekte Shuffle-Partitionsnummer. - [SPARK-45371] Beheben von Schattierungsproblemen beim Spark Connect-Scala-Client
- [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für
Trigger.AvailableNow
mit nicht unterstützte Quellen anstelle von Wrappern - [SPARK-44840] Es wurde festgelegt, dass
array_insert()
für negative Indizes auf 1 basiert. - [SPARK-44551] Kommentare, die mit OSS synchronisiert werden sollen, bearbeitet.
- [SPARK-45078] Die Funktion
ArrayInsert
führt jetzt explizite Umwandlungen durch, wenn der Elementtyp nicht dem abgeleiteten Komponententyp entspricht. - [SPARK-45339] PySpark protokolliert jetzt Wiederholungsfehler.
- [SPARK-45057] Vermeiden Sie eine Lesesperre, wenn
keepReadLock
FALSE ist. - [SPARK-44908] Parameterfunktionalität
foldCol
der Kreuzvalidierung korrigiert. - Updates der Betriebssystemsicherheit.
Databricks Runtime 13.1
Siehe Databricks Runtime 13.1 (EoS).
- 29. November 2023
- Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in
getColumns
-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden. - [SPARK-44846] Komplexe Gruppierungsausdrücke nach
RemoveRedundantAggregates
entfernt. - [SPARK-43802] Ein Problem wurde behoben, aufgrund dessen bei der Codegenerierung für unhex- und unbase64-Ausdrücke ein Fehler auftrat.
- [SPARK-43718] NULL-Zulässigkeit für Schlüssel in
USING
-Verknüpfungen korrigiert. - Updates der Betriebssystemsicherheit.
- Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in
- 14. November 2023
- Partitionsfilter für Delta Lake-Streamingabfragen werden unter die Ratenbegrenzung vermindert, um eine bessere Auslastung zu erzielen.
- Geänderte Datenfeedabfragen in Unity Catalog Streaming-Tabellen und materialisierten Ansichten zum Anzeigen von Fehlermeldungen.
- [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit
TakeOrderedAndProjectExec
behoben. - [SPARK-45430]
FramelessOffsetWindowFunction
löst beiIGNORE NULLS
undoffset > rowCount
keinen Fehler mehr aus. - [SPARK-45543] Problem behoben, durch das
InferWindowGroupLimit
einen Fehler verursachte, wenn die anderen Fensterfunktionen nicht über denselben Fensterrahmen wie Funktionen mit demselben Rang verfügten. - Updates der Betriebssystemsicherheit.
- 24. Oktober 2023
- [SPARK-43799] Binäre Deskriptoroption zur PySpark-
Protobuf
-API hinzugefügt. - Rückgängig gemacht: [SPARK-42946].
- [SPARK-45346] Beim Parquet-Schemarückschluss wird jetzt die Groß-/Kleinschreibung von Flags während der Zusammenführung des Schemas beachtet.
- Updates der Betriebssystemsicherheit.
- [SPARK-43799] Binäre Deskriptoroption zur PySpark-
- 13. Oktober 2023
- Die Abhängigkeit von snowflake-jdbc wurde von Version 3.13.29 auf Version 3.13.33 aktualisiert.
- Beschädigte Dateien werden nicht mehr ignoriert, wenn
ignoreCorruptFiles
während des CSV-Schemarückschlusses mit Autoloader aktiviert ist. - [SPARK-44658]
ShuffleStatus.getMapStatus
gibtNone
anstelle vonSome(null)
zurück. - [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für
Trigger.AvailableNow
mit nicht unterstützte Quellen anstelle von Wrappern - [SPARK-42205] Das JSON-Protokoll aktualisiert, um die Protokollierung von Accumulables in Startereignissen von Aufgaben oder Stages zu entfernen.
- Updates der Betriebssystemsicherheit.
- 12. September 2023
- [SPARK-44718] Konfigurations-Standardeinstellung für
ColumnVector
anOffHeapMemoryMode
-Konfigurationswert angepasst. - SPARK-44878 Strenger Grenzwert für
RocksDB
-Schreib-Manager deaktiviert, um die Einfügeausnahme bei vollem Cache zu vermeiden. - Verschiedene Korrekturen
- [SPARK-44718] Konfigurations-Standardeinstellung für
- 30. August 2023
- [SPARK-44871] Das Verhalten percentile_disc wurde behoben.
- [SPARK-44714] Erleichterte Einschränkung der LCA-Auflösung in Bezug auf Abfragen.
- [SPARK-44245]
PySpark.sql.dataframe sample()
-Dokumenttests sind jetzt rein illustrativ. - [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor
taskThread
initialisiert wird. - Updates der Betriebssystemsicherheit.
- 15. August 2023
- [SPARK-44485] Optimierung von
TreeNode.generateTreeString
. - [SPARK-44643]
Row.__repr__
bei leerer Zeile korrigiert. - [SPARK-44504] Wartungsaufgabe bereinigt jetzt geladene Anbieter bei Stoppfehler.
- [SPARK-44479] Korrektur der
protobuf
-Konvertierung von einem leeren struct-Typ. - [SPARK-44464] Korrektur von
applyInPandasWithStatePythonRunner
, sodass Zeilen mitNull
als erstem Spaltenwert ausgegeben werden. - Verschiedene Korrekturen
- [SPARK-44485] Optimierung von
- 27. Juli 2023
- Problem behoben, das dazu führte, dass
dbutils.fs.ls()
vonINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
beim Aufruf für einen Speicherortpfad zurückgegeben wurde, der mit einem anderen externen oder verwalteten Speicherort in Konflikt stand. - [SPARK-44199]
CacheManager
aktualisiertfileIndex
nicht mehr unnötig. - [SPARK-44448] Fehler behoben, der zu falschen Ergebnissen von
DenseRankLimitIterator
undInferWindowGroupLimit
führte. - Updates der Betriebssystemsicherheit.
- Problem behoben, das dazu führte, dass
- 24. Juli 2023
- Rückgängig gemacht: [SPARK-42323].
- [SPARK-41848] Problem mit den Zeitplan überschreitenden Aufgaben bei
TaskResourceProfile
behoben. - [SPARK-44136] Problem behoben, das dazu führte, dass
StateManager
in einem Executor und nicht in einem Treiber inFlatMapGroupsWithStateExec
materialisiert wurde - [SPARK-44337] Problem behoben, aufgrund dessen ein beliebiges auf
Any.getDefaultInstance
festgelegtes Feld Analysefehler verursachte - Updates der Betriebssystemsicherheit.
- 27. Juni 2023
- Updates der Betriebssystemsicherheit.
- 15. Juni 2023
- Photonisiertes
approx_count_distinct
. - Der JSON-Parser im
failOnUnknownFields
-Modus löscht einen Datensatz imDROPMALFORMED
-Modus und schlägt imFAILFAST
-Modus direkt fehl. - Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- Das
PubSubRecord
-Attributfeld wird als JSON anstelle der Zeichenfolge einer Scala-Zuordnung gespeichert, um eine einfachere Serialisierung und Deserialisierung zu ermöglichen. - Der
EXPLAIN EXTENDED
-Befehl gibt nun die Ergebniscacheberechtigung der Abfrage zurück. - Verbesserung der Leistung inkrementeller Updates mit
SHALLOW CLONE
Iceberg und Parquet. - [SPARK-43032] Python SQM-Fehlerbehebung.
- [SPARK-43404] Überspringen der Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers, um den ID-Übereinstimmungsfehler zu vermeiden
- [SPARK-43340] Fehlendes Stapelablaufverfolgungsfeld in Ereignisprotokollen behandeln.
- [SPARK-43527]
catalog.listCatalogs
in PySpark korrigiert. - [SPARK-43541] Verteilen aller
Project
-Tags beim Auflösen von Ausdrücken und fehlenden Spalten. - [SPARK-43300]
NonFateSharingCache
-Wrapper für Guava Cache. - [SPARK-43378] Streamobjekte in
deserializeFromChunkedBuffer
ordnungsgemäß schließen. - [SPARK-42852] Mit
NamedLambdaVariable
verwandte Änderungen vonEquivalentExpressions
wiederherstellen. - [SPARK-43779]
ParseToDate
lädt jetztEvalMode
in den Hauptthread. - [SPARK-43413]
IN
-NULL-Zulässigkeit derListQuery
-Unterabfrage korrigiert. - [SPARK-43889] Hinzufügen einer Überprüfung auf Spaltennamen für
__dir__()
, um fehleranfällige Spaltennamen herauszufiltern. - [SPARK-43043] Verbesserte Leistung von
MapOutputTracker
.updateMapOutput - [SPARK-43522] Erstellung des Strukturspaltennamens mit dem Index des Arrays korrigiert.
- [SPARK-43457] Benutzer-Agent mit Betriebssystem-, Python- und Spark-Versionen erweitert.
- [SPARK-43286] CBC-Modus
aes_encrypt
aktualisiert, um zufällige IVs zu generieren. - [SPARK-42851] Schutz von
EquivalentExpressions.addExpr()
mitsupportedExpression()
. - Rückgängig gemacht: [SPARK-43183].
- Updates der Betriebssystemsicherheit.
- Photonisiertes
Databricks Runtime 12.2 LTS
Siehe Databricks Runtime 12.2 LTS.
- 29. November 2023
- Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in
getColumns
-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden. - [SPARK-42205] Protokollierung von Accumulables in Startereignissen vom Typ
Stage
undTask
entfernt. - [SPARK-44846] Komplexe Gruppierungsausdrücke nach
RemoveRedundantAggregates
entfernt. - [SPARK-43718] NULL-Zulässigkeit für Schlüssel in
USING
-Verknüpfungen korrigiert. - [SPARK-45544] SSL-Unterstützung in
TransportContext
integriert. - [SPARK-43973] Strukturierte Streaming-UI zeigt jetzt fehlerhafte Abfragen ordnungsgemäß an.
- [SPARK-45730] Zeiteinschränkungen für
ReloadingX509TrustManagerSuite
verbessert. - [SPARK-45859] UDF-Objekte in
ml.functions
wurden als verzögert festgelegt. - Updates der Betriebssystemsicherheit.
- Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in
- 14. November 2023
- Partitionsfilter für Delta Lake-Streamingabfragen werden unter die Ratenbegrenzung vermindert, um eine bessere Auslastung zu erzielen.
- [SPARK-45545]
SparkTransportConf
erbtSSLOptions
bei der Erstellung. - [SPARK-45427] RPC-SSL-Einstellungen zu
SSLOptions
undSparkTransportConf
hinzugefügt. - [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit
TakeOrderedAndProjectExec
behoben. - [SPARK-45541]
SSLFactory
hinzugefügt. - [SPARK-45430]
FramelessOffsetWindowFunction
löst beiIGNORE NULLS
undoffset > rowCount
keinen Fehler mehr aus. - [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
- Updates der Betriebssystemsicherheit.
- 24. Oktober 2023
- [SPARK-45426] Unterstützung für
ReloadingX509TrustManager
hinzugefügt. - Verschiedene Korrekturen
- [SPARK-45426] Unterstützung für
- 13. Oktober 2023
- Die Abhängigkeit von snowflake-jdbc wurde von Version 3.13.29 auf Version 3.13.33 aktualisiert.
- [SPARK-42553] Sicherstellen von mindestens einer Zeiteinheit nach einem Intervall
- [SPARK-45346] Beim Parquet-Schemarückschluss wird die Groß-/Kleinschreibung von Flags während der Zusammenführung des Schemas beachtet.
- [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für
Trigger.AvailableNow
mit nicht unterstützte Quellen anstelle von Wrappern - [SPARK-45084]
StateOperatorProgress
für die Verwendung einer korrekten, angemessenen Shuffle-Partitionsnummer
- 12. September 2023
- [SPARK-44873] Unterstützung für
alter view
mit geschachtelten Spalten im Hive-Client hinzugefügt. - [SPARK-44718] Konfigurations-Standardeinstellung für
ColumnVector
anOffHeapMemoryMode
-Konfigurationswert angepasst. - [SPARK-43799] Binäre Deskriptoroption zur PySpark-
Protobuf
-API hinzugefügt. - Verschiedene Korrekturen
- [SPARK-44873] Unterstützung für
- 30. August 2023
- [SPARK-44485] Optimierung von
TreeNode.generateTreeString
. - [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor
taskThread
initialisiert wird. - [SPARK-44871][11.3-13.0]
percentile_disc
-Verhalten wurde korrigiert. - [SPARK-44714] Erleichterte Einschränkung der LCA-Auflösung in Bezug auf Abfragen.
- Updates der Betriebssystemsicherheit.
- [SPARK-44485] Optimierung von
- 15. August 2023
- [SPARK-44504] Wartungsaufgabe bereinigt geladene Anbieter bei Stoppfehler.
- [SPARK-44464] Korrektur von
applyInPandasWithStatePythonRunner
, sodass Zeilen mitNull
als erstem Spaltenwert ausgegeben werden. - Updates der Betriebssystemsicherheit.
- 29. Juli 2023
- Problem behoben, das dazu führte, dass
dbutils.fs.ls()
vonINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
beim Aufruf für einen Speicherortpfad zurückgegeben wurde, der mit einem anderen externen oder verwalteten Speicherort in Konflikt stand. - [SPARK-44199]
CacheManager
aktualisiertfileIndex
nicht mehr unnötig. - Updates der Betriebssystemsicherheit.
- Problem behoben, das dazu führte, dass
- 24. Juli 2023
- [SPARK-44337] Problem behoben, aufgrund dessen ein beliebiges auf
Any.getDefaultInstance
festgelegtes Feld Analysefehler verursachte - [SPARK-44136] Problem behoben, das dazu führte, dass
StateManager
in einem Executor und nicht in einem Treiber inFlatMapGroupsWithStateExec
materialisiert wurde - Updates der Betriebssystemsicherheit.
- [SPARK-44337] Problem behoben, aufgrund dessen ein beliebiges auf
- 23. Juni 2023
- Updates der Betriebssystemsicherheit.
- 15. Juni 2023
- Photonisiertes
approx_count_distinct
. - Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- [SPARK-43779]
ParseToDate
lädt jetztEvalMode
in den Hauptthread. - [SPARK-43156][SPARK-43098] Skalare Unterabfrage zum Testen der Fehleranzahl mit Deaktivierung von
decorrelateInnerQuery
erweitert. - Updates der Betriebssystemsicherheit.
- Photonisiertes
- 2. Juni 2023
- Der JSON-Parser im
failOnUnknownFields
-Modus löscht einen Datensatz imDROPMALFORMED
-Modus und schlägt direkt imFAILFAST
-Modus fehl. - Verbesserung der Leistung inkrementeller Updates mit
SHALLOW CLONE
Iceberg und Parquet. - Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
- [SPARK-43404] Überspringen der Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers, um den ID-Übereinstimmungsfehler zu vermeiden
- [SPARK-43413][11.3-13.0]
IN
-NULL-Zulässigkeit derListQuery
-Unterabfrage korrigiert. - [SPARK-43522] Erstellung des Strukturspaltennamens mit dem Index des Arrays korrigiert.
- [SPARK-43541] Verteilen aller
Project
-Tags beim Auflösen von Ausdrücken und fehlenden Spalten. - [SPARK-43527]
catalog.listCatalogs
in PySpark korrigiert. - [SPARK-43123] Interne Feldmetadaten werden nicht mehr an Kataloge weitergegeben.
- [SPARK-43340] Fehlendes Stapelablaufverfolgungsfeld in Ereignisprotokollen korrigiert.
- [SPARK-42444]
DataFrame.drop
verarbeitet doppelte Spalten jetzt ordnungsgemäß. - [SPARK-42937]
PlanSubqueries
legt jetztInSubqueryExec#shouldBroadcast
auf „true“ fest. - [SPARK-43286] CBC-Modus
aes_encrypt
aktualisiert, um zufällige IVs zu generieren. - [SPARK-43378] Streamobjekte in
deserializeFromChunkedBuffer
ordnungsgemäß schließen.
- Der JSON-Parser im
- 17. Mai 2023
- Parquet-Scans sind jetzt stabil gegen OOMs beim Scannen außergewöhnlich strukturierter Dateien durch dynamische Anpassung der Batchgröße. Dateimetadaten werden analysiert, um die Batchgröße präventiv zu verringern und bei Vorgangsversuchen als endgültiges Sicherheitsnetz erneut zu verringern.
- Wenn eine Avro-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden. - Autoloader macht jetzt Folgendes:
-
- Liest jetzt korrekt
Integer
-,Short
undByte
-Typen, sodass keine Wiederherstellung erforderlich ist, wenn einer dieser Datentypen bereitgestellt wird, die AVRO-Datei aber einen der anderen beiden Typen vorschlägt.
- Liest jetzt korrekt
-
- Verhindert das Lesen von Intervalltypen als Datums- oder Zeitstempeltypen, um fehlerhafte Datumsangaben zu vermeiden.
-
- Verhindert das Lesen von
Decimal
-Typen mit geringerer Genauigkeit.
- Verhindert das Lesen von
- [SPARK-43172] Macht den Host und das Token vom Spark Connect-Client verfügbar.
- [SPARK-43293]
__qualified_access_only
wird in normalen Spalten ignoriert. - [SPARK-43098]
COUNT
-Korrektheitsfehler behoben, bei dem skalare Unterabfragen nach Klausel gruppiert wurden. - [SPARK-43085] Unterstützung der
DEFAULT
-Spaltenzuweisung für mehrteilige Tabellennamen. - [SPARK-43190]
ListQuery.childOutput
ist jetzt mit der sekundären Ausgabe konsistent. - [SPARK-43192] Zeichensatzüberprüfung des Benutzer-Agents entfernt.
- Updates der Betriebssystemsicherheit.
- 25. April 2023
- Wenn eine Parquet-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden. - Autoloader liest jetzt korrekt
Integer
-,Short
- undByte
-Typen, sodass keine Wiederherstellung erforderlich ist, wenn einer dieser Datentypen bereitgestellt wird. Die Parquet-Datei schlägt einen der beiden anderen Typen vor. Wenn die Spalte für wiederhergestellte Daten zuvor aktiviert wurde, führte der Datentypkonflikt dazu, dass Spalten wiederhergestellt wurden, obwohl sie lesbar waren. - [SPARK-43009]
sql()
wurde mitAny
-Konstanten parametrisiert. - [SPARK-42406] Beenden der rekursiven Protobuf-Felder durch Löschen des Felds
- [SPARK-43038] Unterstützung für GCM-Modus durch
aes_encrypt()
/aes_decrypt()
- [SPARK-42971]
workdir
ausgeben, wennappDirs
beim Workerhandleereignis „WorkDirCleanup
“ NULL ist - [SPARK-43018] Fehler für INSERT-Befehle mit Zeitstempelliteralen behoben
- Updates der Betriebssystemsicherheit.
- Wenn eine Parquet-Datei nur mit der
- 11. April 2023
- Unterstützung von Legacy-Datenquellenformaten im
SYNC
-Befehl. - Ein Problem beim %autoreload-Verhalten in Notebooks außerhalb eines Repositorys behoben.
- Es wurde ein Problem behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
- [SPARK-42928] Sychronisiert
resolvePersistentFunction
. - [SPARK-42936] Behebt einen LCA-Fehler, wenn die Klausel direkt durch ihr untergeordnetes Aggregat aufgelöst werden kann.
- [SPARK-42967] Behebt
SparkListenerTaskStart.stageAttemptId
, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde. - Updates der Betriebssystemsicherheit.
- Unterstützung von Legacy-Datenquellenformaten im
- 29. März 2023
Databricks SQL unterstützt jetzt das Angeben von Standardwerten für Spalten von Delta Lake-Tabellen, entweder zur Erstellungszeit der Tabelle oder danach. Anschließende
INSERT
-,UPDATE
-,DELETE
- undMERGE
-Befehle können mithilfe des explizitenDEFAULT
-Schlüsselworts auf den Standardwert einer Spalte verweisen. Wenn zusätzlich eineINSERT
-Zuweisung eine explizite Liste mit weniger Spalten als die Zieltabelle aufweist, werden die entsprechenden Spaltenstandardwerte durch die übrigen Spalten ersetzt (oder NULL, wenn kein Standardwert angegeben ist).Beispiel:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
Autoloader initiiert jetzt mindestens eine synchrone RocksDB-Protokollbereinigung für
Trigger.AvailableNow
-Streams, um zu überprüfen, ob der Prüfpunkt regelmäßig für schnell ausgeführte Autoloader-Streams bereinigt werden kann. Dadurch können einige Streams mehr Zeit in Anspruch nehmen, bevor sie heruntergefahren werden, aber Sie sparen Speicherkosten und verbessern die Autoloader-Nutzung in zukünftigen Ausführungen.Sie können jetzt eine Delta-Tabelle ändern, um die Unterstützung für Tabellenfeatures hinzuzufügen, indem Sie verwenden
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Erhöhen von lockAcquireTimeoutMs auf 2 Minuten, um den RocksDB-Zustandsspeicher im strukturierten Streaming abzurufen
[SPARK-42521] NULL-Werte für INSERT-Befehle mit benutzerseitig angegebenen Listen mit weniger Spalten als die Zieltabelle hinzufügen
[SPARK-42702][SPARK-42623] Unterstützung parametrisierter Abfragen in Unterabfragen und CTE
[SPARK-42668] Ausnahmeerfassung beim Versuch, den komprimierten Datenstrom in HDFSStateStoreProvider-Beendigung zu schließen
[SPARK-42403] JsonProtocol sollte JSON-Zeichenfolgen mit NULL verarbeiten.
- 8. März 2023
- Die Fehlermeldung „Fehler beim Initialisieren der Konfiguration“ wurde verbessert, um mehr Kontext für den Kunden bereitzustellen.
- Es gibt eine Terminologieänderung für das Hinzufügen von Funktionen zu einer Delta-Tabelle mithilfe der table-Eigenschaft. Die bevorzugte Syntax ist jetzt
'delta.feature.featureName'='supported'
anstelle von'delta.feature.featureName'='enabled'
. Aus Gründen der Abwärtskompatibilität funktioniert'delta.feature.featureName'='enabled'
weiterhin, und das wird auch so bleiben. - Ab dieser Version ist es möglich, eine Tabelle durch die zusätzliche Tabelleneigenschaft „
delta.ignoreProtocolDefaults
“ zu erstellen/zu ersetzen, um protokollbezogene Spark-Konfigurationen zu ignorieren, die standardmäßige Reader- und Writerversionen sowie standardmäßig unterstützte Tabellenfunktionen enthalten. - [SPARK-42070] Ändern des Standardwerts des Arguments der Mask-Funktion von -1 in NULL
- [SPARK-41793] Falsches Ergebnis für Fensterrahmen, die durch eine Bereichsklausel für signifikante Dezimalstellen definiert sind
- [SPARK-42484] Bessere UnsafeRowUtils-Fehlermeldung
- [SPARK-42516] Beim Erstellen von Ansichten immer die Sitzungszeitzonenkonfiguration erfassen
- [SPARK-42635] Korrigieren des TimestampAdd-Ausdrucks
- [SPARK-42622] Ersetzung in Werten deaktiviert
- [SPARK-42534] Korrigieren der Db2Dialect Limit-Klausel
- [SPARK-42121] Integrierte Tabellenwertfunktionen wie posexplode, posexplode_outer, json_tuple und stack hinzufügen
- [SPARK-42045] ANSI SQL-Modus: Round/Bround sollte einen Fehler beim Integerüberlauf von tiny/small/significant zurückgeben.
- Updates der Betriebssystemsicherheit.
Databricks Runtime 11.3 LTS
Weitere Informationen finden Sie unter Databricks Runtime 11.3 LTS.
- 29. November 2023
- Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in
getColumns
-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden. - [SPARK-43973] Strukturierte Streaming-UI zeigt jetzt fehlerhafte Abfragen ordnungsgemäß an.
- [SPARK-45730] Zeiteinschränkungen für
ReloadingX509TrustManagerSuite
verbessert. - [SPARK-45544] SSL-Unterstützung in
TransportContext
integriert. - [SPARK-45859] UDF-Objekte in
ml.functions
wurden als verzögert festgelegt. - [SPARK-43718] NULL-Zulässigkeit für Schlüssel in
USING
-Verknüpfungen korrigiert. - [SPARK-44846] Komplexe Gruppierungsausdrücke nach
RemoveRedundantAggregates
entfernt. - Updates der Betriebssystemsicherheit.
- Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in
- 14. November 2023
- Partitionsfilter für Delta Lake-Streamingabfragen werden unter die Ratenbegrenzung vermindert, um eine bessere Auslastung zu erzielen.
- [SPARK-42205] Protokollierung von Accumulables in Startereignissen vom Typ „Stage“ und „Task“ entfernt.
- [SPARK-45545]
SparkTransportConf
erbtSSLOptions
bei der Erstellung. - Rückgängig gemacht: [SPARK-33861].
- [SPARK-45541]
SSLFactory
hinzugefügt. - [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
- [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit
TakeOrderedAndProjectExec
behoben. - [SPARK-45430]
FramelessOffsetWindowFunction
löst beiIGNORE NULLS
undoffset > rowCount
keinen Fehler mehr aus. - [SPARK-45427] RPC-SSL-Einstellungen zu
SSLOptions
undSparkTransportConf
hinzugefügt. - Updates der Betriebssystemsicherheit.
- 24. Oktober 2023
- [SPARK-45426] Unterstützung für
ReloadingX509TrustManager
hinzugefügt. - Verschiedene Korrekturen
- [SPARK-45426] Unterstützung für
- 13. Oktober 2023
- Die Abhängigkeit von snowflake-jdbc wurde von Version 3.13.29 auf Version 3.13.33 aktualisiert.
- [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für
Trigger.AvailableNow
mit nicht unterstützte Quellen anstelle von Wrappern - [SPARK-45084]
StateOperatorProgress
für die Verwendung einer korrekten, angemessenen Shuffle-Partitionsnummer - [SPARK-45346] Beim Parquet-Schemarückschluss wird jetzt die Groß-/Kleinschreibung von Flags während der Zusammenführung des Schemas beachtet.
- Updates der Betriebssystemsicherheit.
- 10. September 2023
- Verschiedene Korrekturen
- 30. August 2023
- [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor
taskThread
initialisiert wird. - [SPARK-44871][11.3-13.0]
percentile_disc
-Verhalten wurde korrigiert. - Updates der Betriebssystemsicherheit.
- [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor
- 15. August 2023
- [SPARK-44485] Optimierung von
TreeNode.generateTreeString
. - [SPARK-44504] Wartungsaufgabe bereinigt geladene Anbieter bei Stoppfehler.
- [SPARK-44464] Korrektur von
applyInPandasWithStatePythonRunner
, sodass Zeilen mitNull
als erstem Spaltenwert ausgegeben werden. - Updates der Betriebssystemsicherheit.
- [SPARK-44485] Optimierung von
- 27. Juli 2023
- Problem behoben, das dazu führte, dass
dbutils.fs.ls()
vonINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
beim Aufruf für einen Speicherortpfad zurückgegeben wurde, der mit einem anderen externen oder verwalteten Speicherort in Konflikt stand. - [SPARK-44199]
CacheManager
aktualisiertfileIndex
nicht mehr unnötig. - Updates der Betriebssystemsicherheit.
- Problem behoben, das dazu führte, dass
- 24. Juli 2023
- [SPARK-44136] Ein Problem wurde behoben, das dazu führte, dass StateManager im Executor statt im Treiber in FlatMapGroupsWithStateExec materialisiert werden kann.
- Updates der Betriebssystemsicherheit.
- 23. Juni 2023
- Updates der Betriebssystemsicherheit.
- 15. Juni 2023
- Photonisiertes
approx_count_distinct
. - Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- [SPARK-43779]
ParseToDate
lädt jetztEvalMode
in den Hauptthread. - [SPARK-40862] Unterstützung nicht aggregierter Unterabfragen in RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Skalare Unterabfrage zum Testen der Fehleranzahl mit Deaktivierung von
decorrelateInnerQuery
erweitert. - [SPARK-43098] Korrektur der Richtigkeit von „COUNT bug“, wenn die skalare Unterabfrage eine group by-Klausel aufweist
- Updates der Betriebssystemsicherheit.
- Photonisiertes
- 2. Juni 2023
- Der JSON-Parser im
failOnUnknownFields
-Modus löscht einen Datensatz imDROPMALFORMED
-Modus und schlägt direkt imFAILFAST
-Modus fehl. - Verbesserung der Leistung inkrementeller Updates mit
SHALLOW CLONE
Iceberg und Parquet. - Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
- [SPARK-43404] Überspringen der Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers, um den ID-Übereinstimmungsfehler zu vermeiden
- [SPARK-43527]
catalog.listCatalogs
in PySpark korrigiert. - [SPARK-43413][11.3-13.0]
IN
-NULL-Zulässigkeit derListQuery
-Unterabfrage korrigiert. - [SPARK-43340] Fehlendes Stapelablaufverfolgungsfeld in Ereignisprotokollen korrigiert.
- Der JSON-Parser im
Databricks Runtime 10.4 LTS
Weitere Informationen finden Sie unter Databricks Runtime 10.4 LTS.
- 29. November 2023
- [SPARK-45544] SSL-Unterstützung in
TransportContext
integriert. - [SPARK-45859] UDF-Objekte in
ml.functions
wurden als verzögert festgelegt. - [SPARK-43718] NULL-Zulässigkeit für Schlüssel in
USING
-Verknüpfungen korrigiert. - [SPARK-45730] Zeiteinschränkungen für
ReloadingX509TrustManagerSuite
verbessert. - [SPARK-42205] Protokollierung von Accumulables in Startereignissen vom Typ „Stage“ und „Task“ entfernt.
- [SPARK-44846] Komplexe Gruppierungsausdrücke nach
RemoveRedundantAggregates
entfernt. - Updates der Betriebssystemsicherheit.
- [SPARK-45544] SSL-Unterstützung in
- 14. November 2023
- [SPARK-45541]
SSLFactory
hinzugefügt. - [SPARK-45545]
SparkTransportConf
erbtSSLOptions
bei der Erstellung. - [SPARK-45427] RPC-SSL-Einstellungen zu
SSLOptions
undSparkTransportConf
hinzugefügt. - [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
- [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit
TakeOrderedAndProjectExec
behoben. - Rückgängig gemacht: [SPARK-33861].
- Updates der Betriebssystemsicherheit.
- [SPARK-45541]
- 24. Oktober 2023
- [SPARK-45426] Unterstützung für
ReloadingX509TrustManager
hinzugefügt. - Updates der Betriebssystemsicherheit.
- [SPARK-45426] Unterstützung für
- 13. Oktober 2023
- [SPARK-45084]
StateOperatorProgress
für die Verwendung einer korrekten, angemessenen Shuffle-Partitionsnummer - [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für
Trigger.AvailableNow
mit nicht unterstützte Quellen anstelle von Wrappern - Updates der Betriebssystemsicherheit.
- [SPARK-45084]
- 10. September 2023
- Verschiedene Korrekturen
- 30. August 2023
- [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor
taskThread
initialisiert wird. - Updates der Betriebssystemsicherheit.
- [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor
- 15. August 2023
- [SPARK-44504] Wartungsaufgabe bereinigt geladene Anbieter bei Stoppfehler.
- [SPARK-43973] Die Benutzeroberfläche für strukturiertes Streaming zeigt jetzt fehlerhafte Abfragen ordnungsgemäß an.
- Updates der Betriebssystemsicherheit.
- 23. Juni 2023
- Updates der Betriebssystemsicherheit.
- 15. Juni 2023
- Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- [SPARK-43098] Korrektur der Richtigkeit von „COUNT bug“, wenn die skalare Unterabfrage eine group by-Klausel aufweist
- [SPARK-40862] Unterstützung nicht aggregierter Unterabfragen in RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Skalare Unterabfrage zum Testen der Fehleranzahl mit Deaktivierung von
decorrelateInnerQuery
erweitert. - Updates der Betriebssystemsicherheit.
- 2. Juni 2023
- Der JSON-Parser im
failOnUnknownFields
-Modus löscht einen Datensatz imDROPMALFORMED
-Modus und schlägt direkt imFAILFAST
-Modus fehl. - Es wurde ein Problem bei der JSON-Analyse von Daten behoben, um
UnknownFieldException
zu verhindern. - Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
- [SPARK-43404] Überspringen der Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers, um den ID-Übereinstimmungsfehler zu vermeiden
- [SPARK-43413]
IN
-NULL-Zulässigkeit derListQuery
-Unterabfrage korrigiert. - Updates der Betriebssystemsicherheit.
- Der JSON-Parser im
- 17. Mai 2023
- Parquet-Scans sind jetzt stabil gegen OOMs beim Scannen außergewöhnlich strukturierter Dateien durch dynamische Anpassung der Batchgröße. Dateimetadaten werden analysiert, um die Batchgröße präventiv zu verringern und bei Vorgangsversuchen als endgültiges Sicherheitsnetz erneut zu verringern.
- [SPARK-41520] Aufteilen des
AND_OR
-Strukturmusters, umAND
undOR
zu trennen. - [SPARK-43190]
ListQuery.childOutput
ist jetzt mit der sekundären Ausgabe konsistent. - Updates der Betriebssystemsicherheit.
- 25. April 2023
- [SPARK-42928]
resolvePersistentFunction
sychronisieren. - Updates der Betriebssystemsicherheit.
- [SPARK-42928]
- 11. April 2023
- Es wurde ein Problem behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
- [SPARK-42937]
PlanSubqueries
legt jetztInSubqueryExec#shouldBroadcast
auf „true“ fest. - [SPARK-42967] Korrigieren von SparkListenerTaskStart.stageAttemptId, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde.
- 29. März 2023
- [SPARK-42668] Ausnahmeerfassung beim Versuch, den komprimierten Datenstrom in HDFSStateStoreProvider-Beendigung zu schließen
- [SPARK-42635] Fehlerbehebung für...
- Updates der Betriebssystemsicherheit.
- 14. März 2023
- [SPARK-41162] Korrigieren von Antiverknüpfung und halbe Verknüpfung für Selbstverknüpfung mit Aggregationen
- [SPARK-33206] Berechnung der Gewichtung bei gemischten Indexcaches für kleine Indexdateien korrigieren
- [SPARK-42484] Fehlermeldung für
UnsafeRowUtils
verbessert - Verschiedene Korrekturen
- 28. Februar 2023
- Unterstützung generierter Spalte für das date_format „yyyy-MM-dd“. Durch diese Änderung wird die Partitionsbereinigung für „yyyy-MM-dd“ als date_format in generierten Spalten unterstützt.
- Benutzer*innen können jetzt mithilfe von Databricks Runtime 9.1 LTS oder höher bestimmte Delta-Tabellen lesen und schreiben, die Readerversion 3 und Writerversion 7 erfordern. Um erfolgreich zu sein, müssen Tabellenfunktionen, die im Tabellenprotokoll aufgeführt sind, von der aktuellen Version von Databricks Runtime unterstützt werden.
- Unterstützung generierter Spalte für das date_format „yyyy-MM-dd“. Durch diese Änderung wird die Partitionsbereinigung für „yyyy-MM-dd“ als date_format in generierten Spalten unterstützt.
- Updates der Betriebssystemsicherheit.
- 16. Februar 2023
- [SPARK-30220] Aktivieren der Verwendung von Exists/In-Unterabfragen außerhalb des Knotenfilters
- Updates der Betriebssystemsicherheit.
- 31. Januar 2023
- Tabellentypen von JDBC-Tabellen sind jetzt standardmäßig EXTERNAL.
- 18. Januar 2023
- Azure Synapse-Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Löschen des Schreibbatches nach dem Commit des RocksDB-Zustandsspeichers
- [SPARK-41199] Beheben des Metrikproblems, wenn DSv1- und DSv2-Streamingquelle gemeinsam verwendet werden
- [SPARK-41198] Korrektur von Metriken in Streamingabfragen mit CTE- und DSv1-Streamingquelle
- [SPARK-41339] Schließen und Neuerstellen des RocksDB-Schreibbatches (anstatt nur Löschen)
- [SPARK-41732] Anwenden der baumstrukturbasierten Bereinigung für die Regel „SessionWindowing“
- Updates der Betriebssystemsicherheit.
- Azure Synapse-Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben:
- 29. November 29 2022
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
- Wenn
csvignoreleadingwhitespace
auftrue
festgelegt ist, entfernt dies führende Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
. - Wenn
csvignoretrailingwhitespace
auftrue
festgelegt ist, entfernt dies nachgestellte Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
.
- Wenn
- Ein Problem bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (
cloudFiles.inferColumnTypes
nicht festgelegt oder auffalse
festgelegt) und der JSON-Code geschachtelte Objekte enthielt. - Updates der Betriebssystemsicherheit.
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
- 15. November 2022
- Apache commons-text wurde auf 1.10.0 aktualisiert.
- [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um das verbesserte Verhalten zu nutzen, legen Sie
spark.sql.json.enablePartialResults
auftrue
fest. Das Flag ist standardmäßig deaktiviert, um das ursprüngliche Verhalten beizubehalten. - [SPARK-40292] Korrigieren von Spaltennamen in der
arrays_zip
-Funktion, wenn aus geschachtelten Strukturen auf Arrays verwiesen wird - Updates der Betriebssystemsicherheit.
- 1. November 2022
- Ein Problem wurde behoben, das zu Folgendem führte: Wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
_change_type
enthielt, aber Datenfeed ändern für diese Tabelle deaktiviert war, wurden die Daten in dieser Spalte bei Ausführung vonMERGE
fälschlicherweise mit NULL-Werten gefüllt. - Es wurde ein Problem mit dem Autoloader behoben, bei dem eine Datei in demselben Mikrobatch dupliziert werden konnte, wenn
allowOverwrites
aktiviert war - [SPARK-40697] Ein schreibseitiger Zeichenabstand zum Abdecken externer Datendateien wurde hinzugefügt.
- [SPARK-40596] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf.
- Updates der Betriebssystemsicherheit.
- Ein Problem wurde behoben, das zu Folgendem führte: Wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
- 18. Oktober 2022
- Updates der Betriebssystemsicherheit.
- 5. Oktober 2022
- [SPARK-40468] Beheben der Spaltenbereinigung in CSV, wenn
_corrupt_record
ausgewählt ist. - Updates der Betriebssystemsicherheit.
- [SPARK-40468] Beheben der Spaltenbereinigung in CSV, wenn
- 22. September 2022
- Benutzer*innen können „spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
)“ festlegen, um die integrierte Auflistung für Autoloader in ADLS Gen2 erneut zu aktivieren. Die integrierte Auflistung wurde zuvor aufgrund von Leistungsproblemen deaktiviert, kann aber zu höheren Speicherkosten für Kunden geführt haben. - [SPARK-40315] Hinzufügen von hashCode() für Literal von ArrayBasedMapData
- [SPARK-40213] Unterstützung der ASCII-Wertkonvertierung für Latin-1-Zeichen
- [SPARK-40380] Korrektur der Konstantenfaltung von InvokeLike, um in den Plan eingebettete nicht serialisierbare Literale zu vermeiden
- [SPARK-38404] Verbessern der CTE-Auflösung, wenn ein geschachtelter CTE auf einen äußeren CTE verweist
- [SPARK-40089] Korrektur der Sortierung für einige Dezimaltypen
- [SPARK-39887] RemoveRedundantAliases sollte Aliase beibehalten, die die Ausgabe von Projektionsknoten eindeutig machen
- Benutzer*innen können „spark.conf.set(
- 6. September 2022
- [SPARK-40235] Verwenden einer unterbrechbaren Sperre anstelle einer synchronisierten in Executor.updateDependencies()
- [SPARK-40218] GROUPING SETS muss die Gruppierungsspalten beibehalten.
- [SPARK-39976] „ArrayIntersect“ muss Nullwerte im linken Ausdruck ordnungsgemäß behandeln.
- [SPARK-40053]
assume
wurde für Fälle mit dynamischem Abbruch hinzugefügt, in denen die Python-Runtimeumgebung benötigt wird. - [SPARK-35542] Korrektur: Bucketizer, der für mehrere Spalten mit den Parametern „splitsArray“, „inputCols“ und „outputCols“ erstellt wurde, kann nach dem Speichern nicht geladen werden.
- [SPARK-40079] Imputer-inputCols-Überprüfung für leeren Eingabefall hinzugefügt
- 24. August 2022
- [SPARK-39983] Keine Zwischenspeicherung von nicht serialisierten Broadcast-Relationen auf dem Treiber
- [SPARK-39775] Deaktivieren validierter Standardwerte beim Analysieren von Avro-Schemas
- [SPARK-39962] Projektion anwenden, wenn Gruppenattribute leer sind
- [SPARK-37643] Wenn charVarcharAsString „true“ ist, sollte die Abfrage für das char-Datentypprädikat die rpadding-Regel überspringen.
- Updates der Betriebssystemsicherheit.
- 9. August 2022
- [SPARK-39847] Beheben einer Racebedingung in RocksDBLoader.loadLibrary(), wenn der Thread des Aufrufers unterbrochen wird
- [SPARK-39731] Beheben eines Problems in CSV- und JSON-Datenquellen beim Analysieren von Daten im Format „jjjjMMtt“ mit der CORRECTED-Zeitparserrichtlinie
- Updates der Betriebssystemsicherheit.
- 27. Juli 2022
- [SPARK-39625] Hinzufügen von Dataset.as(StructType)
- [SPARK-39689] Unterstützung von
lineSep
mit zwei Zeichen in CSV-Datenquelle - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded sollte threadsicher sein.
- [SPARK-39570] Inlinetabelle sollte Ausdrücke mit Alias zulassen.
- [SPARK-39702] Verringern des Arbeitsspeicheroverheads von TransportCipher$EncryptedMessage mithilfe eines freigegebenen byteRawChannel-Elements
- [SPARK-39575] Hinzufügen von ByteBuffer#rewind nach ByteBuffer#get in AvroDeserializer
- [SPARK-39476] Deaktivieren der Aufhebung der Umwandlungsoptimierung beim Umwandeln von Long zu Float/Double oder von Integer zu Float
- [SPARK-38868] Ausnahmen von Filterprädikaten beim Optimieren äußerer Verknüpfungen nicht weitergeben
- Updates der Betriebssystemsicherheit.
- 20. Juli 2022
- Machen Sie die Ergebnisse von Deltazusammenführungsvorgängen (MERGE) konsistent, wenn die Quelle nicht deterministisch ist.
- [SPARK-39355] Einzelne Spalte verwendet Anführungszeichen zum Konstruieren von UnresolvedAttribute
- [SPARK-39548] Beim CreateView-Befehl mit einer Fensterklauselabfrage trat fälschlicherweise ein Problem aufgrund einer nicht gefundenen Fensterdefinition auf.
- [SPARK-39419] ArraySort löst nun eine Ausnahme aus, wenn der Vergleichsoperator NULL zurückgibt.
- Die Verwendung integrierter Cloud-APIs durch Autoloader für die Verzeichnisauflistung in Azure wurde deaktiviert.
- Updates der Betriebssystemsicherheit.
- 5. Juli 2022
- [SPARK-39376] Ausblenden doppelter Spalten in der Sternerweiterung des Unterabfragealias von NATURAL/USING JOIN
- Updates der Betriebssystemsicherheit.
- 15. Juni 2022
- [SPARK-39283] Beheben des Deadlock zwischen TaskMemoryManager und UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] Von Spark sollen beim Lesen von Dateien keine Feldnamen überprüft werden.
- [SPARK-34096] Leistungsverbesserung für „nth_value“: NULL-Werte über Offsetfenster ignorieren
- [SPARK-36718]
isExtractOnly
-Überprüfung in CollapseProject korrigieren
- 2. Juni 2022
- [SPARK-39093] Codegen-Kompilierungsfehler beim Aufteilen von Jahr-Monat- oder Tag-Uhrzeit-Intervallen nach Integral
- [SPARK-38990] Ausnahme vom Typ „NullPointerException“ beim Auswerten des date_trunc- oder trunc-Formats als gebundener Verweis vermeiden
- Updates der Betriebssystemsicherheit.
- 18. Mai 2022
- Behebt einen potenziellen Arbeitsspeicherverlust im Autoloader.
- [SPARK-38918] Bei der Bereinigung geschachtelter Spalten sollten Attribute herausgefiltert werden, die nicht zur aktuellen Beziehung gehören.
- [SPARK-37593] Standardseitengröße um LONG_ARRAY_OFFSET reduzieren, wenn G1GC und ON_HEAP verwendet werden
- [SPARK-39084] df.rdd.isEmpty() mithilfe von TaskContext zum Beenden des Iterators beim Abschluss der Aufgabe korrigieren
- [SPARK-32268] ColumnPruning in injectBloomFilter hinzufügen
- [SPARK-38974] Registrierte Funktionen mit einem bestimmten Datenbanknamen in list-Funktionen filtern
- [SPARK-38931] Stamm-DFS-Verzeichnis für RocksDBFileManager mit einer unbekannten Anzahl von Schlüsseln am 1. Prüfpunkt erstellen
- Updates der Betriebssystemsicherheit.
- 19. April 2022
- Java AWS SDK von Version 1.11.655 auf 1.12.1899 aktualisiert.
- Es wurde ein Problem mit Notebookbibliotheken behoben, die in Batchstreamingaufträgen nicht funktionierten.
- [SPARK-38616] SQL-Abfragetext in Catalyst TreeNode nachverfolgen
- Updates der Betriebssystemsicherheit.
- 6. April 2022
- Die folgenden Spark SQL-Funktionen sind in diesem Release verfügbar:
timestampadd()
unddateadd()
: Zeitdauer in einer angegebenen Einheit zu einem Zeitstempelausdruck hinzufügentimestampdiff()
unddatediff()
: Zeitunterschied zwischen zwei Zeitstempelausdrücken in einer angegebenen Einheit berechnen
- Parquet-MR auf 1.12.2 aktualisiert
- Unterstützung für umfassende Schemas in Parquet-Dateien verbessert
- [SPARK-38631] Java-basierte Implementierung zum Entpacken bei Utils.unpack verwenden
- [SPARK-38509][SPARK-38481] Cherrypicking für drei
timestmapadd/diff
-Änderungen - [SPARK-38523] Verweis auf beschädigte Datensatzspalte in CSV korrigieren
- [SPARK-38237]
ClusteredDistribution
erlauben, vollständige Clusterschlüssel zu erzwingen - [SPARK-38437] Vorsichtige Serialisierung von datetime-Werten in der Datenquelle
- [SPARK-38180] Sichere Umwandlungsausdrücke in korrelierten Gleichheitsprädikaten zulassen
- [SPARK-38155] Verschiedene Aggregate in lateralen Unterabfragen mit nicht unterstützten Prädikaten verbieten
- Updates der Betriebssystemsicherheit.
- Die folgenden Spark SQL-Funktionen sind in diesem Release verfügbar:
Databricks Runtime 9.1 LTS
Siehe Databricks Runtime 9.1 LTS.
- 29. November 2023
- [SPARK-45859] UDF-Objekte in
ml.functions
wurden als verzögert festgelegt. - [SPARK-45544] SSL-Unterstützung in
TransportContext
integriert. - [SPARK-45730] Zeiteinschränkungen für
ReloadingX509TrustManagerSuite
verbessert. - Updates der Betriebssystemsicherheit.
- [SPARK-45859] UDF-Objekte in
- 14. November 2023
- [SPARK-45545]
SparkTransportConf
erbtSSLOptions
bei der Erstellung. - [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
- [SPARK-45427] RPC-SSL-Einstellungen zu
SSLOptions
undSparkTransportConf
hinzugefügt. - [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit
TakeOrderedAndProjectExec
behoben. - [SPARK-45541]
SSLFactory
hinzugefügt. - [SPARK-42205] Protokollierung von Accumulables in Startereignissen vom Typ „Stage“ und „Task“ entfernt.
- Updates der Betriebssystemsicherheit.
- [SPARK-45545]
- 24. Oktober 2023
- [SPARK-45426] Unterstützung für
ReloadingX509TrustManager
hinzugefügt. - Updates der Betriebssystemsicherheit.
- [SPARK-45426] Unterstützung für
- 13. Oktober 2023
- Updates der Betriebssystemsicherheit.
- 10. September 2023
- Verschiedene Korrekturen
- 30. August 2023
- Updates der Betriebssystemsicherheit.
- 15. August 2023
- Updates der Betriebssystemsicherheit.
- 23. Juni 2023
- Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- Updates der Betriebssystemsicherheit.
- 15. Juni 2023
- [SPARK-43098] Korrektur der Richtigkeit von „COUNT bug“, wenn die skalare Unterabfrage eine group by-Klausel aufweist
- [SPARK-43156][SPARK-43098] Skalare Unterabfrage zum Testen der Fehleranzahl mit Deaktivierung von
decorrelateInnerQuery
erweitern - [SPARK-40862] Unterstützung nicht aggregierter Unterabfragen in RewriteCorrelatedScalarSubquery
- Updates der Betriebssystemsicherheit.
- 2. Juni 2023
- Der JSON-Parser im
failOnUnknownFields
-Modus löscht einen Datensatz imDROPMALFORMED
-Modus und schlägt direkt imFAILFAST
-Modus fehl. - Es wurde ein Problem bei der JSON-Analyse von Daten behoben, um
UnknownFieldException
zu verhindern. - Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
- [SPARK-37520] Hinzufügen der Zeichenfolgenfunktionen
startswith()
undendswith()
- [SPARK-43413]
IN
-NULL-Zulässigkeit derListQuery
-Unterabfrage korrigiert. - Updates der Betriebssystemsicherheit.
- Der JSON-Parser im
- 17. Mai 2023
- Updates der Betriebssystemsicherheit.
- 25. April 2023
- Updates der Betriebssystemsicherheit.
- 11. April 2023
- Es wurde ein Problem behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
- [SPARK-42967] Korrigieren von SparkListenerTaskStart.stageAttemptId, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde.
- 29. März 2023
- Updates der Betriebssystemsicherheit.
- 14. März 2023
- [SPARK-42484] Fehlermeldung für
UnsafeRowUtils
verbessert - Verschiedene Korrekturen
- [SPARK-42484] Fehlermeldung für
- 28. Februar 2023
- Benutzer*innen können jetzt mithilfe von Databricks Runtime 9.1 LTS oder höher bestimmte Delta-Tabellen lesen und schreiben, die Readerversion 3 und Writerversion 7 erfordern. Um erfolgreich zu sein, müssen Tabellenfunktionen, die im Tabellenprotokoll aufgeführt sind, von der aktuellen Version von Databricks Runtime unterstützt werden.
- Updates der Betriebssystemsicherheit.
- 16. Februar 2023
- Updates der Betriebssystemsicherheit.
- 31. Januar 2023
- Tabellentypen von JDBC-Tabellen sind jetzt standardmäßig EXTERNAL.
- 18. Januar 2023
- Updates der Betriebssystemsicherheit.
- 29. November 29 2022
- Ein Problem bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (
cloudFiles.inferColumnTypes
nicht festgelegt oder auffalse
festgelegt) und der JSON-Code geschachtelte Objekte enthielt. - Updates der Betriebssystemsicherheit.
- Ein Problem bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (
- 15. November 2022
- Apache commons-text wurde auf 1.10.0 aktualisiert.
- Updates der Betriebssystemsicherheit.
- Verschiedene Korrekturen
- 1. November 2022
- Ein Problem wurde behoben, das zu Folgendem führte: Wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
_change_type
enthielt, aber Datenfeed ändern für diese Tabelle deaktiviert war, wurden die Daten in dieser Spalte bei Ausführung vonMERGE
fälschlicherweise mit NULL-Werten gefüllt. - Es wurde ein Problem mit dem Autoloader behoben, bei dem eine Datei in demselben Mikrobatch dupliziert werden konnte, wenn
allowOverwrites
aktiviert war - [SPARK-40596] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf.
- Updates der Betriebssystemsicherheit.
- Ein Problem wurde behoben, das zu Folgendem führte: Wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
- 18. Oktober 2022
- Updates der Betriebssystemsicherheit.
- 5. Oktober 2022
- Verschiedene Korrekturen
- Updates der Betriebssystemsicherheit.
- 22. September 2022
- Benutzer*innen können „spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")“ festlegen, um die integrierte Auflistung Listing für Autoloader in ADLS Gen2 erneut zu aktivieren. Die integrierte Auflistung wurde zuvor aufgrund von Leistungsproblemen deaktiviert, kann aber zu höheren Speicherkosten für Kunden geführt haben.
- [SPARK-40315] Hinzufügen von hashCode() für Literal von ArrayBasedMapData
- [SPARK-40089] Korrektur der Sortierung für einige Dezimaltypen
- [SPARK-39887] RemoveRedundantAliases sollte Aliase beibehalten, die die Ausgabe von Projektionsknoten eindeutig machen
- 6. September 2022
- [SPARK-40235] Verwenden einer unterbrechbaren Sperre anstelle einer synchronisierten in Executor.updateDependencies()
- [SPARK-35542] Korrektur: Bucketizer, der für mehrere Spalten mit den Parametern „splitsArray“, „inputCols“ und „outputCols“ erstellt wurde, kann nach dem Speichern nicht geladen werden.
- [SPARK-40079] Imputer-inputCols-Überprüfung für leeren Eingabefall hinzugefügt
- 24. August 2022
- [SPARK-39666] Verwenden Sie UnsafeProjection.create, um
spark.sql.codegen.factoryMode
in ExpressionEncoder zu berücksichtigen - [SPARK-39962] Projektion anwenden, wenn Gruppenattribute leer sind
- Updates der Betriebssystemsicherheit.
- [SPARK-39666] Verwenden Sie UnsafeProjection.create, um
- 9. August 2022
- Updates der Betriebssystemsicherheit.
- 27. Juli 2022
- Machen Sie die Ergebnisse von Deltazusammenführungsvorgängen (MERGE) konsistent, wenn die Quelle nicht deterministisch ist.
- [SPARK-39689] Unterstützung für
lineSep
mit zwei Zeichen in CSV-Datenquelle - [SPARK-39575]
ByteBuffer#rewind
nachByteBuffer#get
inAvroDeserializer
hinzugefügt. - [SPARK-37392] Der Leistungsfehler für Catalyst-Optimierer wurde behoben.
- Updates der Betriebssystemsicherheit.
- 13. Juli 2022
- [SPARK-39419]
ArraySort
löst nun eine Ausnahme aus, wenn der Vergleichsoperator NULL zurückgibt. - Die Verwendung integrierter Cloud-APIs durch Autoloader für die Verzeichnisauflistung in Azure wurde deaktiviert.
- Updates der Betriebssystemsicherheit.
- [SPARK-39419]
- 5. Juli 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Korrekturen
- 15. Juni 2022
- [SPARK-39283] Beheben eines Deadlocks zwischen
TaskMemoryManager
undUnsafeExternalSorter.SpillableIterator
- [SPARK-39283] Beheben eines Deadlocks zwischen
- 2. Juni 2022
- [SPARK-34554] Implementieren der
copy()
-Methode inColumnarMap
. - Updates der Betriebssystemsicherheit.
- [SPARK-34554] Implementieren der
- 18. Mai 2022
- Potenzieller Arbeitsspeicherverlust im Autoloader korrigiert.
- Upgrade der AWS SDK-Version von 1.11.655 auf 1.11.678.
- [SPARK-38918] Bei der Bereinigung geschachtelter Spalten sollten Attribute herausgefiltert werden, die nicht zur aktuellen Beziehung gehören.
- [SPARK-39084]
df.rdd.isEmpty()
mithilfe vonTaskContext
zum Beenden des Iterators für den Vorgangsabschluss korrigiert - Updates der Betriebssystemsicherheit.
- 19. April 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Korrekturen
- 6. April 2022
- [SPARK-38631] Java-basierte Implementierung zum Entpacken bei Utils.unpack verwenden
- Updates der Betriebssystemsicherheit.
- 22. März 2022
- Auf Clustern mit hoher Parallelität, bei denen entweder die Zugriffssteuerung für Tabellen oder der Passthrough für Anmeldeinformationen aktiviert ist, entspricht das aktuelle Arbeitsverzeichnis der Notebooks jetzt dem Basisverzeichnis der Benutzer*innen. Zuvor war das aktive Verzeichnis
/databricks/driver
. - [SPARK-38437] Vorsichtige Serialisierung von datetime-Werten in der Datenquelle
- [SPARK-38180] Sichere Umwandlungsausdrücke in korrelierten Gleichheitsprädikaten zulassen
- [SPARK-38155] Verschiedene Aggregate in lateralen Unterabfragen mit nicht unterstützten Prädikaten verbieten
- [SPARK-27442] Prüffeld beim Lesen oder Schreiben von Daten in einer Parquet-Datei entfernt.
- Auf Clustern mit hoher Parallelität, bei denen entweder die Zugriffssteuerung für Tabellen oder der Passthrough für Anmeldeinformationen aktiviert ist, entspricht das aktuelle Arbeitsverzeichnis der Notebooks jetzt dem Basisverzeichnis der Benutzer*innen. Zuvor war das aktive Verzeichnis
- 14. März 2022
- [SPARK-38236] Absolute Dateipfade, die in „Tabelle erstellen/ändern“ angegeben sind, werden als relativ behandelt.
- [SPARK-34069] Auftragsthread unterbrechen, wenn die lokale Eigenschaft
SPARK_JOB_INTERRUPT_ON_CANCEL
auf „true“ festgelegt ist.
- 23. Februar 2022
- [SPARK-37859] SQL-Tabellen, die mit JDBC mit Spark 3.1 erstellt wurden, können nicht mit 3.2 gelesen werden.
- 8. Februar 2022
- [SPARK-27442] Prüffeld beim Lesen oder Schreiben von Daten in einer Parquet-Datei entfernt.
- Updates der Betriebssystemsicherheit.
- 1. Februar 2022
- Updates der Betriebssystemsicherheit.
- 26. Januar 2022
- Ein Problem wurde behoben, bei dem gleichzeitige Transaktionen für Delta-Tabellen unter bestimmten seltenen Bedingungen in einer nicht serialisierbaren Reihenfolge committet werden konnten.
- Ein Problem wurde behoben, bei dem der
OPTIMIZE
-Befehl u. U. fehlschlug, wenn der ANSI-SQL-Dialekt aktiviert war.
- 19. Januar 2022
- Kleinere Fehlerbehebungen und Sicherheitsverbesserungen.
- Updates der Betriebssystemsicherheit.
- 4. November 2021
- Ein Problem wurde behoben, das dazu führen konnte, dass Structured Streaming-Streams mit
ArrayIndexOutOfBoundsException
fehlschlagen. - Es wurde eine Race-Condition behoben, die zu einem Abfragefehler mit einer IOException wie
java.io.IOException: No FileSystem for scheme
oder die führen konnte, oder die dazu führen konnte, dass Änderungen insparkContext.hadoopConfiguration
in Abfragen nicht wirksam wurden. - Der Apache Spark Connector für die Deltafreigabe wurde auf 0.2.0 aktualisiert.
- Ein Problem wurde behoben, das dazu führen konnte, dass Structured Streaming-Streams mit
- 20. Oktober 2021
- BigQuery-Connector von 0.18.1 auf 0.22.2 aktualisiert. Dadurch wird Unterstützung für den BigNumeric-Typ hinzugefügt.
Databricks Runtime 13.0 (EoS)
Siehe Databricks Runtime 13.0 (EoS).
13. Oktober 2023
- Die Abhängigkeit von snowflake-jdbc wurde von Version 3.13.29 auf Version 3.13.33 aktualisiert.
- [SPARK-42553][SQL] Sicherstellen von mindestens einer Zeiteinheit nach einem Intervall
- [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für
Trigger.AvailableNow
mit nicht unterstützte Quellen anstelle von Wrappern - [SPARK-44658][CORE]
ShuffleStatus.getMapStatus
gibtNone
anstelle vonSome(null)
zurück. - [SPARK-42205][CORE] Entfernen der Protokollierung von Accumulables in Aufgaben-/Phasen-Startereignissen in
JsonProtocol
- Updates der Betriebssystemsicherheit.
12. September 2023
- [SPARK-44485][SQL] Optimierung von
TreeNode.generateTreeString
. - [SPARK-44718][SQL]
ColumnVector
Konfigurationskonfiguration im Arbeitsspeichermodus standardmäßig aufOffHeapMemoryMode
-Konfigurationswert angepasst. - Verschiedene Fehlerbehebungen
- [SPARK-44485][SQL] Optimierung von
30. August 2023
- [SPARK-44818][Backport] Race für ausstehenden Aufgabenunterbrechung behoben, der ausgegeben wird, bevor
taskThread
initialisiert wird. - [SPARK-44714] Erleichterte Einschränkung der LCA-Auflösung in Bezug auf Abfragen.
- [SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
-Doctests sind jetzt nur illustrativ. - [SPARK-44871][11.3-13.0][SQL]
percentile_disc
-Verhalten wurde behoben. - Updates der Betriebssystemsicherheit.
- [SPARK-44818][Backport] Race für ausstehenden Aufgabenunterbrechung behoben, der ausgegeben wird, bevor
15. August 2023
- [SPARK-44643][SQL][PYTHON] Korrektur von
Row.__repr__
, wenn die Zeile leer ist. - [SPARK-44504][Backport] Wartungsaufgabe bereinigt geladene Anbieter bei Stoppfehler.
- [SPARK-44479][CONNECT][PYTHON] Korrektur der
protobuf
-Konvertierung von einem leeren struct-Typ. - [SPARK-44464][SS] Korrektur von
applyInPandasWithStatePythonRunner
, sodass Zeilen mitNull
als ersten Spaltenwert ausgegeben werden. - Verschiedene Fehlerbehebungen
- [SPARK-44643][SQL][PYTHON] Korrektur von
29. Juli 2023
- Fehler behoben, der dazu führte, dass
dbutils.fs.ls()
vonINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
beim Aufruf für einen Speicherortpfad zurückgegeben wurde, der mit einem anderen externen oder verwalteten Speicherort in Konflikt stand. - [SPARK-44199]
CacheManager
aktualisiertfileIndex
nicht mehr unnötig. - Updates der Betriebssystemsicherheit.
- Fehler behoben, der dazu führte, dass
24. Juli 2023
- [SPARK-44337][PROTOBUF] Problem behoben, aufgrund dessen ein beliebiges auf
Any.getDefaultInstance
festgelegtes Feld Analysefehler verursachte - [SPARK-44136] [SS] Problem behoben, das dazu führte, dass
StateManager
in einem Executor und nicht in einem Treiber inFlatMapGroupsWithStateExec
materialisiert wurde - Rückgängig gemacht: [SPARK-42323][SQL] Zuweisen eines Namens zu
_LEGACY_ERROR_TEMP_2332
. - Updates der Betriebssystemsicherheit.
- [SPARK-44337][PROTOBUF] Problem behoben, aufgrund dessen ein beliebiges auf
23. Juni 2023
- Updates der Betriebssystemsicherheit.
15. Juni 2023
- Photonisiertes
approx_count_distinct
. - Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- [SPARK-43156][SPARK-43098][SQL] Erweitern der skalaren Unterabfrage „count bug test“ mit decorrelateInnerQuery deaktiviert
- [SPARK-43779][SQL]
ParseToDate
lädt jetztEvalMode
in den Hauptthread. - [SPARK-42937][SQL]
PlanSubqueries
sollteInSubqueryExec#shouldBroadcast
auf WAHR festgelegen - Updates der Betriebssystemsicherheit.
- Photonisiertes
2. Juni 2023
- Der JSON-Parser im
failOnUnknownFields
-Modus löscht einen Datensatz imDROPMALFORMED
-Modus und schlägt direkt imFAILFAST
-Modus fehl. - Verbesserung der Leistung der inkrementellen Aktualisierung mit
SHALLOW CLONE
Iceberg und Parquet. - Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
- [SPARK-43404][Backport] Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers überspringen, um ID-Fehler zu vermeiden.
- [SPARK-43340][CORE] Fehlendes Stapelablaufverfolgungsfeld in Ereignisprotokollen behoben.
- [SPARK-43300][CORE]
NonFateSharingCache
-Wrapper für Guava Cache. - [SPARK-43378][CORE] Streamobjekte in
deserializeFromChunkedBuffer
ordnungsgemäß schließen. - [SPARK-16484][SQL] Verwenden des 8-Bit-Registers für die Darstellung von DataSketches.
- [SPARK-43522][SQL] Das Erstellen des Strukturspaltennamens mit dem Index des Arrays wurde behoben.
- [SPARK-43413][11.3-13.0][SQL]
IN
NuLL-Zulässigkeit vonListQuery
-Unterabfragen behoben. - [SPARK-43043][CORE] Verbesserte
MapOutputTracker.updateMapOutput
-Leistung. - [SPARK-16484][SQL] Unterstützung für DataSketches HllSketch hinzugefügt.
- [SPARK-43123][SQL] Interne Feldmetadaten werden nicht mehr an Kataloge weitergegeben.
- [SPARK-42851][SQL] Schutz von
EquivalentExpressions.addExpr()
mitsupportedExpression()
. - [SPARK-43336][SQL] Die Umwandlung zwischen
Timestamp
undTimestampNTZ
erfordert Zeitzone. - [SPARK-43286][SQL] CBC-Modus aktualisiert
aes_encrypt
, um zufällige IVs zu generieren. - [SPARK-42852][SQL] Mit
NamedLambdaVariable
verwandte Änderungen vonEquivalentExpressions
zurückgesetzt. - [SPARK-43541][SQL] Verteilen aller
Project
-Tags beim Auflösen von Ausdrücken und fehlenden Spalten. - [SPARK-43527][PYTHON]
catalog.listCatalogs
in PySpark behoben. - Updates der Betriebssystemsicherheit.
- Der JSON-Parser im
31. Mai 2023
- Die standardmäßige optimierte Schreibunterstützung für Delta-Tabellen, die in Unity Catalog registriert sind, wurde erweitert, um
CTAS
-Anweisungen undINSERT
-Vorgänge für partitionierte Tabellen einzuschließen. Dieses Verhalten richtet sich an den Standardwerten in SQL-Warehouses aus. Weitere Informationen finden Sie unter Optimierte Schreibvorgänge für Delta Lake in Azure Databricks.
- Die standardmäßige optimierte Schreibunterstützung für Delta-Tabellen, die in Unity Catalog registriert sind, wurde erweitert, um
17. Mai 2023
- Es wurde eine Regression behoben, bei der
_metadata.file_path
und_metadata.file_name
falsch formatierte Zeichenfolgen zurückgaben. Beispielsweise wird jetzt ein Pfad mit Leerzeichen alss3://test-bucket/some%20directory/some%20data.csv
anstelle vons3://test-bucket/some directory/some data.csv
dargestellt. - Parquet-Scans sind jetzt stabil gegen OOMs beim Scannen außergewöhnlich strukturierter Dateien durch dynamische Anpassung der Batchgröße. Dateimetadaten werden analysiert, um die Batchgröße präventiv zu verringern und bei Vorgangsversuchen als endgültiges Sicherheitsnetz erneut zu verringern.
-
- Wenn eine Avro-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden.
- Wenn eine Avro-Datei nur mit der
- Autoloader macht jetzt Folgendes:
-
- Liest korrekt und rettet
Integer
-,Short
- undByte
-Typen nicht mehr, wenn einer dieser Datentypen angegeben wird, aber die Avro-Datei schlägt einen der beiden anderen Typen vor.
- Liest korrekt und rettet
-
- Verhindert das Lesen von Intervalltypen als Datums- oder Zeitstempeltypen, um fehlerhafte Datumsangaben zu vermeiden.
-
- Verhindert das Lesen von
Decimal
-Typen mit geringerer Genauigkeit.
- Verhindert das Lesen von
- [SPARK-43172] [CONNECT] Macht den Host und das Token vom Spark Connect-Client verfügbar.
- [SPARK-43293][SQL]
__qualified_access_only
wird in normalen Spalten ignoriert. - [SPARK-43098][SQL]
COUNT
-Korrektheitsfehler behoben, bei dem Skalarunterabfragen nach Klausel gruppiert wurden. - [SPARK-43085][SQL] Unterstützung der
DEFAULT
-Spaltenzuweisung für mehrteilige Tabellennamen. - [SPARK-43190][SQL]
ListQuery.childOutput
entspricht jetzt der sekundären Ausgabe. - [SPARK-43192] [CONNECT] Charsetüberprüfung des Benutzer-Agents wurde entfernt.
- Es wurde eine Regression behoben, bei der
25. April 2023
- Sie können eine Delta-Tabelle ändern, um Unterstützung für ein Delta-Tabellenfeature hinzuzufügen, indem Sie
DeltaTable.addFeatureSupport(feature_name)
verwenden. - Der
SYNC
-Befehl unterstützt jetzt Legacy-Datenquellenformate. - Es wurde ein Fehler behoben, bei dem die Verwendung des Python-Formatierungsprogramms vor dem Ausführen anderer Befehle in einem Python-Notebook dazu führen konnte, dass der Notebookpfad in
sys.path.
fehlt. - Azure Databricks unterstützt jetzt das Angeben von Standardwerten für Spalten von Delta-Tabellen.
INSERT
,UPDATE
,DELETE
, undMERGE
können mithilfe des explizitenDEFAULT
-Schlüsselwort auf den Standardwert einer Spalte verweisen. BeiINSERT
-Befehlen mit einer expliziten Liste mit weniger Spalten als die Zieltabelle werden die entsprechenden Spaltenstandardwerte durch die restlichen Spalten ersetzt (oderNULL
wenn kein Standardwert angegeben ist).
- Sie können eine Delta-Tabelle ändern, um Unterstützung für ein Delta-Tabellenfeature hinzuzufügen, indem Sie
Behebt einen Fehler, bei dem das Webterminal für einige Benutzer nicht für den Zugriff auf Dateien in
/Workspace
verwendet werden konnte.- Wenn eine Parquet-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden. - Autoloader liest jetzt korrekt und rettet
Integer
-,Short
- undByte
-Typen nicht mehr, wenn einer dieser Datentypen bereitgestellt wird. Die Parquet-Datei schlägt einen der beiden anderen Typen vor. Wenn die Spalte „Gerettete Daten“ zuvor aktiviert wurde, führte der Datentypkonflikt dazu, dass Spalten gerettet werden, obwohl sie lesbar waren. - Es wurde ein Fehler behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
- [SPARK-42794][SS] Erhöhen von lockAcquireTimeoutMs auf 2 Minuten, um den RocksDB-Zustandsspeicher in Structure Streaming zu erwerben.
- [SPARK-39221][SQL] Vertrauliche Informationen für die Registerkarte „Thrift-Serverauftrag/-stage“ ordnungsgemäß redigieren.
- [SPARK-42971][CORE]
workdir
drucken, wennappDirs
beim Workerhandleereignis „WorkDirCleanup
“ NULL ist. - [SPARK-42936][SQL] Beheben eines LCA-Fehlers, wenn die Having-Klausel direkt durch ihr untergeordnetes Aggregat aufgelöst werden kann.
- [SPARK-43018][SQL] Fehler für
INSERT
-Befehle mit Zeitstempelliteralen behoben. - Rückgängig gemacht: [SPARK-42754][SQL][UI] Problem mit der Abwärtskompatibilität bei geschachtelter SQL-Ausführung wurde behoben.
- Rückgängig gemacht: [SPARK-41498] [SC-119018] Weitergabe von Metadaten über Union.
- [SPARK-43038] [SQL] Unterstützung für GCM-Modus durch
aes_encrypt()
/aes_decrypt()
. - [SPARK-42928][SQL]
resolvePersistentFunction
sychronisieren. - [SPARK-42521][SQL]
NULL
-Werte fürINSERT
mit vom Benutzer angegebenen Listen mit weniger Spalten als die Zieltabelle hinzufügen. - [SPARK-41391][SQL] Der Name der Ausgabespalte von
groupBy.agg(count_distinct)
war falsch. - [SPARK-42548][SQL]
ReferenceAllColumns
hinzufügen, um das Umschreiben von Attributen zu überspringen. - [SPARK-42423][SQL] Start und Länge der Metadatenspaltendatei hinzufügen.
- [SPARK-42796][SQL] Unterstützung des Zugriffs auf
TimestampNTZ
-Spalten inCachedBatch
. - [SPARK-42266][PYTHON] Entfernen des übergeordnete Verzeichnisses in der shell.py-Ausführung, wenn IPython verwendet wird.
- [SPARK-43011][SQL]
array_insert
sollte mit 0 Index fehlschlagen. - [SPARK-41874][CONNECT][PYTHON] Unterstützung für
SameSemantics
in Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Unterstützung parametrisierter Abfragen in Unterabfragen und CTE.
- [SPARK-42967][CORE]
SparkListenerTaskStart.stageAttemptId
korrigieren, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde. - Updates der Betriebssystemsicherheit.
- Wenn eine Parquet-Datei nur mit der
Databricks Runtime 12.1 (EoS)
Siehe Databricks Runtime 12.1 (EoS).
23. Juni 2023
- Updates der Betriebssystemsicherheit.
15. Juni 2023
- Photonisiertes
approx_count_distinct
. - Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- [SPARK-43779][SQL]
ParseToDate
lädt jetztEvalMode
in den Hauptthread. - [SPARK-43156][SPARK-43098][SQL] Erweitern der skalaren Unterabfrage „count bug test“ mit decorrelateInnerQuery deaktiviert
- Updates der Betriebssystemsicherheit.
- Photonisiertes
2. Juni 2023
- Der JSON-Parser im
failOnUnknownFields
-Modus löscht einen Datensatz imDROPMALFORMED
-Modus und schlägt direkt imFAILFAST
-Modus fehl. - Verbesserung der Leistung der inkrementellen Aktualisierung mit
SHALLOW CLONE
Iceberg und Parquet. - Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
- [SPARK-43404][Backport] Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers überspringen, um ID-Fehler zu vermeiden.
- [SPARK-43413][11.3-13.0][SQL]
IN
NuLL-Zulässigkeit vonListQuery
-Unterabfragen behoben. - [SPARK-43522][SQL] Das Erstellen des Strukturspaltennamens mit dem Index des Arrays wurde behoben.
- [SPARK-42444][PYTHON]
DataFrame.drop
verarbeitet doppelte Spalten jetzt ordnungsgemäß. - [SPARK-43541][SQL] Verteilen aller
Project
-Tags beim Auflösen von Ausdrücken und fehlenden Spalten. - [SPARK-43340][CORE] Fehlendes Stapelablaufverfolgungsfeld in Ereignisprotokollen behoben.
- [SPARK-42937][SQL]
PlanSubqueries
legt jetztInSubqueryExec#shouldBroadcast
auf true fest. - [SPARK-43527][PYTHON]
catalog.listCatalogs
in PySpark behoben. - [SPARK-43378][CORE] Streamobjekte in
deserializeFromChunkedBuffer
ordnungsgemäß schließen.
- Der JSON-Parser im
17. Mai 2023
- Parquet-Scans sind jetzt stabil gegen OOMs beim Scannen außergewöhnlich strukturierter Dateien durch dynamische Anpassung der Batchgröße. Dateimetadaten werden analysiert, um die Batchgröße präventiv zu verringern und bei Vorgangsversuchen als endgültiges Sicherheitsnetz erneut zu verringern.
- Wenn eine Avro-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden. - Autoloader macht jetzt Folgendes:
-
- Liest korrekt und rettet
Integer
-,Short
- undByte
-Typen nicht mehr, wenn einer dieser Datentypen angegeben wird, aber die Avro-Datei schlägt einen der beiden anderen Typen vor.
- Liest korrekt und rettet
-
- Verhindert das Lesen von Intervalltypen als Datums- oder Zeitstempeltypen, um fehlerhafte Datumsangaben zu vermeiden.
-
- Verhindert das Lesen von
Decimal
-Typen mit geringerer Genauigkeit.
- Verhindert das Lesen von
- [SPARK-43098][SQL]
COUNT
-Korrektheitsfehler behoben, bei dem Skalarunterabfragen nach Klausel gruppiert wurden. - [SPARK-43190][SQL]
ListQuery.childOutput
entspricht jetzt der sekundären Ausgabe. - Updates der Betriebssystemsicherheit.
25. April 2023
- Wenn eine Parquet-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden. - Autoloader liest jetzt korrekt und rettet
Integer
-,Short
- undByte
-Typen nicht mehr, wenn einer dieser Datentypen bereitgestellt wird. Die Parquet-Datei schlägt einen der beiden anderen Typen vor. Wenn die Spalte „Gerettete Daten“ zuvor aktiviert wurde, führte der Datentypkonflikt dazu, dass Spalten gerettet werden, obwohl sie lesbar waren. - [SPARK-43009][SQL]
sql()
wurde mitAny
Konstanten parametrisiert. - [SPARK-42971][CORE]
workdir
drucken, wennappDirs
beim Workerhandleereignis „WorkDirCleanup
“ NULL ist. - Updates der Betriebssystemsicherheit.
- Wenn eine Parquet-Datei nur mit der
11. April 2023
- Unterstützung von Legacydatenquellformaten im SYNC-Befehl.
- Behebt einen Fehler beim %autoreload-Verhalten in Notebooks, die sich außerhalb eines Repositorys befinden.
- Es wurde ein Fehler behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
- [SPARK-42928][SQL] Sychronisiert
resolvePersistentFunction
. - [SPARK-42967][CORE] Behebt
SparkListenerTaskStart.stageAttemptId
, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde. - Updates der Betriebssystemsicherheit.
29. März 2023
- Autoloader löst jetzt mindestens eine synchrone RocksDB-Protokollbereinigung für
Trigger.AvailableNow
-Streams aus, um sicherzustellen, dass der Prüfpunkt regelmäßig für schnell ausgeführte Autoloader-Streams bereinigt werden kann. Dadurch können einige Streams mehr Zeit in Anspruch nehmen, bevor sie heruntergefahren werden, aber Sie sparen Speicherkosten und verbessern die Benutzeroberfläche des automatischen Ladevorgangs in zukünftigen Ausführungen. - Sie können jetzt eine Delta-Tabelle ändern, um die Unterstützung für Tabellenfeatures hinzuzufügen, indem Sie verwenden
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Unterstützung parametrisierter Abfragen in Unterabfragen und CTE
- [SPARK-41162][SQL] Korrigieren von Anti- und Semi-Join für Self-Join mit Aggregationen
- [SPARK-42403][CORE] JsonProtocol sollte JSON-Zeichenfolgen mit NULL verarbeiten
- [SPARK-42668][SS] Ausnahmeerfassung beim Versuch, den komprimierten Datenstrom im HDFSStateStoreProvider-Abbruch zu schließen
- [SPARK-42794][SS] Erhöhen von lockAcquireTimeoutMs auf 2 Minuten, um den RocksDB-Zustandsspeicher in Structure Streaming zu erwerben
- Autoloader löst jetzt mindestens eine synchrone RocksDB-Protokollbereinigung für
14. März 2023
- Es gibt eine Terminologieänderung für das Hinzufügen von Funktionen zu einer Delta-Tabelle mithilfe der table-Eigenschaft. Die bevorzugte Syntax ist jetzt
'delta.feature.featureName'='supported'
anstelle von'delta.feature.featureName'='enabled'
. Aus Gründen der Abwärtskompatibilität funktioniert'delta.feature.featureName'='enabled'
weiterhin, und das wird auch so bleiben. - [SPARK-42622][CORE] Das Ersetzen von Werten deaktivieren
- [SPARK-42534][SQL] Korrigieren der Db2Dialect Limit-Klausel
- [SPARK-42635][SQL] Korrigieren des TimestampAdd-Ausdrucks.
- [SPARK-42516][SQL] Beim Erstellen von Ansichten immer die Sitzungszeitzonenkonfiguration erfassen
- [SPARK-42484] [SQL] UnsafeRowUtils bessere Fehlermeldung
- [SPARK-41793][SQL] Falsches Ergebnis für Fensterrahmen, die durch eine Bereichsklausel für große Dezimalstellen definiert sind
- Updates der Betriebssystemsicherheit.
- Es gibt eine Terminologieänderung für das Hinzufügen von Funktionen zu einer Delta-Tabelle mithilfe der table-Eigenschaft. Die bevorzugte Syntax ist jetzt
24. Februar 2023
- Sie können jetzt einen einheitlichen Satz von Optionen (
host
,port
,database
,user
,password
) verwenden, um eine Verbindung mit den im Abfrageverbund unterstützten Datenquellen herzustellen (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Beachten Sie, dassport
optional ist und die Standardportnummer für jede Datenquelle verwendet, falls nicht anders angegeben.
Beispiel für die PostgreSQL-Verbindungskonfiguration
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Beispiel für die Snowflake-Verbindungskonfiguration
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] Vermeiden, dass die Protokollierungskonfiguration von pyspark.pandas unterbrochen wird
- [SPARK-42346][SQL] Unterschiedliche Aggregate nach dem Zusammenführen von Unterabfragen erneut generieren
- [SPARK-41990][SQL] Verwenden von
FieldReference.column
anstelle vonapply
für die Filterkonvertierung von V1 zu V2 - Wiederherstellen „[SPARK-41848][CORE] Beheben eines überplanmäßigen Vorgangs mit TaskResourceProfile.“
- [SPARK-42162] Einführen eines MultiCommutativeOp-Ausdrucks als Speicheroptimierung zum Kanonisieren großer Strukturen von kommutativen Ausdrücken
- Updates der Betriebssystemsicherheit.
- Sie können jetzt einen einheitlichen Satz von Optionen (
16. Februar 2023
- Der SYNC-Befehl unterstützt die Synchronisierung neu erstellter Hive-Metastore-Tabellen. Wenn eine HMS-Tabelle zuvor in Unity Catalog synchronisiert, dann aber gelöscht und neu erstellt wurde, funktioniert eine nachfolgende erneute Synchronisierung, anstatt dass der Statuscode „TABLE_ALREADY_EXISTS“ ausgelöst wird.
- [SPARK-41219][SQL] IntegralDivide verwendet Dezimal (1, 0) zur Darstellung von 0
- [SPARK-36173][CORE] Unterstützung des Abrufens der CPU-Nummer in TaskContext
- [SPARK-41848][CORE] Beheben eines überplanmäßigen Vorgangs mit TaskResourceProfile
- [SPARK-42286][SQL] Fallback auf den vorherigen Codegencodepfad für komplexe Expr mit CAST
31. Januar 2023
- Zum Erstellen eines Schemas mit einem definierten Speicherort muss der Benutzer jetzt über SELECT- und MODIFY-Berechtigungen für ALLE DATEIEN verfügen.
- [SPARK-41581][SQL] Name für _LEGACY_ERROR_TEMP_1230 zuweisen
- [SPARK-41996][SQL][SS] Korrigieren des Kafka-Tests, um verlorene Partitionen zu überprüfen und langsame Kafka-Vorgänge zu berücksichtigen
- [SPARK-41580][SQL] Name für _LEGACY_ERROR_TEMP_2137 zuweisen
- [SPARK-41666][PYTHON] Unterstützung parametrisierter SQL durch
sql()
- [SPARK-41579][SQL] Name für _LEGACY_ERROR_TEMP_1249 zuweisen
- [SPARK-41573][SQL] Name für _LEGACY_ERROR_TEMP_2136 zuweisen
- [SPARK-41574][SQL] Name für _LEGACY_ERROR_TEMP_2009 zuweisen
- [SPARK-41049][Followup] Korrigieren einer Codesynchronisierungsregression für ConvertToLocalRelation
- [SPARK-41576][SQL] Name für _LEGACY_ERROR_TEMP_2051 zuweisen
- [SPARK-41572][SQL] Name für _LEGACY_ERROR_TEMP_2149 zuweisen
- [SPARK-41575][SQL] Name für _LEGACY_ERROR_TEMP_2054 zuweisen
- Updates der Betriebssystemsicherheit.
Databricks Runtime 12.0 (EoS)
Siehe Databricks Runtime 12.0 (EoS).
15. Juni 2023
- Photonisiertes
approx_count_distinct
. - Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- [SPARK-43156][SPARK-43098][SQL] Erweitern der skalaren Unterabfrage „count bug test“ mit decorrelateInnerQuery deaktiviert
- [SPARK-43779][SQL]
ParseToDate
lädt jetztEvalMode
in den Hauptthread. - Updates der Betriebssystemsicherheit.
- Photonisiertes
2. Juni 2023
- Der JSON-Parser im
failOnUnknownFields
-Modus löscht einen Datensatz imDROPMALFORMED
-Modus und schlägt direkt imFAILFAST
-Modus fehl. - Verbesserung der Leistung der inkrementellen Aktualisierung mit
SHALLOW CLONE
Iceberg und Parquet. - Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
- [SPARK-42444][PYTHON]
DataFrame.drop
verarbeitet doppelte Spalten jetzt ordnungsgemäß. - [SPARK-43404][Backport] Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers überspringen, um ID-Fehler zu vermeiden.
- [SPARK-43413][11.3-13.0][SQL]
IN
NuLL-Zulässigkeit vonListQuery
-Unterabfragen behoben. - [SPARK-43527][PYTHON]
catalog.listCatalogs
in PySpark behoben. - [SPARK-43522][SQL] Das Erstellen des Strukturspaltennamens mit dem Index des Arrays wurde behoben.
- [SPARK-43541][SQL] Verteilen aller
Project
-Tags beim Auflösen von Ausdrücken und fehlenden Spalten. - [SPARK-43340][CORE] Fehlendes Stapelablaufverfolgungsfeld in Ereignisprotokollen behoben.
- [SPARK-42937][SQL]
PlanSubqueries
legtInSubqueryExec#shouldBroadcast
auf „true“ fest.
- Der JSON-Parser im
17. Mai 2023
- Parquet-Scans sind jetzt stabil gegen OOMs beim Scannen außergewöhnlich strukturierter Dateien durch dynamische Anpassung der Batchgröße. Dateimetadaten werden analysiert, um die Batchgröße präventiv zu verringern und bei Vorgangsversuchen als endgültiges Sicherheitsnetz erneut zu verringern.
- Wenn eine Avro-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden. - Autoloader macht jetzt Folgendes:
-
- Liest korrekt und rettet
Integer
-,Short
- undByte
-Typen nicht mehr, wenn einer dieser Datentypen angegeben wird, aber die Avro-Datei schlägt einen der beiden anderen Typen vor.
- Liest korrekt und rettet
-
- Verhindert das Lesen von Intervalltypen als Datums- oder Zeitstempeltypen, um fehlerhafte Datumsangaben zu vermeiden.
-
- Verhindert das Lesen von
Decimal
-Typen mit geringerer Genauigkeit.
- Verhindert das Lesen von
- [SPARK-43172] [CONNECT] Macht den Host und das Token vom Spark Connect-Client verfügbar.
- [SPARK-41520][SQL] Aufteilen des
AND_OR
-Strukturmusters , umAND
undOR
zu trennen. - [SPARK-43098][SQL]
COUNT
-Korrektheitsfehler behoben, bei dem Skalarunterabfragen nach Klausel gruppiert wurden. - [SPARK-43190][SQL]
ListQuery.childOutput
entspricht jetzt der sekundären Ausgabe. - Updates der Betriebssystemsicherheit.
25. April 2023
- Wenn eine Parquet-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden. - Autoloader liest jetzt korrekt und rettet
Integer
-,Short
- undByte
-Typen nicht mehr, wenn einer dieser Datentypen bereitgestellt wird. Die Parquet-Datei schlägt einen der beiden anderen Typen vor. Wenn die Spalte „Gerettete Daten“ zuvor aktiviert wurde, führte der Datentypkonflikt dazu, dass Spalten gerettet werden, obwohl sie lesbar waren. - [SPARK-42971][CORE]
workdir
drucken, wennappDirs
beim Workerhandleereignis „WorkDirCleanup
“ NULL ist - Updates der Betriebssystemsicherheit.
- Wenn eine Parquet-Datei nur mit der
11. April 2023
- Unterstützung von Legacydatenquellenformaten im
SYNC
-Befehl. - Behebt einen Fehler beim %autoreload-Verhalten in Notebooks, die sich außerhalb eines Repositorys befinden.
- Es wurde ein Fehler behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
- [SPARK-42928][SQL] Sychronisiert
resolvePersistentFunction
. - [SPARK-42967][CORE] Behebt
SparkListenerTaskStart.stageAttemptId
, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde. - Updates der Betriebssystemsicherheit.
- Unterstützung von Legacydatenquellenformaten im
29. März 2023
- [SPARK-42794][SS] Erhöhen von lockAcquireTimeoutMs auf 2 Minuten, um den RocksDB-Zustandsspeicher in Structure Streaming zu erwerben
- [SPARK-41162][SQL] Korrigieren von Anti- und Semi-Join für Self-Join mit Aggregationen
- [SPARK-42403][CORE] JsonProtocol sollte JSON-Zeichenfolgen mit NULL verarbeiten
- [SPARK-42668][SS] Ausnahmeerfassung beim Versuch, den komprimierten Datenstrom im HDFSStateStoreProvider-Abbruch zu schließen
- Verschiedene Fehlerbehebungen
14. März 2023
- [SPARK-42534][SQL] Korrigieren der Db2Dialect Limit-Klausel
- [SPARK-42622][CORE] Das Ersetzen von Werten deaktivieren
- [SPARK-41793][SQL] Falsches Ergebnis für Fensterrahmen, die durch eine Bereichsklausel für große Dezimalstellen definiert sind
- [SPARK-42484] [SQL] UnsafeRowUtils bessere Fehlermeldung
- [SPARK-42635][SQL] Korrigieren des TimestampAdd-Ausdrucks.
- [SPARK-42516][SQL] Beim Erstellen von Ansichten immer die Sitzungszeitzonenkonfiguration erfassen
- Updates der Betriebssystemsicherheit.
24. Februar 2023
Standardisierte Verbindungsoptionen für den Abfrageverbund
Sie können jetzt einen einheitlichen Satz von Optionen (
host
,port
,database
,user
,password
) verwenden, um eine Verbindung mit den im Abfrageverbund unterstützten Datenquellen herzustellen (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Beachten Sie, dassport
optional ist und die Standardportnummer für jede Datenquelle verwendet, falls nicht anders angegeben.Beispiel für die PostgreSQL-Verbindungskonfiguration
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Beispiel für die Snowflake-Verbindungskonfiguration
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
Wiederherstellen „[SPARK-41848][CORE] Beheben eines überplanmäßigen Vorgangs mit TaskResourceProfile.“
[SPARK-42162] Einführen eines MultiCommutativeOp-Ausdrucks als Speicheroptimierung zum Kanonisieren großer Strukturen von kommutativen Ausdrücken
[SPARK-41990][SQL] Verwenden von
FieldReference.column
anstelle vonapply
für die Filterkonvertierung von V1 zu V2[SPARK-42346][SQL] Unterschiedliche Aggregate nach dem Zusammenführen von Unterabfragen erneut generieren
Updates der Betriebssystemsicherheit.
16. Februar 2023
- Benutzer können jetzt mithilfe von Databricks Runtime 9.1 oder höher bestimmte Delta-Tabellen lesen und schreiben, die Readerversion 3 und Writerversion 7 erfordern. Um erfolgreich zu sein, müssen Tabellenfunktionen, die im Tabellenprotokoll aufgeführt sind, von der aktuellen Version von Databricks Runtime unterstützt werden.
- Der SYNC-Befehl unterstützt die Synchronisierung neu erstellter Hive-Metastore-Tabellen. Wenn eine HMS-Tabelle zuvor in Unity Catalog synchronisiert, dann aber gelöscht und neu erstellt wurde, funktioniert eine nachfolgende erneute Synchronisierung, anstatt dass der Statuscode „TABLE_ALREADY_EXISTS“ ausgelöst wird.
- [SPARK-36173][CORE] Unterstützung des Abrufens der CPU-Nummer in TaskContext
- [SPARK-42286][SQL] Fallback auf den vorherigen Codegencodepfad für komplexe Expr mit CAST
- [SPARK-41848][CORE] Beheben eines überplanmäßigen Vorgangs mit TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide verwendet Dezimal (1, 0) zur Darstellung von 0
25. Januar 2023
- [SPARK-41660][SQL] Metadatenspalten nur weitergeben, wenn sie verwendet werden
- [SPARK-41379][SS][PYTHON] Bereitstellen einer geklonten Spark-Sitzung in DataFrame in der Benutzerfunktion für die foreachBatch-Senke in PySpark
- [SPARK-41669][SQL] Frühe Bereinigung in canCollapseExpressions
- Updates der Betriebssystemsicherheit.
18. Januar 2023
- Der SQL-Befehl
REFRESH FUNCTION
unterstützt jetzt SQL-Funktionen und SQL-Tabellenfunktionen. Der Befehl kann beispielsweise verwendet werden, um eine persistente SQL-Funktion zu aktualisieren, die in einer anderen SQL-Sitzung aktualisiert wurde. - Die JDBC-Datenquelle v1 (Java Database Connectivity) unterstützt jetzt Pushdown für die LIMIT-Klausel, um die Leistung in Abfragen zu verbessern. Dieses Feature ist standardmäßig aktiviert und kann durch Festlegen von
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
auffalse
deaktiviert werden. - In Clustern mit Legacy-Tabellen-ACLs ist jetzt die Berechtigung
MODIFY_CLASSPATH
erforderlich, um Funktionen mit Verweis auf JVM-Klassen erstellen zu können. - Die JDBC-Datenquelle v1 (Java Database Connectivity) unterstützt jetzt Pushdown für die LIMIT-Klausel, um die Leistung in Abfragen zu verbessern. Dieses Feature ist standardmäßig aktiviert und kann durch Festlegen von „spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled“ auf „false“ deaktiviert werden.
- Azure Synapse Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - Strukturiertes Spark-Streaming kann jetzt mit „format(“deltasharing”)“ für eine Deltafreigabetabelle als Quelle verwendet werden.
- [SPARK-38277][SS] Löschen des Schreibbatchs nach dem Commit des RocksDB-Zustandsspeichers
- [SPARK-41733][SQL][SS] Anwenden der baumstrukturbasierten Bereinigung für die Regel „ResolveWindowTime“
- [SPARK-39591][SS] Asynchrone Fortschrittsverfolgung
- [SPARK-41339][SQL] Schließen und Neuerstellen des RocksDB-Schreibbatchs (anstatt nur Löschen)
- [SPARK-41198][SS] Korrektur von Metriken in Streamingabfragen mit CTE- und DSv1-Streamingquelle
- [SPARK-41539][SQL] Neuzuordnen von Statistiken und Einschränkungen für die Ausgabe im logischen Plan für „LogicalRDD“
- [SPARK-41732][SQL][SS] Anwenden der baumstrukturbasierten Bereinigung für die Regel „SessionWindowing“
- [SPARK-41862][SQL] Beheben des Korrektheitsfehlers im Zusammenhang mit STANDARDWERTEN im ORC-Leser
- [SPARK-41199][SS] Beheben des Metrikproblems, wenn DSv1- und DSv2-Streamingquelle gemeinsam verwendet werden
- [SPARK-41261][PYTHON][SS] Korrigieren eines Problems für „applyInPandasWithState“, wenn die Spalten von Gruppierungsschlüsseln nicht aufsteigend nach Alter sortiert platziert wurden
- Updates der Betriebssystemsicherheit.
- Der SQL-Befehl
17. Mai 2023
- Parquet-Scans sind jetzt stabil gegen OOMs beim Scannen außergewöhnlich strukturierter Dateien durch dynamische Anpassung der Batchgröße. Dateimetadaten werden analysiert, um die Batchgröße präventiv zu verringern und bei Vorgangsversuchen als endgültiges Sicherheitsnetz erneut zu verringern.
- Es wurde eine Regression behoben, die dazu führte, dass Azure Databricks-Aufträge beibehalten wurden, nachdem während der Clusterinitialisierung keine Verbindung mit dem Metastore hergestellt werden konnte.
- [SPARK-41520][SQL] Aufteilen des
AND_OR
-Strukturmusters , umAND
undOR
zu trennen. - [SPARK-43190][SQL]
ListQuery.childOutput
entspricht jetzt der sekundären Ausgabe. - Updates der Betriebssystemsicherheit.
25. April 2023
- Wenn eine Parquet-Datei nur mit der
failOnUnknownFields
-Option oder mit Autoloader imfailOnNewColumns
-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen alsnull
gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, dierescuedDataColumn
-Option zu verwenden. - Autoloader liest jetzt korrekt und rettet
Integer
-,Short
- undByte
-Typen nicht mehr, wenn einer dieser Datentypen bereitgestellt wird. Die Parquet-Datei schlägt einen der beiden anderen Typen vor. Wenn die Spalte „Gerettete Daten“ zuvor aktiviert wurde, führte der Datentypkonflikt dazu, dass Spalten gerettet werden, obwohl sie lesbar waren. - [SPARK-42937][SQL]
PlanSubqueries
legt jetztInSubqueryExec#shouldBroadcast
auf true fest. - Updates der Betriebssystemsicherheit.
- Wenn eine Parquet-Datei nur mit der
11. April 2023
- Unterstützung von Legacydatenquellformaten im SYNC-Befehl.
- Behebt einen Fehler beim %autoreload-Verhalten in Notebooks, die sich außerhalb eines Repositorys befinden.
- Es wurde ein Fehler behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
- [SPARK-42928][SQL] Synchronisieren von resolvePersistentFunction.
- [SPARK-42967][CORE] Korrigieren von SparkListenerTaskStart.stageAttemptId, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde.
29. März 2023
- [SPARK-42794][SS] Erhöhen von lockAcquireTimeoutMs auf 2 Minuten, um den RocksDB-Zustandsspeicher in Structure Streaming zu erwerben
- [SPARK-42403][CORE] JsonProtocol sollte JSON-Zeichenfolgen mit NULL verarbeiten
- [SPARK-42668][SS] Ausnahmeerfassung beim Versuch, den komprimierten Datenstrom im HDFSStateStoreProvider-Abbruch zu schließen
- Updates der Betriebssystemsicherheit.
14. März 2023
- [SPARK-42635][SQL] Korrigieren des TimestampAdd-Ausdrucks.
- [SPARK-41793][SQL] Falsches Ergebnis für Fensterrahmen, die durch eine Bereichsklausel für große Dezimalstellen definiert sind
- [SPARK-42484] [SQL] UnsafeRowUtils bessere Fehlermeldung
- [SPARK-42534][SQL] Korrigieren der Db2Dialect Limit-Klausel
- [SPARK-41162][SQL] Korrigieren von Anti- und Semi-Join für Self-Join mit Aggregationen
- [SPARK-42516][SQL] Beim Erstellen von Ansichten immer die Sitzungszeitzonenkonfiguration erfassen
- Verschiedene Fehlerbehebungen
28. Februar 2023
Standardisierte Verbindungsoptionen für den Abfrageverbund
Sie können jetzt einen einheitlichen Satz von Optionen (
host
,port
,database
,user
,password
) verwenden, um eine Verbindung mit den im Abfrageverbund unterstützten Datenquellen herzustellen (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Beachten Sie, dassport
optional ist und die Standardportnummer für jede Datenquelle verwendet, falls nicht anders angegeben.Beispiel für die PostgreSQL-Verbindungskonfiguration
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Beispiel für die Snowflake-Verbindungskonfiguration
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] Fallback auf den vorherigen Codegencodepfad für komplexe Expr mit CAST
[SPARK-41989][PYTHON] Vermeiden, dass die Protokollierungskonfiguration von pyspark.pandas unterbrochen wird
[SPARK-42346][SQL] Unterschiedliche Aggregate nach dem Zusammenführen von Unterabfragen erneut generieren
[SPARK-41360][CORE] Erneute Registrierung von BlockManager vermeiden, wenn der Executor verloren gegangen ist
[SPARK-42162] Einführen eines MultiCommutativeOp-Ausdrucks als Speicheroptimierung zum Kanonisieren großer Strukturen von kommutativen Ausdrücken
[SPARK-41990][SQL] Verwenden von
FieldReference.column
anstelle vonapply
für die Filterkonvertierung von V1 zu V2Updates der Betriebssystemsicherheit.
16. Februar 2023
- Benutzer können jetzt mithilfe von Databricks Runtime 9.1 oder höher bestimmte Delta-Tabellen lesen und schreiben, die Readerversion 3 und Writerversion 7 erfordern. Um erfolgreich zu sein, müssen Tabellenfunktionen, die im Tabellenprotokoll aufgeführt sind, von der aktuellen Version von Databricks Runtime unterstützt werden.
- Der SYNC-Befehl unterstützt die Synchronisierung neu erstellter Hive-Metastore-Tabellen. Wenn eine HMS-Tabelle zuvor in Unity Catalog synchronisiert, dann aber gelöscht und neu erstellt wurde, funktioniert eine nachfolgende erneute Synchronisierung, anstatt dass der Statuscode „TABLE_ALREADY_EXISTS“ ausgelöst wird.
- [SPARK-41219][SQL] IntegralDivide verwendet Dezimal (1, 0) zur Darstellung von 0
- [SPARK-40382][SQL] Gruppieren unterschiedlicher Aggregatausdrücke nach semantisch gleichwertigen untergeordneten Ausdrücken in
RewriteDistinctAggregates
- Updates der Betriebssystemsicherheit.
25. Januar 2023
- [SPARK-41379][SS][PYTHON] Bereitstellen einer geklonten Spark-Sitzung in DataFrame in der Benutzerfunktion für die foreachBatch-Senke in PySpark
- [SPARK-41660][SQL] Metadatenspalten nur weitergeben, wenn sie verwendet werden
- [SPARK-41669][SQL] Frühe Bereinigung in canCollapseExpressions
- Verschiedene Fehlerbehebungen
18. Januar 2023
- Der SQL-Befehl
REFRESH FUNCTION
unterstützt jetzt SQL-Funktionen und SQL-Tabellenfunktionen. Der Befehl kann beispielsweise verwendet werden, um eine persistente SQL-Funktion zu aktualisieren, die in einer anderen SQL-Sitzung aktualisiert wurde. - Die JDBC-Datenquelle v1 (Java Database Connectivity) unterstützt jetzt Pushdown für die LIMIT-Klausel, um die Leistung in Abfragen zu verbessern. Dieses Feature ist standardmäßig aktiviert und kann durch Festlegen von
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
auffalse
deaktiviert werden. - Die JDBC-Datenquelle v1 (Java Database Connectivity) unterstützt jetzt Pushdown für die LIMIT-Klausel, um die Leistung in Abfragen zu verbessern. Dieses Feature ist standardmäßig aktiviert und kann durch Festlegen von „spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled“ auf „false“ deaktiviert werden.
- Azure Synapse Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Korrektur von Metriken in Streamingabfragen mit CTE- und DSv1-Streamingquelle
- [SPARK-41862][SQL] Beheben des Korrektheitsfehlers im Zusammenhang mit STANDARDWERTEN im ORC-Leser
- [SPARK-41539][SQL] Neuzuordnen von Statistiken und Einschränkungen für die Ausgabe im logischen Plan für „LogicalRDD“
- [SPARK-39591][SS] Asynchrone Fortschrittsverfolgung
- [SPARK-41199][SS] Beheben des Metrikproblems, wenn DSv1- und DSv2-Streamingquelle gemeinsam verwendet werden
- [SPARK-41261][PYTHON][SS] Korrigieren eines Problems für „applyInPandasWithState“, wenn die Spalten von Gruppierungsschlüsseln nicht aufsteigend nach Alter sortiert platziert wurden
- [SPARK-41339][SQL] Schließen und Neuerstellen des RocksDB-Schreibbatchs (anstatt nur Löschen)
- [SPARK-41732][SQL][SS] Anwenden der baumstrukturbasierten Bereinigung für die Regel „SessionWindowing“
- [SPARK-38277][SS] Löschen des Schreibbatchs nach dem Commit des RocksDB-Zustandsspeichers
- Updates der Betriebssystemsicherheit.
- Der SQL-Befehl
29. November 2022
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
- Wenn
csvignoreleadingwhitespace
auftrue
festgelegt ist, entfernt dies führende Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
. - Wenn
csvignoretrailingwhitespace
auftrue
festgelegt ist, entfernt dies nachgestellte Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
.
- Wenn
- Ein Fehler bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (
cloudFiles.inferColumnTypes
nicht festgelegt oder auffalse
festgelegt) und der JSON-Code geschachtelte Objekte enthielt. - Führen Sie ein Upgrade der Abhängigkeit von
snowflake-jdbc
auf Version 3.13.22 durch. - Tabellentypen von JDBC-Tabellen sind jetzt standardmäßig EXTERNAL.
- [SPARK-40906][SQL]
Mode
sollte Schlüssel vor dem Einfügen in die Zuordnung kopieren - Updates der Betriebssystemsicherheit.
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
15. November 2022
- Tabellen-ACLs und UC Shared-Cluster ermöglichen jetzt die Dataset.toJSON-Methode aus Python.
- [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um das verbesserte Verhalten zu nutzen, legen Sie
spark.sql.json.enablePartialResults
auftrue
fest. Das Flag ist standardmäßig deaktiviert, um das ursprüngliche Verhalten beizubehalten - [SPARK-40903][SQL] Vermeidet eine Neuordnung der dezimalen Addition für die Kanonisierung, wenn der Datentyp geändert wird
- [SPARK-40618][SQL] Fehler in der MergeScalarSubqueries-Regel mit geschachtelten Unterabfragen mithilfe der Verweisnachverfolgung wurden behoben
- [SPARK-40697][SQL] Ein schreibseitiger Zeichenabstand zum Abdecken externer Datendateien wurde hinzugefügt
- Updates der Betriebssystemsicherheit.
1. November 2022
- Strukturiertes Streaming in Unity Catalog unterstützt jetzt das Aktualisieren temporärer Zugriffstoken. Streamingworkloads, die mit Unity Catalog alle Zweck- oder Auftragscluster ausgeführt werden, schlagen nach dem ersten Tokenablauf nicht mehr fehl.
- Ein Problem wurde behoben, bei dem, wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
_change_type
hatte, aber Change data feed für diese Tabelle deaktiviert war, die Daten in dieser Spalte fälschlicherweise mit NULL-Werten gefüllt wurden, wennMERGE
ausgeführt wurde. - Es wurde ein Problem behoben, bei dem das Ausführen
MERGE
und Verwenden von genau 99 Spalten aus der Quelle in der Bedingung zujava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
führen konnte. - Es wurde ein Problem mit dem Autoloader behoben, bei dem eine Datei in demselben Mikrobatch dupliziert werden konnte, wenn
allowOverwrites
aktiviert war. - Apache commons-text wurde auf 1.10.0 aktualisiert.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Unterstützung für CloudWatch MetricsLevel-Konfiguration wurde hinzugefügt
- [SPARK-40596][CORE] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf
- [SPARK-40670][SS][PYTHON] NPE in applyInPandasWithState, wenn das Eingabeschema „non-nullable“ Spalte(n) hat, wurde behoben
- Updates der Betriebssystemsicherheit.
Databricks Runtime 11.2 (EoS)
Siehe Databricks Runtime 11.2 (EoS).
- 28. Februar 2023
- [SPARK-42286][SQL] Fallback auf den vorherigen Codegencodepfad für komplexe Expr mit CAST
- [SPARK-42346][SQL] Unterschiedliche Aggregate nach dem Zusammenführen von Unterabfragen erneut generieren
- Updates der Betriebssystemsicherheit.
- 16. Februar 2023
- Benutzer können jetzt mithilfe von Databricks Runtime 9.1 oder höher bestimmte Delta-Tabellen lesen und schreiben, die Readerversion 3 und Writerversion 7 erfordern. Um erfolgreich zu sein, müssen Tabellenfunktionen, die im Tabellenprotokoll aufgeführt sind, von der aktuellen Version von Databricks Runtime unterstützt werden.
- Der SYNC-Befehl unterstützt die Synchronisierung neu erstellter Hive-Metastore-Tabellen. Wenn eine HMS-Tabelle zuvor in Unity Catalog synchronisiert, dann aber gelöscht und neu erstellt wurde, funktioniert eine nachfolgende erneute Synchronisierung, anstatt dass der Statuscode „TABLE_ALREADY_EXISTS“ ausgelöst wird.
- [SPARK-41219][SQL] IntegralDivide verwendet Dezimal (1, 0) zur Darstellung von 0
- Updates der Betriebssystemsicherheit.
- 31. Januar 2023
- Tabellentypen von JDBC-Tabellen sind jetzt standardmäßig EXTERNAL.
- [SPARK-41379][SS][PYTHON] Bereitstellen einer geklonten Spark-Sitzung in DataFrame in der Benutzerfunktion für die foreachBatch-Senke in PySpark
- 18. Januar 2023
- Azure Synapse Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Korrektur von Metriken in Streamingabfragen mit CTE- und DSv1-Streamingquelle
- [SPARK-41862][SQL] Beheben des Korrektheitsfehlers im Zusammenhang mit STANDARDWERTEN im ORC-Leser
- [SPARK-41539][SQL] Neuzuordnen von Statistiken und Einschränkungen für die Ausgabe im logischen Plan für „LogicalRDD“
- [SPARK-41199][SS] Beheben des Metrikproblems, wenn DSv1- und DSv2-Streamingquelle gemeinsam verwendet werden
- [SPARK-41339][SQL] Schließen und Neuerstellen des RocksDB-Schreibbatchs (anstatt nur Löschen)
- [SPARK-41732][SQL][SS] Anwenden der baumstrukturbasierten Bereinigung für die Regel „SessionWindowing“
- [SPARK-38277][SS] Löschen des Schreibbatchs nach dem Commit des RocksDB-Zustandsspeichers
- Updates der Betriebssystemsicherheit.
- Azure Synapse Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben:
- 29. November 29 2022
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
- Wenn
csvignoreleadingwhitespace
auftrue
festgelegt ist, entfernt dies führende Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
. - Wenn
csvignoretrailingwhitespace
auftrue
festgelegt ist, entfernt dies nachgestellte Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
.
- Wenn
- Ein Fehler bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (
cloudFiles.inferColumnTypes
nicht festgelegt oder auffalse
festgelegt) und der JSON-Code geschachtelte Objekte enthielt. - [SPARK-40906][SQL]
Mode
sollte Schlüssel vor dem Einfügen in die Zuordnung kopieren - Updates der Betriebssystemsicherheit.
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
- 15. November 2022
- [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um das verbesserte Verhalten zu nutzen, legen Sie
spark.sql.json.enablePartialResults
auftrue
fest. Das Flag ist standardmäßig deaktiviert, um das ursprüngliche Verhalten beizubehalten - [SPARK-40618][SQL] Fehler in der MergeScalarSubqueries-Regel mit geschachtelten Unterabfragen mithilfe der Verweisnachverfolgung wurden behoben
- [SPARK-40697][SQL] Ein schreibseitiger Zeichenabstand zum Abdecken externer Datendateien wurde hinzugefügt
- Updates der Betriebssystemsicherheit.
- [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um das verbesserte Verhalten zu nutzen, legen Sie
- 1. November 2022
- Apache commons-text wurde auf 1.10.0 aktualisiert.
- Ein Problem wurde behoben, bei dem, wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
_change_type
hatte, aber Change data feed für diese Tabelle deaktiviert war, die Daten in dieser Spalte fälschlicherweise mit NULL-Werten gefüllt wurden, wennMERGE
ausgeführt wurde. - Es wurde ein Problem behoben, bei dem das Ausführen
MERGE
und Verwenden von genau 99 Spalten aus der Quelle in der Bedingung zujava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
führen konnte. - Es wurde ein Problem mit dem Autoloader behoben, bei dem eine Datei in demselben Mikrobatch dupliziert werden konnte, wenn
allowOverwrites
aktiviert war - [SPARK-40596][CORE] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf
- Updates der Betriebssystemsicherheit.
- 19. Oktober 2022
- Es wurde ein Problem mit der COPY INTO-Verwendung mit temporären Anmeldeinformationen für Unity Catalog-fähige Cluster/Warehouses behoben.
- [SPARK-40213][SQL] Unterstützung der ASCII-Wertkonvertierung für Lateinisch-1-Zeichen
- Updates der Betriebssystemsicherheit.
- 5. Oktober 2022
- Benutzer können „spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")“ festlegen, um das native Listing für Autoloader in ADLS Gen2 erneut zu aktivieren. Natives Listing wurde zuvor aufgrund von Leistungsproblemen deaktiviert, kann aber zu einer Erhöhung der Speicherkosten für Kunden geführt haben. Diese Änderung wurde in DBR 10.4 und 9.1 im vorherigen Wartungsupdate eingeführt.
- [SPARK-40315] [SQL] Unterstützung von Codierung/Decodierung der URL als integrierte Funktion und Aufräumen URL-bezogener Funktionen
- [SPARK-40156][SQL]
url_decode()
sollte eine Fehlerklasse zurückgeben - [SPARK-40169] Kein Pushdown von Parquet-Filtern ohne Verweis auf das Datenschema
- [SPARK-40460][SS] Korrigieren von Streamingmetriken beim Auswählen von
_metadata
- [SPARK-40468][SQL] Korrigieren der Spaltenbereinigung in CSV, wenn _corrupt_record ausgewählt ist
- [SPARK-40055][SQL] listCatalogs sollte auch spark_catalog zurückgeben, selbst wenn die spark_catalog-Implementierung defaultSessionCatalog ist
- Updates der Betriebssystemsicherheit.
- 22. September 2022
- [SPARK-40315][SQL] Hinzufügen von hashCode() für Literal von ArrayBasedMapData
- [SPARK-40389][SQL] Kein Upcast von Dezimalstellen als integrale Typen möglich, wenn die Umwandlung überlaufen kann
- [SPARK-40380][SQL] Korrektur der Konstantenfaltung von InvokeLike, um in den Plan eingebettete nicht serialisierbare Literale zu vermeiden
- [SPARK-40066][SQL][FOLLOW-UP] Überprüfen, ob ElementAt aufgelöst wird, bevor sein dataType abgerufen wird
- [SPARK-40109] [SQL] Neue SQL-Funktion: get()
- [SPARK-40066] [SQL] ANSI-Modus: Immer NULL zurückgeben bei ungültigem Zugriff auf die Zuordnungsspalte
- [SPARK-40089][SQL] Korrektur der Sortierung für einige Dezimaltypen
- [SPARK-39887] [SQL] RemoveRedundantAliases sollte Aliase beibehalten, die die Ausgabe von Projektionsknoten eindeutig machen
- [SPARK-40152][SQL] Korrektur des split_part Codegen-Kompilierungsproblems
- [SPARK-40235][CORE] In „Executor.updateDependencies()“ wird eine unterbrechbare Sperre verwendet anstatt einer Synchronisierung.
- [SPARK-40212][SQL] „byte“, „short“ oder „float“ wird von „castPartValue“ (SparkSQL) nicht ordnungsgemäß behandelt.
- [SPARK-40218][SQL] GROUPING SETS muss die Gruppierungsspalten beibehalten.
- [SPARK-35542][ML] Fix: Bucketverteiler für mehrere Spalten mit Parametern erstellt
- [SPARK-40079] Imputer-inputCols-Überprüfung für leeren Eingabefall hinzugefügt
- [SPARK-39912]SPARK-39828[SQL] Einschränkung von CatalogImpl
Databricks Runtime 11.1 (EoS)
Siehe Databricks Runtime 11.1 (EoS).
31. Januar 2023
- [SPARK-41379][SS][PYTHON] Bereitstellen einer geklonten Spark-Sitzung in DataFrame in der Benutzerfunktion für die foreachBatch-Senke in PySpark
- Verschiedene Fehlerbehebungen
18. Januar 2023
- Azure Synapse Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Korrektur von Metriken in Streamingabfragen mit CTE- und DSv1-Streamingquelle
- [SPARK-41862][SQL] Beheben des Korrektheitsfehlers im Zusammenhang mit STANDARDWERTEN im ORC-Leser
- [SPARK-41199][SS] Beheben des Metrikproblems, wenn DSv1- und DSv2-Streamingquelle gemeinsam verwendet werden
- [SPARK-41339][SQL] Schließen und Neuerstellen des RocksDB-Schreibbatchs (anstatt nur Löschen)
- [SPARK-41732][SQL][SS] Anwenden der baumstrukturbasierten Bereinigung für die Regel „SessionWindowing“
- [SPARK-38277][SS] Löschen des Schreibbatchs nach dem Commit des RocksDB-Zustandsspeichers
- Updates der Betriebssystemsicherheit.
- Azure Synapse Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben:
29. November 2022
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
- Wenn
csvignoreleadingwhitespace
auftrue
festgelegt ist, entfernt dies führende Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
. - Wenn
csvignoretrailingwhitespace
auftrue
festgelegt ist, entfernt dies nachgestellte Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
.
- Wenn
- Ein Fehler bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (
cloudFiles.inferColumnTypes
nicht festgelegt oder auffalse
festgelegt) und der JSON-Code geschachtelte Objekte enthielt. - [SPARK-39650] [SS] Korrigiert ein falsches Werteschema bei der Streaming-Deduplizierung mit Abwärtskompatibilität
- Updates der Betriebssystemsicherheit.
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
15. November 2022
- [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um sich für das verbesserte Verhalten zu entscheiden, setzen Sie
spark.sql.json.enablePartialResults
auftrue
. Das Flag ist standardmäßig deaktiviert, um das ursprüngliche Verhalten beizubehalten - Updates der Betriebssystemsicherheit.
- [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um sich für das verbesserte Verhalten zu entscheiden, setzen Sie
1. November 2022
- Apache commons-text wurde auf 1.10.0 aktualisiert.
- Ein Problem wurde behoben, bei dem, wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
_change_type
hatte, aber Change data feed für diese Tabelle deaktiviert war, die Daten in dieser Spalte fälschlicherweise mit NULL-Werten gefüllt wurden, wennMERGE
ausgeführt wurde. - Es wurde ein Problem behoben, bei dem das Ausführen
MERGE
und Verwenden von genau 99 Spalten aus der Quelle in der Bedingung zujava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
führen konnte. - Es wurde ein Problem mit dem Autoloader behoben, bei dem eine Datei in demselben Mikrobatch dupliziert werden konnte, wenn
allowOverwrites
aktiviert war - [SPARK-40697][SQL] Ein schreibseitiger Zeichenabstand zum Abdecken externer Datendateien wurde hinzugefügt
- [SPARK-40596][CORE] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf
- Updates der Betriebssystemsicherheit.
18. Oktober 2022
- Es wurde ein Problem mit der COPY INTO-Verwendung mit temporären Anmeldeinformationen für Unity Catalog-fähige Cluster/Warehouses behoben.
- [SPARK-40213][SQL] Unterstützung der ASCII-Wertkonvertierung für Lateinisch-1-Zeichen
- Updates der Betriebssystemsicherheit.
5. Oktober 2022
- Benutzer können „spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")“ festlegen, um das native Listing für Autoloader in ADLS Gen2 erneut zu aktivieren. Natives Listing wurde zuvor aufgrund von Leistungsproblemen deaktiviert, kann aber zu einer Erhöhung der Speicherkosten für Kunden geführt haben. Diese Änderung wurde in DBR 10.4 und 9.1 im vorherigen Wartungsupdate eingeführt.
- [SPARK-40169] Kein Pushdown von Parquet-Filtern ohne Verweis auf das Datenschema
- [SPARK-40460][SS] Korrigieren von Streamingmetriken beim Auswählen von
_metadata
- [SPARK-40468][SQL] Korrigieren der Spaltenbereinigung in CSV, wenn _corrupt_record ausgewählt ist
- [SPARK-40055][SQL] listCatalogs sollte auch spark_catalog zurückgeben, selbst wenn die spark_catalog-Implementierung defaultSessionCatalog ist
- Updates der Betriebssystemsicherheit.
22. September 2022
- [SPARK-40315][SQL] Hinzufügen von hashCode() für Literal von ArrayBasedMapData
- [SPARK-40380][SQL] Korrektur der Konstantenfaltung von InvokeLike, um in den Plan eingebettete nicht serialisierbare Literale zu vermeiden
- [SPARK-40089][SQL] Korrektur der Sortierung für einige Dezimaltypen
- [SPARK-39887] [SQL] RemoveRedundantAliases sollte Aliase beibehalten, die die Ausgabe von Projektionsknoten eindeutig machen
- [SPARK-40152][SQL] Korrektur des split_part Codegen-Kompilierungsproblems
6. September 2022
- Wir haben das Berechtigungsmodell in Tabellenzugriffssteuerungen (Tabellen-ACLs) aktualisiert, sodass nur Änderungsberechtigungen benötigt werden, um das Schema oder die Tabelleneigenschaften einer Tabelle mit ALTER TABLE zu ändern. Bislang musste ein Benutzer der Besitzer der Tabelle sein, um diese Vorgänge ausführen zu können. Der Besitz ist weiterhin erforderlich, um Berechtigungen für eine Tabelle zu erteilen, den Besitzer zu ändern, den Standort zu ändern oder die Tabelle umzubenennen. Diese Änderung macht das Berechtigungsmodell für Tabellen-ACLs konsistenter mit Unity Catalog.
- [SPARK-40235][CORE] In „Executor.updateDependencies()“ wird eine unterbrechbare Sperre verwendet anstatt einer Synchronisierung.
- [SPARK-40212][SQL] „byte“, „short“ oder „float“ wird von „castPartValue“ (SparkSQL) nicht ordnungsgemäß behandelt.
- [SPARK-40218][SQL] GROUPING SETS muss die Gruppierungsspalten beibehalten.
- [SPARK-39976][SQL] „ArrayIntersect“ muss Nullwerte im linken Ausdruck ordnungsgemäß behandeln.
- [SPARK-40053][CORE][SQL][TESTS]
assume
wurde für Fälle mit dynamischem Abbruch hinzugefügt, in denen die Python-Runtimeumgebung benötigt wird. - [SPARK-35542][CORE][ML] Korrektur: Bucketizer, der für mehrere Spalten mit den Parametern „splitsArray“, „inputCols“ und „outputCols“ erstellt wurde, kann nach dem Speichern nicht geladen werden.
- [SPARK-40079][CORE] Imputer-inputCols-Überprüfung für leeren Eingabefall hinzugefügt
24. August 2022
- Freigaben, Anbieter und Empfänger unterstützen jetzt SQL-Befehle zum Ändern von Besitzern, zum Kommentieren und Umbenennen
- [SPARK-39983][CORE][SQL] Keine nicht serialisierten Broadcast-Beziehungen auf dem Treiber zwischenspeichern
- [SPARK-39912][SPARK-39828][SQL] Schränkt CatalogImpl ein
- [SPARK-39775][CORE][AVRO] Deaktiviert validierte Standardwerte beim Analysieren von Avro-Schemas
- [SPARK-39806] Es wurde das Problem behoben, dass Abfragen, die auf „METADATA struct“ zugreifen, bei partitionierten Tabellen abstürzen
- [SPARK-39867][SQL] Das globale Limit sollte OrderPreservingUnaryNode nicht erben
- [SPARK-39962][PYTHON][SQL] Projektion anwenden, wenn Gruppenattribute leer sind
- [SPARK-39839][SQL] Behandeln Sie den Sonderfall einer Dezimalzahl mit variabler Länge von null mit offsetAndSize ungleich null in der UnsafeRow-Strukturintegritätsprüfung
- [SPARK-39713] [SQL] ANSI-Modus: Hinzufügen des Vorschlags der Verwendung von try_element_at für den INVALID_ARRAY_INDEX-Fehler
- [SPARK-39847][SS] Beheben einer Racebedingung in RocksDBLoader.loadLibrary(), wenn der Thread des Aufrufers unterbrochen wird
- [SPARK-39731][SQL] Beheben eines Problems in CSV- und JSON-Datenquellen beim Analysieren von Daten im Format „jjjjMMtt“ mit der CORRECTED-Zeitparserrichtlinie
- Updates der Betriebssystemsicherheit.
10. August 2022
- Für Delta-Tabellen mit Tabellenzugriffskontrolle ist die automatische Schemaentwicklung durch DML-Anweisungen wie
INSERT
undMERGE
jetzt für alle Benutzer verfügbar, dieMODIFY
-Berechtigungen für solche Tabellen haben. Darüber hinaus werden die Berechtigungen, die zum Durchführen der Schema-Entwicklung mitCOPY INTO
erforderlich sind, jetzt vonOWNER
aufMODIFY
gesenkt, um die Konsistenz mit anderen Befehlen zu gewährleisten. Durch diese Änderungen wird das Sicherheitsmodell der Tabellen-ACL konsistenter mit dem Sicherheitsmodell von Unity Catalog sowie mit anderen Vorgängen wie dem Ersetzen einer Tabelle. - [SPARK-39889] Verbessern der Fehlermeldung bei Division durch 0
- [SPARK-39795] [SQL] Neue SQL-Funktion: try_to_timestamp
- [SPARK-39749] Immer einfache Zeichenkettendarstellung beim Umwandeln von Dezimalzahlen in Zeichenfolgen im ANSI-Modus verwenden
- [SPARK-39625] Umbenennen von df.as in df.to
- [SPARK-39787] [SQL] Verwenden der Fehlerklasse im Analysefehler der Funktion to_timestamp
- [SPARK-39625] [SQL] Hinzufügen von Dataset.as(StructType)
- [SPARK-39689] Unterstützung von 2-Zeichen
lineSep
in CSV-Datenquelle - [SPARK-39579] [SQL][PYTHON][R] Herstellen der Kompatibilität zwischen ListFunctions/getFunction/functionExists und dem dreischichtigen Namespace
- [SPARK-39702] [CORE] Verringern des Arbeitsspeicheroverheads von TransportCipher$EncryptedMessage mithilfe eines freigegebenen byteRawChannel
- [SPARK-39575] [AVRO] Hinzufügen von ByteBuffer#rewind nach ByteBuffer#get in AvroDeserializer
- [SPARK-39265] [SQL] Beheben eines Testfehlers, wenn SPARK_ANSI_SQL_MODE aktiviert ist
- [SPARK-39441] [SQL] Beschleunigen von DeduplicateRelations
- [SPARK-39497] [SQL] Verbessern der Analyseausnahme der fehlenden Kartenschlüsselspalte
- [SPARK-39476] [SQL] Deaktivieren der Aufhebung der Umwandlungsoptimierung beim Umwandeln von Long zu Float/Double oder von Integer zu Float
- [SPARK-39434] [SQL] Bereitstellen des Abfragekontexts bei Laufzeitfehlern, wenn der Arrayindex außerhalb der Begrenzung liegt
- Für Delta-Tabellen mit Tabellenzugriffskontrolle ist die automatische Schemaentwicklung durch DML-Anweisungen wie
Databricks Runtime 11.0 (EoS)
Siehe Databricks Runtime 11.0 (EoS).
- 29. November 29 2022
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
- Wenn
csvignoreleadingwhitespace
auftrue
festgelegt ist, entfernt dies führende Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
. - Wenn
csvignoretrailingwhitespace
auftrue
festgelegt ist, entfernt dies nachgestellte Leerzeichen von Werten während Schreibvorgängen, wenntempformat
aufCSV
oderCSV GZIP
festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auffalse
festgelegt ist. Standardmäßig lautet der Werttrue
.
- Wenn
- Ein Fehler bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (
cloudFiles.inferColumnTypes
nicht festgelegt oder auffalse
festgelegt) und der JSON-Code geschachtelte Objekte enthielt. - [SPARK-39650] [SS] Korrigiert ein falsches Werteschema bei der Streaming-Deduplizierung mit Abwärtskompatibilität
- Updates der Betriebssystemsicherheit.
- Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
- 15. November 2022
- [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um das verbesserte Verhalten zu nutzen, legen Sie
spark.sql.json.enablePartialResults
auftrue
fest. Das Flag ist standardmäßig deaktiviert, um das ursprüngliche Verhalten beizubehalten.
- [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um das verbesserte Verhalten zu nutzen, legen Sie
- 1. November 2022
- Apache commons-text wurde auf 1.10.0 aktualisiert.
- Ein Problem wurde behoben, bei dem, wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
_change_type
hatte, aber Change data feed für diese Tabelle deaktiviert war, die Daten in dieser Spalte fälschlicherweise mit NULL-Werten gefüllt wurden, wennMERGE
ausgeführt wurde. - Es wurde ein Problem mit dem Autoloader behoben, bei dem eine Datei in demselben Mikrobatch dupliziert werden konnte, wenn
allowOverwrites
aktiviert war - [SPARK-40697][SQL] Ein schreibseitiger Zeichenabstand zum Abdecken externer Datendateien wurde hinzugefügt
- [SPARK-40596][CORE] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf
- Updates der Betriebssystemsicherheit.
- 18. Oktober 2022
- [SPARK-40213][SQL] Unterstützung der ASCII-Wertkonvertierung für Lateinisch-1-Zeichen
- Updates der Betriebssystemsicherheit.
- 5. Oktober 2022
- Benutzer können „spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")“ festlegen, um das native Listing für Autoloader in ADLS Gen2 erneut zu aktivieren. Natives Listing wurde zuvor aufgrund von Leistungsproblemen deaktiviert, kann aber zu einer Erhöhung der Speicherkosten für Kunden geführt haben. Diese Änderung wurde in DBR 10.4 und 9.1 im vorherigen Wartungsupdate eingeführt.
- [SPARK-40169] Kein Pushdown von Parquet-Filtern ohne Verweis auf das Datenschema
- [SPARK-40460][SS] Korrigieren von Streamingmetriken beim Auswählen von
_metadata
- [SPARK-40468][SQL] Korrigieren der Spaltenbereinigung in CSV, wenn _corrupt_record ausgewählt ist
- Updates der Betriebssystemsicherheit.
- 22. September 2022
- [SPARK-40315][SQL] Hinzufügen von hashCode() für Literal von ArrayBasedMapData
- [SPARK-40380][SQL] Korrektur der Konstantenfaltung von InvokeLike, um in den Plan eingebettete nicht serialisierbare Literale zu vermeiden
- [SPARK-40089][SQL] Korrektur der Sortierung für einige Dezimaltypen
- [SPARK-39887] [SQL] RemoveRedundantAliases sollte Aliase beibehalten, die die Ausgabe von Projektionsknoten eindeutig machen
- [SPARK-40152][SQL] Korrektur des split_part Codegen-Kompilierungsproblems
- 6. September 2022
- [SPARK-40235][CORE] In „Executor.updateDependencies()“ wird eine unterbrechbare Sperre verwendet anstatt einer Synchronisierung.
- [SPARK-40212][SQL] „byte“, „short“ oder „float“ wird von „castPartValue“ (SparkSQL) nicht ordnungsgemäß behandelt.
- [SPARK-40218][SQL] GROUPING SETS muss die Gruppierungsspalten beibehalten.
- [SPARK-39976][SQL] „ArrayIntersect“ muss Nullwerte im linken Ausdruck ordnungsgemäß behandeln.
- [SPARK-40053][CORE][SQL][TESTS]
assume
wurde für Fälle mit dynamischem Abbruch hinzugefügt, in denen die Python-Runtimeumgebung benötigt wird. - [SPARK-35542][CORE][ML] Korrektur: Bucketizer, der für mehrere Spalten mit den Parametern „splitsArray“, „inputCols“ und „outputCols“ erstellt wurde, kann nach dem Speichern nicht geladen werden.
- [SPARK-40079][CORE] Imputer-inputCols-Überprüfung für leeren Eingabefall hinzugefügt
- 24. August 2022
- [SPARK-39983][CORE][SQL] Keine nicht serialisierten Broadcast-Beziehungen auf dem Treiber zwischenspeichern
- [SPARK-39775][CORE][AVRO] Deaktiviert validierte Standardwerte beim Analysieren von Avro-Schemas
- [SPARK-39806] Es wurde das Problem behoben, dass Abfragen, die auf „METADATA struct“ zugreifen, bei partitionierten Tabellen abstürzen
- [SPARK-39867][SQL] Das globale Limit sollte OrderPreservingUnaryNode nicht erben
- [SPARK-39962][PYTHON][SQL] Projektion anwenden, wenn Gruppenattribute leer sind
- Updates der Betriebssystemsicherheit.
- 9. August 2022
- [SPARK-39713] [SQL] ANSI-Modus: Hinzufügen des Vorschlags der Verwendung von try_element_at für den INVALID_ARRAY_INDEX-Fehler
- [SPARK-39847] Beheben einer Racebedingung in RocksDBLoader.loadLibrary(), wenn der Thread des Aufrufers unterbrochen wird
- [SPARK-39731][SQL] Beheben eines Problems in CSV- und JSON-Datenquellen beim Analysieren von Daten im Format „jjjjMMtt“ mit der CORRECTED-Zeitparserrichtlinie
- [SPARK-39889] Verbessern der Fehlermeldung bei Division durch 0
- [SPARK-39795] [SQL] Neue SQL-Funktion: try_to_timestamp
- [SPARK-39749] Immer einfache Zeichenkettendarstellung beim Umwandeln von Dezimalzahlen in Zeichenfolgen im ANSI-Modus verwenden
- [SPARK-39625] [SQL] Hinzufügen von Dataset.to(StructType)
- [SPARK-39787] [SQL] Verwenden der Fehlerklasse im Analysefehler der Funktion to_timestamp
- Updates der Betriebssystemsicherheit.
- 27. Juli 2022
- [SPARK-39689]Unterstützung von 2-Zeichen
lineSep
in CSV-Datenquelle - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded sollte threadsicher sein
- [SPARK-39702][CORE] Verringern des Arbeitsspeicheroverheads von TransportCipher$EncryptedMessage mithilfe eines freigegebenen byteRawChannel
- [SPARK-39575][AVRO] Hinzufügen von ByteBuffer#rewind nach ByteBuffer#get in AvroDeserializer
- [SPARK-39497][SQL] Verbessern der Analyseausnahme der fehlenden Kartenschlüsselspalte
- [SPARK-39441][SQL] Beschleunigen von DeduplicateRelations
- [SPARK-39476][SQL] Deaktivieren der Aufhebung der Umwandlungsoptimierung beim Umwandeln von Long zu Float/Double oder von Integer zu Float
- [SPARK-39434][SQL] Bereitstellen des Abfragekontexts bei Laufzeitfehlern, wenn der Arrayindex außerhalb der Begrenzung liegt
- [SPARK-39570][SQL] Inlinetabelle sollte Ausdrücke mit Alias zulassen
- Updates der Betriebssystemsicherheit.
- [SPARK-39689]Unterstützung von 2-Zeichen
- 13. Juli 2022
- Machen Sie die Ergebnisse von Delta MERGE-Vorgängen konsistent, wenn die Quelle nicht deterministisch ist.
- Es wurde ein Problem für die cloud_files_state-TVF behoben, wenn sie in Nicht-DBFS-Pfaden ausgeführt wird.
- Die Verwendung nativer Cloud-APIs durch Autoloader für die Verzeichnisauflistung in Azure wurde deaktiviert.
- [SPARK-38796][SQL] Aktualisierung der Funktionen to_number und try_to_number, um Pull Request mit positiven Zahlen zu ermöglichen
- [SPARK-39272][SQL] Erhöht die Startposition des Abfragekontexts um 1
- [SPARK-39419][SQL] ArraySort löst nun eine Ausnahme aus, wenn der Vergleichsoperator NULL zurückgibt
- Updates der Betriebssystemsicherheit.
- 5. Juli 2022
- Verbesserung der Fehlermeldungen für verschiedene Fehlerklassen.
- [SPARK-39451] [SQL] Unterstützung von Umwandlungsintervallen für Integrale im ANSI-Modus
- [SPARK-39361] Erweiterte Throwable-Konvertierungsmuster von Log4J2 nicht in standardmäßigen Protokollierungskonfigurationen verwenden
- [SPARK-39354][SQL] Sicherstellen, dass
Table or view not found
auch dann angezeigt wird, wenn gleichzeitig Fehler vom TypdataTypeMismatchError
in Verbindung mitFilter
vorliegen - [SPARK-38675][CORE] Beheben der Racebedingung während der Entsperrung in BlockInfoManager
- [SPARK-39392] [SQL] Verbesserung von ANSI-Fehlermeldungen für try_*-Funktionshinweise
- [SPARK-39214] [SQL][3.3] Verbesserung bei Fehlern im Zusammenhang mit CAST
- [SPARK-37939][SQL] Verwenden von Fehlerklassen in den Analysefehlern für Eigenschaften
- [SPARK-39085][SQL] Verschieben der Fehlermeldung von
INCONSISTENT_BEHAVIOR_CROSS_VERSION
in „error-classes.json“ - [SPARK-39376][SQL] Ausblenden doppelter Spalten in der Sternerweiterung des Unterabfragealias von NATURAL/USING JOIN
- [SPARK-39283][CORE] Deadlock zwischen TaskMemoryManager und UnsafeExternalSorter.SpillableIterator beheben
- [SPARK-39285][SQL] Von Spark sollen beim Lesen von Dateien keine Feldnamen überprüft werden.
- Updates der Betriebssystemsicherheit.
Databricks Runtime 10.5 (EoS)
Siehe Databricks Runtime 10.5 (EoS).
- 1. November 2022
- Ein Problem wurde behoben, bei dem, wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
_change_type
hatte, aber Change data feed für diese Tabelle deaktiviert war, die Daten in dieser Spalte fälschlicherweise mit NULL-Werten gefüllt wurden, wennMERGE
ausgeführt wurde. - [SPARK-40697][SQL] Ein schreibseitiger Zeichenabstand zum Abdecken externer Datendateien wurde hinzugefügt
- [SPARK-40596][CORE] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf
- Updates der Betriebssystemsicherheit.
- Ein Problem wurde behoben, bei dem, wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen
- 18. Oktober 2022
- Updates der Betriebssystemsicherheit.
- 5. Oktober 2022
- Benutzer können „spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")“ festlegen, um das native Listing für Autoloader in ADLS Gen2 erneut zu aktivieren. Natives Listing wurde zuvor aufgrund von Leistungsproblemen deaktiviert, kann aber zu einer Erhöhung der Speicherkosten für Kunden geführt haben. Diese Änderung wurde in DBR 10.4 und 9.1 im vorherigen Wartungsupdate eingeführt.
- reload4j wurde auf 1.2.19 aktualisiert, um Sicherheitsrisiken zu beheben.
- [SPARK-40460][SS] Korrigieren von Streamingmetriken beim Auswählen von
_metadata
- [SPARK-40468][SQL] Korrigieren der Spaltenbereinigung in CSV, wenn _corrupt_record ausgewählt ist
- Updates der Betriebssystemsicherheit.
- 22. September 2022
- [SPARK-40315][SQL] Hinzufügen von hashCode() für Literal von ArrayBasedMapData
- [SPARK-40213][SQL] Unterstützung der ASCII-Wertkonvertierung für Lateinisch-1-Zeichen
- [SPARK-40380][SQL] Korrektur der Konstantenfaltung von InvokeLike, um in den Plan eingebettete nicht serialisierbare Literale zu vermeiden
- [SPARK-38404][SQL] Verbessern der CTE-Auflösung, wenn ein geschachtelter CTE auf einen äußeren CTE verweist
- [SPARK-40089][SQL] Korrektur der Sortierung für einige Dezimaltypen
- [SPARK-39887] [SQL] RemoveRedundantAliases sollte Aliase beibehalten, die die Ausgabe von Projektionsknoten eindeutig machen
- Updates der Betriebssystemsicherheit.
- 6. September 2022
- [SPARK-40235][CORE] In „Executor.updateDependencies()“ wird eine unterbrechbare Sperre verwendet anstatt einer Synchronisierung.
- [SPARK-39976][SQL] „ArrayIntersect“ muss Nullwerte im linken Ausdruck ordnungsgemäß behandeln.
- [SPARK-40053][CORE][SQL][TESTS]
assume
wurde für Fälle mit dynamischem Abbruch hinzugefügt, in denen die Python-Runtimeumgebung benötigt wird. - [SPARK-35542][CORE][ML] Korrektur: Bucketizer, der für mehrere Spalten mit den Parametern „splitsArray“, „inputCols“ und „outputCols“ erstellt wurde, kann nach dem Speichern nicht geladen werden.
- [SPARK-40079][CORE] Imputer-inputCols-Überprüfung für leeren Eingabefall hinzugefügt
- 24. August 2022
- [SPARK-39983][CORE][SQL] Keine nicht serialisierten Broadcast-Beziehungen auf dem Treiber zwischenspeichern
- [SPARK-39775][CORE][AVRO] Deaktiviert validierte Standardwerte beim Analysieren von Avro-Schemas
- [SPARK-39806] Es wurde das Problem behoben, dass Abfragen, die auf „METADATA struct“ zugreifen, bei partitionierten Tabellen abstürzen
- [SPARK-39962][PYTHON][SQL] Projektion anwenden, wenn Gruppenattribute leer sind
- [SPARK-37643][SQL] wenn charVarcharAsString „true“ ist, sollte die Abfrage für das char-Datentypprädikat die rpadding-Regel überspringen
- Updates der Betriebssystemsicherheit.
- 9. August 2022
- [SPARK-39847] Beheben einer Racebedingung in RocksDBLoader.loadLibrary(), wenn der Thread des Aufrufers unterbrochen wird
- [SPARK-39731][SQL] Beheben eines Problems in CSV- und JSON-Datenquellen beim Analysieren von Daten im Format „jjjjMMtt“ mit der CORRECTED-Zeitparserrichtlinie
- Updates der Betriebssystemsicherheit.
- 27. Juli 2022
- [SPARK-39625][SQL] Hinzufügen von Dataset.as(StructType)
- [SPARK-39689]Unterstützung von 2-Zeichen
lineSep
in CSV-Datenquelle - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded sollte threadsicher sein
- [SPARK-39570][SQL] Inlinetabelle sollte Ausdrücke mit Alias zulassen
- [SPARK-39702][CORE] Verringern des Arbeitsspeicheroverheads von TransportCipher$EncryptedMessage mithilfe eines freigegebenen byteRawChannel
- [SPARK-39575][AVRO] Hinzufügen von ByteBuffer#rewind nach ByteBuffer#get in AvroDeserializer
- [SPARK-39476][SQL] Deaktivieren der Aufhebung der Umwandlungsoptimierung beim Umwandeln von Long zu Float/Double oder von Integer zu Float
- Updates der Betriebssystemsicherheit.
- 13. Juli 2022
- Machen Sie die Ergebnisse von Delta MERGE-Vorgängen konsistent, wenn die Quelle nicht deterministisch ist.
- [SPARK-39355][SQL] Einzelne Spalte verwendet Anführungszeichen zum Konstruieren von UnresolvedAttribute.
- [SPARK-39548][SQL] Der CreateView-Befehl mit einer Fensterklauselabfrage hat ein Problem mit einer nicht gefundenen Fensterdefinition.
- [SPARK-39419][SQL] ArraySort löst nun eine Ausnahme aus, wenn der Vergleichsoperator NULL zurückgibt
- Die Verwendung nativer Cloud-APIs durch Autoloader für die Verzeichnisauflistung in Azure wurde deaktiviert.
- Updates der Betriebssystemsicherheit.
- 5. Juli 2022
- [SPARK-39376][SQL] Ausblenden doppelter Spalten in der Sternerweiterung des Unterabfragealias von NATURAL/USING JOIN
- Updates der Betriebssystemsicherheit.
- 15. Juni 2022
- [SPARK-39283][CORE] Deadlock zwischen TaskMemoryManager und UnsafeExternalSorter.SpillableIterator beheben
- [SPARK-39285][SQL] Von Spark sollen beim Lesen von Dateien keine Feldnamen überprüft werden.
- [SPARK-34096][SQL] Leistungsverbesserung für „nth_value“: NULL-Werte über Offsetfenster ignorieren
- [SPARK-36718][SQL][FOLLOWUP]
isExtractOnly
-Überprüfung in CollapseProject korrigieren
- 2. Juni 2022
- [SPARK-39166][SQL] Laufzeitfehler-Abfragekontext für binäre Arithmetik bereitstellen, wenn WSCG deaktiviert ist
- [SPARK-39093][SQL] Codegen-Kompilierungsfehler beim Aufteilen von Jahr-Monat- oder Tag-Uhrzeit-Intervallen nach einem Integral
- [SPARK-38990][SQL] Ausnahme vom Typ „NullPointerException“ beim Auswerten des date_trunc- oder trunc-Formats als gebundener Verweis vermeiden
- Updates der Betriebssystemsicherheit.
- 18. Mai 2022
- Behebt einen potenziellen nativen Speicherverlust beim Autoloader.
- [SPARK-38868][SQL] Ausnahmen von Filterprädikaten beim Optimieren äußerer Verknüpfungen nicht weitergeben
- [SPARK-38796][SQL] SQL-Funktionen to_number und try_to_number entsprechend einer neuen Spezifikation implementieren
- [SPARK-38918][SQL] Bei der Bereinigung geschachtelter Spalten sollten Attribute herausgefiltert werden, die nicht zur aktuellen Beziehung gehören
- [SPARK-38929][SQL] Fehlermeldungen für Umwandlungsfehler in ANSI verbessern
- [SPARK-38926][SQL] Ausgabetypen in Fehlermeldungen im SQL-Stil
- [SPARK-39084][PYSPARK] df.rdd.isEmpty() mithilfe von TaskContext zum Beenden des Iterators beim Abschluss der Aufgabe korrigieren
- [SPARK-32268][SQL] ColumnPruning in injectBloomFilter hinzufügen
- [SPARK-38908][SQL] Abfragekontext im Laufzeitfehler der Umwandlung von Zeichenfolgen zu Zahl/Datum/Zeitstempel/booleschem Wert bereitstellen
- [SPARK-39046][SQL] Eine leere Kontextzeichenfolge zurückgeben, wenn TreeNode.origin falsch festgelegt ist
- [SPARK-38974][SQL] Registrierte Funktionen mit einem bestimmten Datenbanknamen in list-Funktionen filtern
- [SPARK-38762][SQL] Abfragekontext in Dezimalüberlauffehlern bereitstellen
- [SPARK-38931][SS] Stamm-DFS-Verzeichnis für RocksDBFileManager mit einer unbekannten Anzahl von Schlüsseln am 1. Prüfpunkt erstellen
- [SPARK-38992][CORE] Verwendung von bash -c in ShellBasedGroupsMappingProvider vermeiden
- [SPARK-38716][SQL] Abfragekontext bei Fehlern wegen fehlendem Zuordnungsschlüssel bereitstellen
- [SPARK-38889][SQL] Boolesche Spaltenfilter kompilieren, um den Bittyps für die MSSQL-Datenquelle zu verwenden
- [SPARK-38698][SQL] Abfragekontext im Laufzeitfehler Divide/Div/Reminder/Pmod bereitstellen
- [SPARK-38823][SQL]
NewInstance
nicht faltbar machen, um das Problem bei einer Beschädigung des Aggregationspuffers zu beheben - [SPARK-38809][SS] Option zum Überspringen von NULL-Werten in symmetrischen Hashimplementierungen von Datenstrom-zu-Datenstrom-Joins implementieren
- [SPARK-38676][SQL] SQL-Abfragekontext in der Laufzeitfehlermeldung von Add/Subtract/Multiply bereitstellen
- [SPARK-38677][PYSPARK] MonitorThread in Python sollte Deadlock aufgrund eine E/A-Sperre erkennen
- Updates der Betriebssystemsicherheit.
Databricks Runtime 10.3 (EoS)
Siehe Databricks Runtime 10.3 (EoS).
- 27. Juli 2022
- [SPARK-39689]Unterstützung von 2-Zeichen
lineSep
in CSV-Datenquelle - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded sollte threadsicher sein
- [SPARK-39702][CORE] Verringern des Arbeitsspeicheroverheads von TransportCipher$EncryptedMessage mithilfe eines freigegebenen byteRawChannel
- Updates der Betriebssystemsicherheit.
- [SPARK-39689]Unterstützung von 2-Zeichen
- 20. Juli 2022
- Machen Sie die Ergebnisse von Delta MERGE-Vorgängen konsistent, wenn die Quelle nicht deterministisch ist.
- [SPARK-39476][SQL] Deaktivieren der Aufhebung der Umwandlungsoptimierung beim Umwandeln von Long zu Float/Double oder von Integer zu Float
- [SPARK-39548][SQL] Der CreateView-Befehl mit einer Fensterklauselabfrage hat ein Problem mit einer nicht gefundenen Fensterdefinition.
- [SPARK-39419][SQL] ArraySort löst nun eine Ausnahme aus, wenn der Vergleichsoperator NULL zurückgibt
- Updates der Betriebssystemsicherheit.
- 5. Juli 2022
- [SPARK-39376][SQL] Ausblenden doppelter Spalten in der Sternerweiterung des Unterabfragealias von NATURAL/USING JOIN
- Updates der Betriebssystemsicherheit.
- 15. Juni 2022
- [SPARK-39283][CORE] Deadlock zwischen TaskMemoryManager und UnsafeExternalSorter.SpillableIterator beheben
- [SPARK-39285][SQL] Von Spark sollen beim Lesen von Dateien keine Feldnamen überprüft werden.
- [SPARK-34096][SQL] Leistungsverbesserung für „nth_value“: NULL-Werte über Offsetfenster ignorieren
- [SPARK-36718][SQL][FOLLOWUP]
isExtractOnly
-Überprüfung in CollapseProject korrigieren
- 2. Juni 2022
- [SPARK-38990][SQL] Ausnahme vom Typ „NullPointerException“ beim Auswerten des date_trunc- oder trunc-Formats als gebundener Verweis vermeiden
- Updates der Betriebssystemsicherheit.
- 18. Mai 2022
- Behebt einen potenziellen nativen Speicherverlust beim Autoloader.
- [SPARK-38918][SQL] Bei der Bereinigung geschachtelter Spalten sollten Attribute herausgefiltert werden, die nicht zur aktuellen Beziehung gehören
- [SPARK-37593][CORE] Standardseitengröße um LONG_ARRAY_OFFSET reduzieren, wenn G1GC und ON_HEAP verwendet werden
- [SPARK-39084][PYSPARK] df.rdd.isEmpty() mithilfe von TaskContext zum Beenden des Iterators beim Abschluss der Aufgabe korrigieren
- [SPARK-32268][SQL] ColumnPruning in injectBloomFilter hinzufügen
- [SPARK-38974][SQL] Registrierte Funktionen mit einem bestimmten Datenbanknamen in list-Funktionen filtern
- [SPARK-38889][SQL] Boolesche Spaltenfilter kompilieren, um den Bittyps für die MSSQL-Datenquelle zu verwenden
- Updates der Betriebssystemsicherheit.
- 4. Mai 2022
- Java AWS SDK von Version 1.11.655 auf 1.12.1899 aktualisiert.
- 19. April 2022
- [SPARK-38616][SQL] SQL-Abfragetext in Catalyst TreeNode nachverfolgen
- Updates der Betriebssystemsicherheit.
- 6. April 2022
- [SPARK-38631][CORE] Java-basierte Implementierung zum entpacken bei Utils.unpack verwenden
- Updates der Betriebssystemsicherheit.
- 22. März 2022
- Auf Clustern mit hoher Parallelität, bei denen entweder die Zugriffssteuerung für Tabellen oder der Passthrough für Anmeldeinformationen aktiviert ist, entspricht das aktuelle Arbeitsverzeichnis der Notebooks jetzt dem Basisverzeichnis der Benutzer*innen. Zuvor war das Arbeitsverzeichnis
/databricks/driver
. - [SPARK-38437][SQL] Vorsichtige Serialisierung von datetime-Werten in der Datenquelle
- [SPARK-38180][SQL] Sichere Umwandlungsausdrücke in korrelierten Gleichheitsprädikaten zulassen
- [SPARK-38155][SQL] Verschiedene Aggregate in lateralen Unterabfragen mit nicht unterstützten Prädikaten verbieten
- [SPARK-38325][SQL] ANSI-Modus: Potenzielle Laufzeitfehler in HashJoin.extractKeyExprAt() vermeiden
- Auf Clustern mit hoher Parallelität, bei denen entweder die Zugriffssteuerung für Tabellen oder der Passthrough für Anmeldeinformationen aktiviert ist, entspricht das aktuelle Arbeitsverzeichnis der Notebooks jetzt dem Basisverzeichnis der Benutzer*innen. Zuvor war das Arbeitsverzeichnis
- 14. März 2022
- Verbesserte Transaktionskonflikterkennung für leere Transaktionen in Delta Lake.
- [SPARK-38185][SQL] Korrigieren falscher Daten, wenn die Aggregatfunktion leer ist
- [SPARK-38318][SQL] Regression beim Ersetzen einer Datasetansicht
- [SPARK-38236][SQL] Absolute Dateipfade, die in „Tabelle erstellen/ändern“ angegeben sind, werden als relativ behandelt
- [SPARK-35937][SQL] Extrahieren des Datumsfelds aus dem Zeitstempel sollte im ANSI-Modus funktionieren
- [SPARK-34069][SQL] Kill barrier-Tasks sollten
SPARK_JOB_INTERRUPT_ON_CANCEL
respektieren - [SPARK-37707][SQL] Speicherzuweisung zwischen TimestampNTZ und Date/Timestamp zulassen
- 23. Februar 2022
- [SPARK-27442] [SQL] Prüffeldname beim Lesen/Schreiben Daten in Parquet entfernen
Databricks Runtime 10.2 (EoS)
Siehe Databricks Runtime 10.2 (EoS).
- 15. Juni 2022
- [SPARK-39283][CORE] Deadlock zwischen TaskMemoryManager und UnsafeExternalSorter.SpillableIterator beheben
- [SPARK-39285][SQL] Von Spark sollen beim Lesen von Dateien keine Feldnamen überprüft werden.
- [SPARK-34096][SQL] Leistungsverbesserung für „nth_value“: NULL-Werte über Offsetfenster ignorieren
- 2. Juni 2022
- [SPARK-38918][SQL] Bei der Bereinigung geschachtelter Spalten sollten Attribute herausgefiltert werden, die nicht zur aktuellen Beziehung gehören
- [SPARK-38990][SQL] Ausnahme vom Typ „NullPointerException“ beim Auswerten des date_trunc- oder trunc-Formats als gebundener Verweis vermeiden
- Updates der Betriebssystemsicherheit.
- 18. Mai 2022
- Behebt einen potenziellen nativen Speicherverlust beim Autoloader.
- [SPARK-39084][PYSPARK] df.rdd.isEmpty() mithilfe von TaskContext zum Beenden des Iterators beim Abschluss der Aufgabe korrigieren
- [SPARK-38889][SQL] Boolesche Spaltenfilter kompilieren, um den Bittyps für die MSSQL-Datenquelle zu verwenden
- [SPARK-38931][SS] Stamm-DFS-Verzeichnis für RocksDBFileManager mit einer unbekannten Anzahl von Schlüsseln am 1. Prüfpunkt erstellen
- Updates der Betriebssystemsicherheit.
- 4. Mai 2022
- Java AWS SDK von Version 1.11.655 auf 1.12.1899 aktualisiert.
- 19. April 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
- 6. April 2022
- [SPARK-38631][CORE] Java-basierte Implementierung zum entpacken bei Utils.unpack verwenden
- Updates der Betriebssystemsicherheit.
- 22. März 2022
- Auf Clustern mit hoher Parallelität, bei denen entweder die Zugriffssteuerung für Tabellen oder der Passthrough für Anmeldeinformationen aktiviert ist, entspricht das aktuelle Arbeitsverzeichnis der Notebooks jetzt dem Basisverzeichnis der Benutzer*innen. Zuvor war das Arbeitsverzeichnis
/databricks/driver
. - [SPARK-38437][SQL] Vorsichtige Serialisierung von datetime-Werten in der Datenquelle
- [SPARK-38180][SQL] Sichere Umwandlungsausdrücke in korrelierten Gleichheitsprädikaten zulassen
- [SPARK-38155][SQL] Verschiedene Aggregate in lateralen Unterabfragen mit nicht unterstützten Prädikaten verbieten
- [SPARK-38325][SQL] ANSI-Modus: Potenzielle Laufzeitfehler in HashJoin.extractKeyExprAt() vermeiden
- Auf Clustern mit hoher Parallelität, bei denen entweder die Zugriffssteuerung für Tabellen oder der Passthrough für Anmeldeinformationen aktiviert ist, entspricht das aktuelle Arbeitsverzeichnis der Notebooks jetzt dem Basisverzeichnis der Benutzer*innen. Zuvor war das Arbeitsverzeichnis
- 14. März 2022
- Verbesserte Transaktionskonflikterkennung für leere Transaktionen in Delta Lake.
- [SPARK-38185][SQL] Korrigieren falscher Daten, wenn die Aggregatfunktion leer ist
- [SPARK-38318][SQL] Regression beim Ersetzen einer Datasetansicht
- [SPARK-38236][SQL] Absolute Dateipfade, die in „Tabelle erstellen/ändern“ angegeben sind, werden als relativ behandelt
- [SPARK-35937][SQL] Extrahieren des Datumsfelds aus dem Zeitstempel sollte im ANSI-Modus funktionieren
- [SPARK-34069][SQL] Kill barrier-Tasks sollten
SPARK_JOB_INTERRUPT_ON_CANCEL
respektieren - [SPARK-37707][SQL] Speicherzuweisung zwischen TimestampNTZ und Date/Timestamp zulassen
- 23. Februar 2022
- [SPARK-37577] [SQL] Behebung von ClassCastException: ArrayType kann nicht auf StructType für Generieren von Bereinigungen umgewandelt werden
- 8. Februar 2022
- [SPARK-27442] [SQL] Prüffeldname beim Lesen/Schreiben Daten in Parquet entfernen.
- Updates der Betriebssystemsicherheit.
- 1. Februar 2022
- Updates der Betriebssystemsicherheit.
- 26. Januar 2022
- Ein Fehler wurde behoben, bei dem gleichzeitige Transaktionen für Delta-Tabellen unter bestimmten seltenen Bedingungen in einer nicht serialisierbaren Reihenfolge committet werden konnten.
- Ein Fehler wurde behoben, bei dem der OPTIMIEREN-Befehl fehlschlagen konnte, wenn der ANSI-SQL Dialekt aktiviert war.
- 19. Januar 2022
- Unterstützung für das Inlining temporärer Anmeldeinformationen für COPY INTO zum Laden der Quelldaten ohne SQL ANY_FILE-Berechtigungen eingeführt.
- Fehlerbehebungen und Sicherheitsverbesserungen.
- 20. Dezember 2021
- Ein seltener Fehler bei der filterbasierten Filterung von Parquet-Spaltenindizes wurde behoben.
Databricks Runtime 10.1 (EoS)
Siehe Databricks Runtime 10.1 (EoS).
- 15. Juni 2022
- [SPARK-39283][CORE] Deadlock zwischen TaskMemoryManager und UnsafeExternalSorter.SpillableIterator beheben
- [SPARK-39285][SQL] Von Spark sollen beim Lesen von Dateien keine Feldnamen überprüft werden.
- [SPARK-34096][SQL] Leistungsverbesserung für „nth_value“: NULL-Werte über Offsetfenster ignorieren
- 2. Juni 2022
- Updates der Betriebssystemsicherheit.
- 18. Mai 2022
- Behebt einen potenziellen nativen Speicherverlust beim Autoloader.
- [SPARK-39084][PYSPARK] df.rdd.isEmpty() mithilfe von TaskContext zum Beenden des Iterators beim Abschluss der Aufgabe korrigieren
- [SPARK-38889][SQL] Boolesche Spaltenfilter kompilieren, um den Bittyps für die MSSQL-Datenquelle zu verwenden
- Updates der Betriebssystemsicherheit.
- 19. April 2022
- [SPARK-37270] [SQL] Pushen von foldable in CaseWhen-Branches korrigieren, wenn elseValue leer ist
- Updates der Betriebssystemsicherheit.
- 6. April 2022
- [SPARK-38631][CORE] Java-basierte Implementierung zum entpacken bei Utils.unpack verwenden
- Updates der Betriebssystemsicherheit.
- 22. März 2022
- [SPARK-38437][SQL] Vorsichtige Serialisierung von datetime-Werten in der Datenquelle
- [SPARK-38180][SQL] Sichere Umwandlungsausdrücke in korrelierten Gleichheitsprädikaten zulassen
- [SPARK-38155][SQL] Verschiedene Aggregate in lateralen Unterabfragen mit nicht unterstützten Prädikaten verbieten
- [SPARK-38325][SQL] ANSI-Modus: Potenzielle Laufzeitfehler in HashJoin.extractKeyExprAt() vermeiden
- 14. März 2022
- Verbesserte Transaktionskonflikterkennung für leere Transaktionen in Delta Lake.
- [SPARK-38185][SQL] Korrigieren falscher Daten, wenn die Aggregatfunktion leer ist
- [SPARK-38318][SQL] Regression beim Ersetzen einer Datasetansicht
- [SPARK-38236][SQL] Absolute Dateipfade, die in „Tabelle erstellen/ändern“ angegeben sind, werden als relativ behandelt
- [SPARK-35937][SQL] Extrahieren des Datumsfelds aus dem Zeitstempel sollte im ANSI-Modus funktionieren
- [SPARK-34069][SQL] Kill barrier-Tasks sollten
SPARK_JOB_INTERRUPT_ON_CANCEL
respektieren - [SPARK-37707][SQL] Speicherzuweisung zwischen TimestampNTZ und Date/Timestamp zulassen
- 23. Februar 2022
- [SPARK-37577] [SQL] Behebung von ClassCastException: ArrayType kann nicht auf StructType für Generieren von Bereinigungen umgewandelt werden
- 8. Februar 2022
- [SPARK-27442] [SQL] Prüffeldname beim Lesen/Schreiben Daten in Parquet entfernen.
- Updates der Betriebssystemsicherheit.
- 1. Februar 2022
- Updates der Betriebssystemsicherheit.
- 26. Januar 2022
- Ein Fehler wurde behoben, bei dem gleichzeitige Transaktionen für Delta-Tabellen unter bestimmten seltenen Bedingungen in einer nicht serialisierbaren Reihenfolge committet werden konnten.
- Ein Fehler wurde behoben, bei dem der OPTIMIEREN-Befehl fehlschlagen konnte, wenn der ANSI-SQL Dialekt aktiviert war.
- 19. Januar 2022
- Unterstützung für das Inlining temporärer Anmeldeinformationen für COPY INTO zum Laden der Quelldaten ohne SQL ANY_FILE-Berechtigungen eingeführt.
- Ein Problem mit nicht genügend Arbeitsspeicher beim Zwischenspeichern von Abfrageergebnisse wurde unter bestimmten Bedingungen behoben.
- Es wurde ein Problem mit
USE DATABASE
behoben, bei dem ein Benutzer den aktuellen Katalog in einen nicht standardmäßigen Katalog umschaltet. - Fehlerbehebungen und Sicherheitsverbesserungen.
- Updates der Betriebssystemsicherheit.
- 20. Dezember 2021
- Ein seltener Fehler bei der filterbasierten Filterung von Parquet-Spaltenindizes wurde behoben.
Databricks Runtime 10.0 (EoS)
Siehe Databricks Runtime 10.0 (EoS).
- 19. April 2022
- [SPARK-37270] [SQL] Pushen von foldable in CaseWhen-Branches korrigieren, wenn elseValue leer ist
- Updates der Betriebssystemsicherheit.
- 6. April 2022
- [SPARK-38631][CORE] Java-basierte Implementierung zum entpacken bei Utils.unpack verwenden
- Updates der Betriebssystemsicherheit.
- 22. März 2022
- [SPARK-38437][SQL] Vorsichtige Serialisierung von datetime-Werten in der Datenquelle
- [SPARK-38180][SQL] Sichere Umwandlungsausdrücke in korrelierten Gleichheitsprädikaten zulassen
- [SPARK-38155][SQL] Verschiedene Aggregate in lateralen Unterabfragen mit nicht unterstützten Prädikaten verbieten
- [SPARK-38325][SQL] ANSI-Modus: Potenzielle Laufzeitfehler in HashJoin.extractKeyExprAt() vermeiden
- 14. März 2022
- Verbesserte Transaktionskonflikterkennung für leere Transaktionen in Delta Lake.
- [SPARK-38185][SQL] Korrigieren falscher Daten, wenn die Aggregatfunktion leer ist
- [SPARK-38318][SQL] Regression beim Ersetzen einer Datasetansicht
- [SPARK-38236][SQL] Absolute Dateipfade, die in „Tabelle erstellen/ändern“ angegeben sind, werden als relativ behandelt
- [SPARK-35937][SQL] Extrahieren des Datumsfelds aus dem Zeitstempel sollte im ANSI-Modus funktionieren
- [SPARK-34069][SQL] Kill barrier-Tasks sollten
SPARK_JOB_INTERRUPT_ON_CANCEL
respektieren - [SPARK-37707][SQL] Speicherzuweisung zwischen TimestampNTZ und Date/Timestamp zulassen
- 23. Februar 2022
- [SPARK-37577] [SQL] Behebung von ClassCastException: ArrayType kann nicht auf StructType für Generieren von Bereinigungen umgewandelt werden
- 8. Februar 2022
- [SPARK-27442] [SQL] Prüffeldname beim Lesen/Schreiben Daten in Parquet entfernen.
- [SPARK-36905] [SQL] Problem beim Lesen von Hive-Ansichten ohne explizite Spaltennamen korrigieren
- [SPARK-37859][SQL] Problem behoben, dass SQL-Tabellen, die mit JDBC mit Spark 3.1 erstellt wurden, mit 3.2 nicht lesbar sind
- Updates der Betriebssystemsicherheit.
- 1. Februar 2022
- Updates der Betriebssystemsicherheit.
- 26. Januar 2022
- Ein Fehler wurde behoben, bei dem gleichzeitige Transaktionen für Delta-Tabellen unter bestimmten seltenen Bedingungen in einer nicht serialisierbaren Reihenfolge committet werden konnten.
- Ein Fehler wurde behoben, bei dem der OPTIMIEREN-Befehl fehlschlagen konnte, wenn der ANSI-SQL Dialekt aktiviert war.
- 19. Januar 2022
- Fehlerbehebungen und Sicherheitsverbesserungen.
- Updates der Betriebssystemsicherheit.
- 20. Dezember 2021
- Ein seltener Fehler bei der filterbasierten Filterung von Parquet-Spaltenindizes wurde behoben.
- 9. November 2021
- Es wurden zusätzliche Konfigurations-Flags eingeführt, um eine fein abgrenzende Steuerung des ANSI-Verhaltens zu ermöglichen.
- 4. November 2021
- Ein Fehler wurde behoben, der dazu führen konnte, dass Structured Streaming-Streams mit einer ArrayIndexOutOfBoundsException fehlschlägt.
- Es wurde eine Race-Condition behoben, die zu einem Abfragefehler mit einer IOException wie
java.io.IOException: No FileSystem for scheme
oder die führen konnte, oder die dazu führen konnte, dass Änderungen insparkContext.hadoopConfiguration
in Abfragen nicht wirksam wurden. - Der Apache Spark Connector für die Deltafreigabe wurde auf 0.2.0 aktualisiert.
- 30. November 2021
- Es wurde ein Problem mit der Zeitstempel-Analyse behoben, bei dem eine Zeitzonenzeichenfolge ohne Doppelpunkt als ungültig angesehen wurde.
- Ein Problem mit nicht genügend Arbeitsspeicher beim Zwischenspeichern von Abfrageergebnisse wurde unter bestimmten Bedingungen behoben.
- Es wurde ein Problem mit
USE DATABASE
behoben, bei dem ein Benutzer den aktuellen Katalog in einen nicht standardmäßigen Katalog umschaltet.
Databricks Runtime 9.0 (EoS)
Siehe Databricks Runtime 9.0 (EoS).
- 8. Februar 2022
- Updates der Betriebssystemsicherheit.
- 1. Februar 2022
- Updates der Betriebssystemsicherheit.
- 26. Januar 2022
- Ein Fehler wurde behoben, bei dem der OPTIMIEREN-Befehl fehlschlagen konnte, wenn der ANSI-SQL Dialekt aktiviert war.
- 19. Januar 2022
- Fehlerbehebungen und Sicherheitsverbesserungen.
- Updates der Betriebssystemsicherheit.
- 4. November 2021
- Ein Fehler wurde behoben, der dazu führen konnte, dass Structured Streaming-Streams mit einer ArrayIndexOutOfBoundsException fehlschlägt.
- Es wurde eine Race-Condition behoben, die zu einem Abfragefehler mit einer IOException wie
java.io.IOException: No FileSystem for scheme
oder die führen konnte, oder die dazu führen konnte, dass Änderungen insparkContext.hadoopConfiguration
in Abfragen nicht wirksam wurden. - Der Apache Spark Connector für die Deltafreigabe wurde auf 0.2.0 aktualisiert.
- 22. September 2021
- Ein Fehler beim Casten eines Spark-Arrays mit NULL in eine Zeichenfolge wurde behoben.
- 15. September 2021
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
verursachen kann.
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
- 8. September 2021
- Unterstützung für Schemaname (Format
databaseName.schemaName.tableName
) als Zieltabellenname für Azure Synapse Connector hinzugefügt. - Die JDBC-Typen Geometrie und Geografie wurden für Spark-SQL.
- [SPARK-33527][SQL] Die Funktion der Dekodierung wurde erweitert, damit sie mit den gängigen Datenbanken übereinstimmt.
- [SPARK-36532][CORE][3.1] Deadlock in
CoarseGrainedExecutorBackend.onDisconnected
executorsconnected
behoben, um zu verhindern, dass das Herunterfahren des Executors hängt.
- Unterstützung für Schemaname (Format
- 25. August 2021
- SQL Server Treiberbibliothek wurde auf 9.2.1.jre8 aktualisiert.
- Der Snowflake-Connector wurde auf 2.9.0 aktualisiert.
- Ein fehlerhafter Link zum besten Test-Notebook auf der AutoML-Experimentseite wurde behoben.
Databricks Runtime 8.4 (EoS)
Siehe Databricks Runtime 8.4 (EoS).
- 19. Januar 2022
- Updates der Betriebssystemsicherheit.
- 4. November 2021
- Ein Fehler wurde behoben, der dazu führen konnte, dass Structured Streaming-Streams mit einer ArrayIndexOutOfBoundsException fehlschlägt.
- Es wurde eine Race-Condition behoben, die zu einem Abfragefehler mit einer IOException wie
java.io.IOException: No FileSystem for scheme
oder die führen konnte, oder die dazu führen konnte, dass Änderungen insparkContext.hadoopConfiguration
in Abfragen nicht wirksam wurden. - Der Apache Spark Connector für die Deltafreigabe wurde auf 0.2.0 aktualisiert.
- 22. September 2021
- Der Spark-JDBC-Treiber wurde auf 2.6.19.1030 aktualisiert.
- [SPARK-36734][SQL] Orc auf 1.5.1 aktualisieren
- 15. September 2021
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
verursachen kann. - Updates der Betriebssystemsicherheit.
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
- 8. September 2021
- [SPARK-36532][CORE][3.1] Deadlock in
CoarseGrainedExecutorBackend.onDisconnected
executorsconnected
behoben, um zu verhindern, dass das Herunterfahren des Executors hängt.
- [SPARK-36532][CORE][3.1] Deadlock in
- 25. August 2021
- SQL Server Treiberbibliothek wurde auf 9.2.1.jre8 aktualisiert.
- Der Snowflake-Connector wurde auf 2.9.0 aktualisiert.
- Behebt einen Fehler bei der Passthrough-Vorgehensweise für Anmeldeinformationen, der durch die neue Parquet-Vorabrufoptimierung verursacht wurde, bei der passthrough-Anmeldeinformationen des Benutzers während des Dateizugriffs möglicherweise nicht gefunden wurden.
- 11. August 2021
- Behebt ein RocksDB-Inkompatibilitätsproblem, das ältere Versionen Databricks Runtime 8.4 verhindert. Dadurch wird die Forward-Kompatibilität für Auto Loader-,
COPY INTO
- und zustandsbehaftete Streaminganwendungen korrigiert. - Behebt einen Fehler beim Verwenden des Auto Loaders zum Lesen von CSV-Dateien mit nicht übereinstimmenden Headerdateien. Wenn die Spaltennamen nicht übereinstimmen, wird die Spalte mit Null-Werten gefüllt. Wenn nun ein Schema bereitgestellt wird, wird davon ausgegangen, dass das Schema identisch ist, und Spaltenkonflikte werden nur gespeichert, wenn die gespeicherten Datenspalten aktiviert sind.
- Fügt dem Azure Synapse-Connector eine
externalDataSource
neue Option namensCONTROL
hinzu, um die Berechtigungsanforderung für die Datenbank zum Lesen von PolyBase zu entfernen.
- Behebt ein RocksDB-Inkompatibilitätsproblem, das ältere Versionen Databricks Runtime 8.4 verhindert. Dadurch wird die Forward-Kompatibilität für Auto Loader-,
- 29. Juli 2021
- [SPARK-36034][BUILD] Umstellung der Datumsangaben in Push-Down-Filtern auf Parquet
- [SPARK-36163][BUILD] Richtige JDBC-Eigenschaften im JDBC-Connectoranbieter übertragen und Option
connectionProvider
hinzufügen
Databricks Runtime 8.3 (EoS)
Siehe Databricks Runtime 8.3 (EoS).
- 19. Januar 2022
- Updates der Betriebssystemsicherheit.
- 4. November 2021
- Ein Fehler wurde behoben, der dazu führen konnte, dass Structured Streaming-Streams mit einer ArrayIndexOutOfBoundsException fehlschlägt.
- Es wurde eine Race-Condition behoben, die zu einem Abfragefehler mit einer IOException wie
java.io.IOException: No FileSystem for scheme
oder die führen konnte, oder die dazu führen konnte, dass Änderungen insparkContext.hadoopConfiguration
in Abfragen nicht wirksam wurden.
- 22. September 2021
- Der Spark-JDBC-Treiber wurde auf 2.6.19.1030 aktualisiert.
- 15. September 2021
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
verursachen kann. - Updates der Betriebssystemsicherheit.
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
- 8. September 2021
- [SPARK-35700][SQL][WARMFIX] Lesen von char/varchar-ORC-Tabellen, die von externen Systemen erstellt und geschrieben wurden
- [SPARK-36532][CORE][3.1] Deadlock in
CoarseGrainedExecutorBackend.onDisconnected
executorsconnected
behoben, um zu verhindern, dass das Herunterfahren des Executors hängt.
- 25. August 2021
- SQL Server Treiberbibliothek wurde auf 9.2.1.jre8 aktualisiert.
- Der Snowflake-Connector wurde auf 2.9.0 aktualisiert.
- Behebt einen Fehler bei der Passthrough-Vorgehensweise für Anmeldeinformationen, der durch die neue Parquet-Vorabrufoptimierung verursacht wurde, bei der passthrough-Anmeldeinformationen des Benutzers während des Dateizugriffs möglicherweise nicht gefunden wurden.
- 11. August 2021
- Behebt einen Fehler beim Verwenden des Auto Loaders zum Lesen von CSV-Dateien mit nicht übereinstimmenden Headerdateien. Wenn die Spaltennamen nicht übereinstimmen, wird die Spalte mit Null-Werten gefüllt. Wenn nun ein Schema bereitgestellt wird, wird davon ausgegangen, dass das Schema identisch ist, und Spaltenkonflikte werden nur gespeichert, wenn die gespeicherten Datenspalten aktiviert sind.
- 29. Juli 2021
- Upgrade des Databricks Snowflake Spark-Connectors auf 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Umstellung der Datumsangaben in Push-Down-Filtern auf Parquet
- [SPARK-36163][BUILD] Richtige JDBC-Eigenschaften im JDBC-Connectoranbieter übertragen und Option
connectionProvider
hinzufügen
- 14. Juli 2021
- Es wurde ein Problem behoben, bei dem Spaltennamen mit Punkten im Azure Synapse wurden.
- Das Format
database.schema.table
für Synapse Connector wurde eingeführt. - Support für das Bereitstellen des Formats
databaseName.schemaName.tableName
als Zieltabelle anstelle vonschemaName.tableName
odertableName
wurde hinzugefügt.
- 15. Juni 2021
- Es wurde ein Fehler
NoSuchElementException
in Delta Lake-optimierten Schreibvorgängen behoben, der beim Schreiben großer Datenmengen und beim Auftreten von Executorverlusten auftreten kann. - Fügt SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
undSHOW USERS
-Befehle hinzu. Weitere Informationen finden Sie unter Sicherheitsanweisungen und Anweisungen anzeigen.
- Es wurde ein Fehler
Databricks Runtime 8.2 (EoS)
Siehe Databricks Runtime 8.2 (EoS).
22. September 2021
- Updates der Betriebssystemsicherheit.
15. September 2021
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
verursachen kann.
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
8. September 2021
- [SPARK-35700][SQL][WARMFIX] Lesen von char/varchar-ORC-Tabellen, die von externen Systemen erstellt und geschrieben wurden
- [SPARK-36532][CORE][3.1] Deadlock in
CoarseGrainedExecutorBackend.onDisconnected
executorsconnected
behoben, um zu verhindern, dass das Herunterfahren des Executors hängt.
25. August 2021
- Der Snowflake-Connector wurde auf 2.9.0 aktualisiert.
11. August 2021
- [SPARK-36034][SQL] Umstellung der Datumsangaben in Push-Down-Filtern auf Parquet.
29. Juli 2021
- Upgrade des Databricks Snowflake Spark-Connectors auf 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Richtige JDBC-Eigenschaften im JDBC-Connectoranbieter übertragen und Option
connectionProvider
hinzufügen
14. Juli 2021
- Es wurde ein Problem behoben, bei dem Spaltennamen mit Punkten im Azure Synapse wurden.
- Das Format
database.schema.table
für Synapse Connector wurde eingeführt. - Support für das Bereitstellen des Formats
databaseName.schemaName.tableName
als Zieltabelle anstelle vonschemaName.tableName
odertableName
wurde hinzugefügt. - Es wurde ein Fehler behoben, der verhinderte, dass Benutzer mit Deltatabellen zu älteren verfügbaren Versionen zurückreisen konnten.
15. Juni 2021
- Es wurde ein Fehler
NoSuchElementException
in Delta Lake-optimierten Schreibvorgängen behoben, der beim Schreiben großer Datenmengen und beim Auftreten von Executorverlusten auftreten kann.
- Es wurde ein Fehler
26. Mai 2021
- Python mit Sicherheitspatch aktualisiert, um das Python-Sicherheitsrisiko zu beheben (CVE-2021-3177).
30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
- [SPARK-34245] [CORE] Sicherstellen, dass der Master Executors entfernt, die den Zustand der Fertigstellung nicht senden konnten
- Es wurde ein OOM-Problem behoben, bei dem Auto Loader Statusmetriken für strukturiertes Streaming meldet.
Databricks Runtime 8.1 (EoS)
Siehe Databricks Runtime 8.1 (EoS).
22. September 2021
- Updates der Betriebssystemsicherheit.
15. September 2021
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
verursachen kann.
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
8. September 2021
- [SPARK-35700][SQL][WARMFIX] Lesen von char/varchar-ORC-Tabellen, die von externen Systemen erstellt und geschrieben wurden
- [SPARK-36532][CORE][3.1] Deadlock in
CoarseGrainedExecutorBackend.onDisconnected
executorsconnected
behoben, um zu verhindern, dass das Herunterfahren des Executors hängt.
25. August 2021
- Der Snowflake-Connector wurde auf 2.9.0 aktualisiert.
11. August 2021
- [SPARK-36034][SQL] Umstellung der Datumsangaben in Push-Down-Filtern auf Parquet.
29. Juli 2021
- Upgrade des Databricks Snowflake Spark-Connectors auf 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Richtige JDBC-Eigenschaften im JDBC-Connectoranbieter übertragen und Option
connectionProvider
hinzufügen
14. Juli 2021
- Es wurde ein Problem behoben, bei dem Spaltennamen mit Punkten im Azure Synapse wurden.
- Es wurde ein Fehler behoben, der verhinderte, dass Benutzer mit Deltatabellen zu älteren verfügbaren Versionen zurückreisen konnten.
15. Juni 2021
- Es wurde ein Fehler
NoSuchElementException
in Delta Lake-optimierten Schreibvorgängen behoben, der beim Schreiben großer Datenmengen und beim Auftreten von Executorverlusten auftreten kann.
- Es wurde ein Fehler
26. Mai 2021
- Python mit Sicherheitspatch aktualisiert, um das Python-Sicherheitsrisiko zu beheben (CVE-2021-3177).
30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
- Es wurde ein OOM-Problem behoben, bei dem Auto Loader Statusmetriken für strukturiertes Streaming meldet.
27. April 2021
- [SPARK-34245] [CORE] Sicherstellen, dass der Master Executors entfernt, die den Zustand der Fertigstellung nicht senden konnten
- [SPARK-34856] [SQL] ANSI-Modus: Umwandlung komplexer Typen in Zeichenfolgentyp zulassen
- [SPARK-35014] PhysicalAggregation-Muster beheben, um reduzierbare Ausdrücke nicht erneut generieren zu müssen
- return narrowest convertible type amo [SPARK-34769][SQL] AnsiTypeCoercion: Rückgabe des schmalsten konvertierbaren Typs aus der TypeCollection
- [SPARK-34614] [SQL] ANSI-Modus: Das Umwandeln von Zeichenfolge in boolesch lösen eine „Ausnahme bei Analyse“-Fehler aus
- [SPARK-33794][SQL] ANSI-Modus: Der NextDay-Ausdruck löst zur Laufzeit eine IllegalArgumentException aus, wenn er ungültige Eingaben erhält unter
Databricks Runtime 8.0 (EoS)
Siehe Databricks Runtime 8.0 (EoS).
15. September 2021
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
verursachen kann.
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
25. August 2021
- Der Snowflake-Connector wurde auf 2.9.0 aktualisiert.
11. August 2021
- [SPARK-36034][SQL] Umstellung der Datumsangaben in Push-Down-Filtern auf Parquet.
29. Juli 2021
- [SPARK-36163][BUILD] Richtige JDBC-Eigenschaften im JDBC-Connectoranbieter übertragen und Option
connectionProvider
hinzufügen
- [SPARK-36163][BUILD] Richtige JDBC-Eigenschaften im JDBC-Connectoranbieter übertragen und Option
14. Juli 2021
- Es wurde ein Problem behoben, bei dem Spaltennamen mit Punkten im Azure Synapse wurden.
- Es wurde ein Fehler behoben, der verhinderte, dass Benutzer mit Deltatabellen zu älteren verfügbaren Versionen zurückreisen konnten.
26. Mai 2021
- Python mit Sicherheitspatch aktualisiert, um das Python-Sicherheitsrisiko zu beheben (CVE-2021-3177).
30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
- [SPARK-34245] [CORE] Sicherstellen, dass der Master Executors entfernt, die den Zustand der Fertigstellung nicht senden konnten
24. März 2021
- [SPARK-34681] [SQL] Fehlerkorrektur für vollständigen äußeren gemischten Hashjoin, wenn die linke Seite mit einer Nicht-Gleichheitsbedingung erstellt wird
- [SPARK-34534] Korrektur der blockIds-Reihenfolge beim Verwenden von FetchShuffleBlocks zum Abrufen von Blöcken
- [SPARK-34613] Korrektur, dass Sicht nicht das Deaktivieren der Konfiguration des Hinweises erfasst
9. März 2021
- [SPARK-34543] [SQL] Beachten der
spark.sql.caseSensitive
-Konfiguration beim Auflösen der Partitionsspezifikation in v1SET LOCATION
- [SPARK-34392] [SQL] Unterstützung von ZoneOffset +h:mm in DateTimeUtils getZoneId
- [UI] Korrigieren des href-Links der Spark DAG-Visualisierung
- [SPARK-34436] [SQL] DPP-Unterstützung für LIKE ANY/ALL-Ausdrücke
- [SPARK-34543] [SQL] Beachten der
Databricks Runtime 7.6 (EoS)
Siehe Databricks Runtime 7.6 (EoS).
- 11. August 2021
- [SPARK-36034][SQL] Umstellung der Datumsangaben in Push-Down-Filtern auf Parquet.
- 29. Juli 2021
- [SPARK-32998][BUILD] Möglichkeit hinzugefügt, Standard-Remote-Repositories nur mit internen Repositories außer Kraft zu setzen
- 14. Juli 2021
- Es wurde ein Fehler behoben, der verhinderte, dass Benutzer mit Deltatabellen zu älteren verfügbaren Versionen zurückreisen konnten.
- 26. Mai 2021
- Python mit Sicherheitspatch aktualisiert, um das Python-Sicherheitsrisiko zu beheben (CVE-2021-3177).
- 30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
- [SPARK-34245] [CORE] Sicherstellen, dass der Master Executors entfernt, die den Zustand der Fertigstellung nicht senden konnten
- 24. März 2021
- [SPARK-34768] [SQL] Standardmäßige Größe des Eingabepuffers in Univocity berücksichtigen
- [SPARK-34534] Korrektur der blockIds-Reihenfolge beim Verwenden von FetchShuffleBlocks zum Abrufen von Blöcken
- 9. März 2021
- (nur Azure) Ein Fehler beim automatischen Lader wurde behoben, der dazu führen kann, dass NullPointerException bei Verwendung von Databricks Runtime 7.6 einen alten, in Databricks Runtime 7.2 erstellten Auto Loader-Stream ausführen kann.
- [UI] Korrigieren des href-Links der Spark DAG-Visualisierung
- Unbekannter Blattknoten-SparkPlan wird in SizeInBytesOnlyStatsSparkPlanVisitor nicht ordnungsgemäß behandelt
- Wiederherstellen des Ausgabeschemas von
SHOW DATABASES
- [Delta] [8.0, 7.6] Berechnungsfehler in der Logik für die automatische Optimierung der Dateigröße behoben
- Veraltungsprüfung für Delta-Tabellendateien im Festplattencache deaktivieren
- [SQL] Verwenden Sie den richtigen Buildschlüssel für die dynamische Beschneidung, wenn ein Joinhinweis für den Bereich vorhanden ist.
- Deaktivieren der Char-Typunterstützung in nicht-SQL-Codepfad
- NpE in DataFrameReader.schema vermeiden
- Korrektur des NPE, wenn die EventGridClient-Antwort keine Entität hat
- Beheben eines Fehlers beim Lesen eines geschlossenen Streams in Azure Auto Loader
- [SQL] Geben Sie keine Shuffle-Partitionsnummer an, wenn AOS aktiviert ist
- 24. Februar 2021
- Der Spark BigQuery-Connector wurde auf v0.18 aktualisiert, wodurch verschiedene Fehlerbehebungen und Unterstützung für Pfeil- und Avro-Iteratoren durchgeführt wurden.
- Es wurde ein Korrektheitsproblem behoben, das dazu führte, dass Spark falsche Ergebnisse zurückgab, wenn die Dezimalpräzision und die Skala der Parquet-Datei vom Spark-Schema abwichen.
- Es wurde ein Fehler beim Lesen Microsoft SQL Server Tabellen behoben, die räumliche Datentypen enthalten, indem die JDBC-Typen Geometrie und Geografie für Spark-SQL.
- Eine neue Konfiguration wurde eingeführt
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Diese Konfiguration steuert die integrierte Hive-Initialisierung. Wenn sie auf TRUE festgelegt ist, Azure Databricks alle Funktionen aus allen Datenbanken, die Benutzer haben, inFunctionRegistry
neu geladen. Dies ist das Standardverhalten im Hive-Metastore. Wenn „false“ festgelegt ist, Azure Databricks diesen Prozess zur Optimierung deaktiviert. - [SPARK-34212] Es wurden Probleme im Zusammenhang mit dem Lesen von Dezimaldaten aus Parquet-Dateien behoben.
- [SPARK-34260] [SQL] UnresolvedException beim doppelten Erstellen einer temporären Sicht beheben
Databricks Runtime 7.5 (EoS)
Siehe Databricks Runtime 7.5 (EoS).
- 26. Mai 2021
- Python mit Sicherheitspatch aktualisiert, um das Python-Sicherheitsrisiko zu beheben (CVE-2021-3177).
- 30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
- [SPARK-34245] [CORE] Sicherstellen, dass der Master Executors entfernt, die den Zustand der Fertigstellung nicht senden konnten
- 24. März 2021
- [SPARK-34768] [SQL] Standardmäßige Größe des Eingabepuffers in Univocity berücksichtigen
- [SPARK-34534] Korrektur der blockIds-Reihenfolge beim Verwenden von FetchShuffleBlocks zum Abrufen von Blöcken
- 9. März 2021
- (nur Azure) Ein Fehler beim automatischen Lader wurde behoben, der dazu führen kann, dass NullPointerException bei Verwendung von Databricks Runtime 7.5 einen alten, in Databricks Runtime 7.2 erstellten Auto Loader-Stream ausführen kann.
- [UI] Korrigieren des href-Links der Spark DAG-Visualisierung
- Unbekannter Blattknoten-SparkPlan wird in SizeInBytesOnlyStatsSparkPlanVisitor nicht ordnungsgemäß behandelt
- Wiederherstellen des Ausgabeschemas von
SHOW DATABASES
- Veraltungsprüfung für Delta-Tabellendateien im Festplattencache deaktivieren
- [SQL] Verwenden Sie den richtigen Buildschlüssel für die dynamische Beschneidung, wenn ein Joinhinweis für den Bereich vorhanden ist.
- Deaktivieren der Char-Typunterstützung in nicht-SQL-Codepfad
- NpE in DataFrameReader.schema vermeiden
- Korrektur des NPE, wenn die EventGridClient-Antwort keine Entität hat
- Beheben eines Fehlers beim Lesen eines geschlossenen Streams in Azure Auto Loader
- 24. Februar 2021
- Der Spark BigQuery-Connector wurde auf v0.18 aktualisiert, wodurch verschiedene Fehlerbehebungen und Unterstützung für Pfeil- und Avro-Iteratoren durchgeführt wurden.
- Es wurde ein Korrektheitsproblem behoben, das dazu führte, dass Spark falsche Ergebnisse zurückgab, wenn die Dezimalpräzision und die Skala der Parquet-Datei vom Spark-Schema abwichen.
- Es wurde ein Fehler beim Lesen Microsoft SQL Server Tabellen behoben, die räumliche Datentypen enthalten, indem die JDBC-Typen Geometrie und Geografie für Spark-SQL.
- Eine neue Konfiguration wurde eingeführt
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Diese Konfiguration steuert die integrierte Hive-Initialisierung. Wenn sie auf TRUE festgelegt ist, Azure Databricks alle Funktionen aus allen Datenbanken, die Benutzer haben, inFunctionRegistry
neu geladen. Dies ist das Standardverhalten im Hive-Metastore. Wenn „false“ festgelegt ist, Azure Databricks diesen Prozess zur Optimierung deaktiviert. - [SPARK-34212] Es wurden Probleme im Zusammenhang mit dem Lesen von Dezimaldaten aus Parquet-Dateien behoben.
- [SPARK-34260] [SQL] UnresolvedException beim doppelten Erstellen einer temporären Sicht beheben
- 4. Februar 2021
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
SELECT * FROM table LIMIT nrows
festgelegt hat. Die Regression wurde von Benutzern durchgeführt, die Abfragen über ODBC/JDBC mit aktivierter Pfeilserialisierung ausführen. - Es wurden Schreibzeitüberprüfungen für den Hive-Client eingeführt, um die Beschädigung von Metadaten im Hive-Metastore für Delta-Tabellen zu verhindern.
- Es wurde eine Regression behoben, die dazu führte, dass DBFS FUSE nicht gestartet werden konnte, wenn Konfigurationen von Clusterumgebungsvariablen ungültige Bash-Syntax enthalten.
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
- 20. Januar 2021
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
df.join(df.select($"col" as "new_col"), cond)
- Der abgeleitete DataFrame schließt einige Spalten über select, groupBy oder window aus.
- Die Verknüpfungsbedingung oder die folgende Transformation nach dem eingebundenen Datenrahmen bezieht sich auf die nicht allgemeinen Spalten. Zum Beispiel,
df.join(df.drop("a"), df("a") === 1)
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
- 12. Januar 2021
- Aktualisieren Sie Azure Storage SDK von 2.3.8 auf 2.3.9.
- [SPARK-33593] [SQL] Vektorleser hat falsche Daten mit binärem Partitionswert erhalten
- [SPARK-33480][SQL] aktualisiert die Fehlermeldung der Überprüfung der Länge der Einfügungslänge der char/varchar-Tabelle.
Databricks Runtime 7.3 LTS (EoS)
Siehe Databricks Runtime 7.3 LTS (EoS).
10. September 2023
- Verschiedene Fehlerbehebungen
30. August 2023
- Updates der Betriebssystemsicherheit.
15. August 2023
- Updates der Betriebssystemsicherheit.
23. Juni 2023
- Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
- Updates der Betriebssystemsicherheit.
15. Juni 2023
- [SPARK-43413][SQL] Beheben der
IN
-Unterabfrage fürListQuery
-NULL-Zulässigkeit. - Updates der Betriebssystemsicherheit.
- [SPARK-43413][SQL] Beheben der
2. Juni 2023
- Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
17. Mai 2023
- Updates der Betriebssystemsicherheit.
25. April 2023
- Updates der Betriebssystemsicherheit.
11. April 2023
- [SPARK-42967][CORE] Korrigieren von SparkListenerTaskStart.stageAttemptId, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde.
- Verschiedene Fehlerbehebungen
29. März 2023
- Updates der Betriebssystemsicherheit.
14. März 2023
- Verschiedene Fehlerbehebungen
28. Februar 2023
- Updates der Betriebssystemsicherheit.
16. Februar 2023
- Updates der Betriebssystemsicherheit.
31. Januar 2023
- Tabellentypen von JDBC-Tabellen sind jetzt standardmäßig EXTERNAL.
18. Januar 2023
- Updates der Betriebssystemsicherheit.
29. November 2022
- Verschiedene Fehlerbehebungen
15. November 2022
- Apache commons-text wurde auf 1.10.0 aktualisiert.
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
1. November 2022
- [SPARK-38542][SQL] UnsafeHashedRelation sollte numKeys herausserialisieren
18. Oktober 2022
- Updates der Betriebssystemsicherheit.
5. Oktober 2022
- Verschiedene Fehlerbehebungen
- Updates der Betriebssystemsicherheit.
22. September 2022
- [SPARK-40089][SQL] Korrektur der Sortierung für einige Dezimaltypen
6. September 2022
- [SPARK-35542][CORE][ML] Korrektur: Bucketizer, der für mehrere Spalten mit den Parametern „splitsArray“, „inputCols“ und „outputCols“ erstellt wurde, kann nach dem Speichern nicht geladen werden.
- [SPARK-40079][CORE] Imputer-inputCols-Überprüfung für leeren Eingabefall hinzugefügt
24. August 2022
- [SPARK-39962][PYTHON][SQL] Projektion anwenden, wenn Gruppenattribute leer sind
- Updates der Betriebssystemsicherheit.
9. August 2022
- Updates der Betriebssystemsicherheit.
27. Juli 2022
- Machen Sie die Ergebnisse von Delta MERGE-Vorgängen konsistent, wenn die Quelle nicht deterministisch ist.
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
13. Juli 2022
- [SPARK-32680][SQL] V2 CTAS nicht mit nicht aufgelöster Abfrage vorverarbeiten
- Die Verwendung nativer Cloud-APIs durch Autoloader für die Verzeichnisauflistung in Azure wurde deaktiviert.
- Updates der Betriebssystemsicherheit.
5. Juli 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
2. Juni 2022
- [SPARK-38918][SQL] Bei der Bereinigung geschachtelter Spalten sollten Attribute herausgefiltert werden, die nicht zur aktuellen Beziehung gehören
- Updates der Betriebssystemsicherheit.
18. Mai 2022
- Upgrade der AWS SDK-Version von 1.11.655 auf 1.11.678.
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
19. April 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
6. April 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
14. März 2022
- Entfernen anfälliger Klassen aus log4j 1.2.17 jar
- Verschiedene Fehlerbehebungen
23. Februar 2022
- [SPARK-37859][SQL] Beim Schemavergleich nicht auf Metadaten überprüfen
8. Februar 2022
- Aktualisieren Sie das Ubuntu JDK auf 1.8.0.312.
- Updates der Betriebssystemsicherheit.
1. Februar 2022
- Updates der Betriebssystemsicherheit.
26. Januar 2022
- Ein Fehler wurde behoben, bei dem der OPTIMIEREN-Befehl fehlschlagen konnte, wenn der ANSI-SQL Dialekt aktiviert war.
19. Januar 2022
- Conda-Standardkanal wird aus Version 7.3 ML LTS entfernt
- Updates der Betriebssystemsicherheit.
7. Dezember 2021
- Updates der Betriebssystemsicherheit.
4\. November 2021
- Ein Fehler wurde behoben, der dazu führen konnte, dass Structured Streaming-Streams mit einer ArrayIndexOutOfBoundsException fehlschlägt.
- Es wurde eine Race-Condition behoben, die zu einem Abfragefehler mit einer IOException wie
java.io.IOException: No FileSystem for scheme
oder die führen konnte, oder die dazu führen konnte, dass Änderungen insparkContext.hadoopConfiguration
in Abfragen nicht wirksam wurden.
15. September 2021
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
verursachen kann. - Updates der Betriebssystemsicherheit.
- Es wurde eine Racebedingung behoben, die einen Abfragefehler mit einer IOException wie
8. September 2021
- [SPARK-35700][SQL][WARMFIX] Lesen von char/varchar-ORC-Tabellen, die von externen Systemen erstellt und geschrieben wurden
- [SPARK-36532][CORE][3.1] Deadlock in
CoarseGrainedExecutorBackend.onDisconnected
executorsconnected
behoben, um zu verhindern, dass das Herunterfahren des Executors hängt.
25. August 2021
- Der Snowflake-Connector wurde auf 2.9.0 aktualisiert.
29. Juli 2021
- [SPARK-36034][BUILD] Umstellung der Datumsangaben in Push-Down-Filtern auf Parquet
- [SPARK-34508][BUILD] Überspringen
HiveExternalCatalogVersionsSuite
, wenn das Netzwerk aus ist
14. Juli 2021
- Das Format
database.schema.table
für Azure Synapse Connector wurde eingeführt. - Support für das Bereitstellen des Formats
databaseName.schemaName.tableName
als Zieltabelle anstelle vonschemaName.tableName
odertableName
wurde hinzugefügt. - Es wurde ein Fehler behoben, der verhinderte, dass Benutzer mit Deltatabellen zu älteren verfügbaren Versionen zurückreisen konnten.
- Das Format
15. Juni 2021
- Es wurde ein Fehler
NoSuchElementException
in Delta Lake-optimierten Schreibvorgängen behoben, der beim Schreiben großer Datenmengen und beim Auftreten von Executorverlusten auftreten kann. - Python mit Sicherheitspatch aktualisiert, um das Python-Sicherheitsrisiko zu beheben (CVE-2021-3177).
- Es wurde ein Fehler
30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
- [SPARK-34245] [CORE] Sicherstellen, dass der Master Executors entfernt, die den Zustand der Fertigstellung nicht senden konnten
- [SPARK-35045] [SQL] Interne Option zur Steuerung des Eingabepuffers in Univocity hinzufügen
24. März 2021
- [SPARK-34768] [SQL] Standardmäßige Größe des Eingabepuffers in Univocity berücksichtigen
- [SPARK-34534] Korrektur der blockIds-Reihenfolge beim Verwenden von FetchShuffleBlocks zum Abrufen von Blöcken
- [SPARK-33118] [SQL] Fehler bei CREATE TEMPORARY TABLE mit Speicherort
9. März 2021
- Der aktualisierte Azure Blob File System-Treiber für Azure Data Lake Storage Gen2 ist jetzt standardmäßig aktiviert. Dies bringt mehrere Stabilitätsverbesserungen mit sich.
- Pfadtrennzeichen unter Windows für
databricks-connect get-jar-dir
korrigiert - [UI] Korrigieren des href-Links der Spark DAG-Visualisierung
- [DBCONNECT] Hinzufügen von Unterstützung für FlatMapCoGroupsInPandas in Databricks Verbinden 7.3
- Wiederherstellen des Ausgabeschemas von
SHOW DATABASES
- [SQL] Verwenden Sie den richtigen Buildschlüssel für die dynamische Beschneidung, wenn ein Joinhinweis für den Bereich vorhanden ist.
- Veraltungsprüfung für Delta-Tabellendateien im Festplattencache deaktivieren
- [SQL] Geben Sie keine Shuffle-Partitionsnummer an, wenn AOS aktiviert ist
24. Februar 2021
- Der Spark BigQuery-Connector wurde auf v0.18 aktualisiert, wodurch verschiedene Fehlerbehebungen und Unterstützung für Pfeil- und Avro-Iteratoren durchgeführt wurden.
- Es wurde ein Korrektheitsproblem behoben, das dazu führte, dass Spark falsche Ergebnisse zurückgab, wenn die Dezimalpräzision und die Skala der Parquet-Datei vom Spark-Schema abwichen.
- Es wurde ein Fehler beim Lesen Microsoft SQL Server Tabellen behoben, die räumliche Datentypen enthalten, indem die JDBC-Typen Geometrie und Geografie für Spark-SQL.
- Eine neue Konfiguration wurde eingeführt
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Diese Konfiguration steuert die integrierte Hive-Initialisierung. Wenn sie auf TRUE festgelegt ist, Azure Databricks alle Funktionen aus allen Datenbanken, die Benutzer haben, inFunctionRegistry
neu geladen. Dies ist das Standardverhalten im Hive-Metastore. Wenn „false“ festgelegt ist, Azure Databricks diesen Prozess zur Optimierung deaktiviert. - [SPARK-34212] Es wurden Probleme im Zusammenhang mit dem Lesen von Dezimaldaten aus Parquet-Dateien behoben.
- [SPARK-33579][UI] Korrektur der leeren Executorseite hinter dem Proxy.
- [SPARK-20044] [UI] Unterstützung der Spark-Benutzeroberfläche hinter dem Front-End-Reverseproxy mithilfe einer Pfadpräfix.
- [SPARK-33277] [PYSPARK][SQL] ContextAwareIterator zum Beenden des Verbrauchs nach Taskende verwenden.
4. Februar 2021
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
SELECT * FROM table LIMIT nrows
festgelegt hat. Die Regression wurde von Benutzern durchgeführt, die Abfragen über ODBC/JDBC mit aktivierter Pfeilserialisierung ausführen. - Es wurde eine Regression behoben, die dazu führte, dass DBFS FUSE nicht gestartet werden konnte, wenn Konfigurationen von Clusterumgebungsvariablen ungültige Bash-Syntax enthalten.
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
20. Januar 2021
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
df.join(df.select($"col" as "new_col"), cond)
- Der abgeleitete DataFrame schließt einige Spalten über select, groupBy oder window aus.
- Die Verknüpfungsbedingung oder die folgende Transformation nach dem eingebundenen Datenrahmen bezieht sich auf die nicht allgemeinen Spalten. Zum Beispiel,
df.join(df.drop("a"), df("a") === 1)
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
12. Januar 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-33593] [SQL] Vektorleser hat falsche Daten mit binärem Partitionswert erhalten
- [SPARK-33677] [SQL] LikeSimplification-Regel überspringen, wenn Muster ein EscapeChar enthält
- [SPARK-33592] [ML][PYTHON] Pyspark ML Validator-Parameter in estimatorParamMaps können nach dem Speichern und erneuten Laden verloren gehen
- [SPARK-33071][SPARK-33536][SQL] Änderung der dataset_id von LogicalPlan in join() vermeiden, um DetectAmbiguousSelfJoin nicht zu beeinträchtigen
8. Dezember 2020
- [SPARK-33587] [CORE] Executor bei geschachtelten schwerwiegenden Fehlern beenden
- [SPARK-27421] [SQL] Filter für int-Spalte und Werteklasse java.lang.String beim Bereinigen der Partitionsspalte beheben
- [SPARK-33316] [SQL] Unterstützung des vom Benutzer bereitgestellten Nullwerte zulassenden Avro-Schemas für das Non-Nullable-Catalyst-Schema beim Schreiben in Avro
- Spark-Aufträge, die mit Databricks Connect gestartet wurden, konnten auf unbestimmte Zeit mit
Executor$TaskRunner.$anonfun$copySessionState
in einem Stack-Trace im Executor hängen bleiben - Updates der Betriebssystemsicherheit.
1. Dezember 2020
- [SPARK-33404] [SQL][3.0] Falsche Ergebnisse im
date_trunc
-Ausdruck beheben - [SPARK-33339] [PYTHON] Pyspark-Anwendung hängt aufgrund eines Fehlers, der keine Ausnahme ist
- [SPARK-33183][SQL][HOTFIX] Optimiererregel EliminateSorts beheben und eine physische Regel hinzufügen, um redundante Sortierungen zu entfernen
- [SPARK-33371] [PYTHON][3.0] „setup.py“ und Tests für Python 3.0 aktualisieren
- [SPARK-33391] [SQL] element_at mit CreateArray nicht einen auf 1 basierenden Index berücksichtigen
- [SPARK-33306] [SQL] Zeitzone wird bei der Umwandlung von Datum in Zeichenfolge benötigt
- [SPARK-33260] [SQL] Falsche Ergebnisse von SortExec beheben, wenn sortOrder entsprechend „Stream“ ist
- [SPARK-33404] [SQL][3.0] Falsche Ergebnisse im
5. November 2020
- Korrektur von ABFS- und WASB-Sperren in Bezug auf
UserGroupInformation.getCurrentUser()
. - Korrektur eines Endlosschleifenfehlers, wenn der Avro-Reader die MAGIC-Bytes liest.
- Fügen Sie Support für die USAGE-Berechtigung hinzu.
- Leistungsverbesserungen bei der Berechtigungsprüfung in der Tabellenzugriffssteuerung.
- Korrektur von ABFS- und WASB-Sperren in Bezug auf
13. Oktober 2020
- Updates der Betriebssystemsicherheit.
- Sie können mithilfe der FUSE-Bereitstellung unter /dbfs/ lese- und schreibgeschützt aus DBFS schreiben, wenn sie sich in einem Passthrough-fähigen Cluster mit hohen Parallelitätsanmeldeinformationen befinden. Reguläre Bereitstellungen werden unterstützt, aber Bereitstellungen, die Passthrough-Anmeldeinformationen benötigen, werden noch nicht unterstützt.
- [SPARK-32999][SQL] Verwenden Sie Utils.getSimpleName, um einen fehlerhaften Klassennamen in TreeNode zu vermeiden
- [SPARK-32585] [SQL] Support der Scala-Enumeration in ScalaReflection
- Das Auflisten von Verzeichnissen in der FUSE-Bereitstellung, die Dateinamen mit ungültigen XML-Zeichen enthalten, wurde behoben.
- Für die FUSE-Bereitstellung werden listMultipartUploads nicht mehr verwendet.
29. September 2020
- [SPARK-32718] [SQL] Entfernen unnötiger Schlüsselwörter für Intervalleinheiten
- [SPARK-32635] [SQL] Korrektur der reduzierbaren Verteilung
- Fügen Sie eine neue Konfiguration
spark.shuffle.io.decoder.consolidateThreshold
hinzu. Legen Sie den Konfigurationswert aufLong.MAX_VALUE
fest, um die Konsolidierung von netty FrameBuffers zu überspringen, was in Eckfällenjava.lang.IndexOutOfBoundsException
verhindert.
25. April 2023
- Updates der Betriebssystemsicherheit.
11. April 2023
- Verschiedene Fehlerbehebungen
29. März 2023
- Verschiedene Fehlerbehebungen
14. März 2023
- Updates der Betriebssystemsicherheit.
28. Februar 2023
- Updates der Betriebssystemsicherheit.
16. Februar 2023
- Updates der Betriebssystemsicherheit.
31. Januar 2023
- Verschiedene Fehlerbehebungen
18. Januar 2023
- Updates der Betriebssystemsicherheit.
29. November 2022
- Updates der Betriebssystemsicherheit.
15. November 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
1. November 2022
- Updates der Betriebssystemsicherheit.
18. Oktober 2022
- Updates der Betriebssystemsicherheit.
- 5. Oktober 2022
- Updates der Betriebssystemsicherheit.
- 24. August 2022
- Updates der Betriebssystemsicherheit.
- 9. August 2022
- Updates der Betriebssystemsicherheit.
- 27. Juli 2022
- Updates der Betriebssystemsicherheit.
- 5. Juli 2022
- Updates der Betriebssystemsicherheit.
- 2. Juni 2022
- Updates der Betriebssystemsicherheit.
- 18. Mai 2022
- Updates der Betriebssystemsicherheit.
- 19. April 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
- 6. April 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
- 14. März 2022
- Verschiedene Fehlerbehebungen
- 23. Februar 2022
- Verschiedene Fehlerbehebungen
- 8. Februar 2022
- Aktualisieren Sie das Ubuntu JDK auf 1.8.0.312.
- Updates der Betriebssystemsicherheit.
- 1. Februar 2022
- Updates der Betriebssystemsicherheit.
- 19. Januar 2022
- Updates der Betriebssystemsicherheit.
- 22. September 2021
- Updates der Betriebssystemsicherheit.
- 30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
- 12. Januar 2021
- Updates der Betriebssystemsicherheit.
- 8. Dezember 2020
- [SPARK-27421] [SQL] Filter für int-Spalte und Werteklasse java.lang.String beim Bereinigen der Partitionsspalte beheben
- Updates der Betriebssystemsicherheit.
- 1. Dezember 2020
- [SPARK-33260] [SQL] Falsche Ergebnisse von SortExec beheben, wenn sortOrder entsprechend „Stream“ ist
- 3. November 2020
- Java-Version von 1.8.0_252 auf 1.8.0_265 aktualisiert.
- Korrektur von ABFS- und WASB-Sperren in Bezug auf UserGroupInformation.getCurrentUser()
- 13. Oktober 2020
- Updates der Betriebssystemsicherheit.
Databricks Runtime 6.4 Erweiterter Support (EoS)
Siehe Databricks Runtime 6.4 (EoS) und Databricks Runtime 6.4 Erweiterter Support (EoS).
5. Juli 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
2. Juni 2022
- Updates der Betriebssystemsicherheit.
18. Mai 2022
- Updates der Betriebssystemsicherheit.
19. April 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
6. April 2022
- Updates der Betriebssystemsicherheit.
- Verschiedene Fehlerbehebungen
14. März 2022
- Entfernen anfälliger Klassen aus log4j 1.2.17 jar
- Verschiedene Fehlerbehebungen
23. Februar 2022
- Verschiedene Fehlerbehebungen
8. Februar 2022
- Aktualisieren Sie das Ubuntu JDK auf 1.8.0.312.
- Updates der Betriebssystemsicherheit.
1. Februar 2022
- Updates der Betriebssystemsicherheit.
26. Januar 2022
- Ein Fehler wurde behoben, bei dem der OPTIMIEREN-Befehl fehlschlagen konnte, wenn der ANSI-SQL Dialekt aktiviert war.
19. Januar 2022
- Updates der Betriebssystemsicherheit.
8. Dezember 2021
- Updates der Betriebssystemsicherheit.
22. September 2021
- Updates der Betriebssystemsicherheit.
15. Juni 2021
- [SPARK-35576] [SQL] Vertrauliche Informationen im Ergebnis des Set-Befehls redigieren
7. Juni 2021
- Fügen Sie eine neue Konfiguration namens
spark.sql.maven.additionalRemoteRepositories
hinzu, eine durch Kommas getrennte Zeichenfolgenkonfiguration der optionalen zusätzlichen Maven-Remotespiegelung. Dieser Wert liegt standardmäßig beihttps://maven-central.storage-download.googleapis.com/maven2/
.
- Fügen Sie eine neue Konfiguration namens
30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
9. März 2021
- Portieren Sie HADOOP-17215 an den Azure Blob File System-Treiber (Unterstützung für bedingtes Überschreiben).
- Pfadtrennzeichen unter Windows für
databricks-connect get-jar-dir
korrigiert - Unterstützung für die Hive-Metastore-Versionen 2.3.5, 2.3.6 und 2.3.7 hinzugefügt
- Der Pfeil „totalResultsCollected“ wurde nach einem Überlauf falsch gemeldet.
24. Februar 2021
- Eine neue Konfiguration wurde eingeführt
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Diese Konfiguration steuert die integrierte Hive-Initialisierung. Wenn sie auf TRUE festgelegt ist, Azure Databricks alle Funktionen aus allen Datenbanken, die Benutzer haben, inFunctionRegistry
neu geladen. Dies ist das Standardverhalten im Hive-Metastore. Wenn „false“ festgelegt ist, Azure Databricks diesen Prozess zur Optimierung deaktiviert.
- Eine neue Konfiguration wurde eingeführt
4. Februar 2021
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
SELECT * FROM table LIMIT nrows
festgelegt hat. Die Regression wurde von Benutzern durchgeführt, die Abfragen über ODBC/JDBC mit aktivierter Pfeilserialisierung ausführen. - Es wurde eine Regression behoben, die dazu führte, dass DBFS FUSE nicht gestartet werden konnte, wenn Konfigurationen von Clusterumgebungsvariablen ungültige Bash-Syntax enthalten.
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
12. Januar 2021
- Updates der Betriebssystemsicherheit.
8. Dezember 2020
- [SPARK-27421] [SQL] Filter für int-Spalte und Werteklasse java.lang.String beim Bereinigen der Partitionsspalte beheben
- [SPARK-33183] [SQL] Optimiererregel EliminateSorts beheben und eine physische Regel hinzufügen, um redundante Sortierungen zu entfernen
- [Runtime 6.4 ML GPU] Wir haben zuvor eine falsche Version (2.7.8-1+cuda11.1) der NCCL installiert. Dieses Release korrigiert es auf 2.4.8-1+cuda10.0, das mit CUDA 10.0 kompatibel ist.
- Updates der Betriebssystemsicherheit.
1. Dezember 2020
- [SPARK-33260] [SQL] Falsche Ergebnisse von SortExec beheben, wenn sortOrder entsprechend „Stream“ ist
- [SPARK-32635] [SQL] Korrektur der reduzierbaren Verteilung
3. November 2020
- Java-Version von 1.8.0_252 auf 1.8.0_265 aktualisiert.
- Korrektur von ABFS- und WASB-Sperren in Bezug auf UserGroupInformation.getCurrentUser()
- Korrektur eines Endlosschleifenfehlers des Avro-Readers beim Lesen der MAGIC-Bytes.
13. Oktober 2020
- Updates der Betriebssystemsicherheit.
- [SPARK-32999][SQL][2.4] Verwenden von Utils.getSimpleName, um zu vermeiden, dass falsch formatierter Klassenname in TreeNode getroffen wird
- Das Auflisten von Verzeichnissen in der FUSE-Bereitstellung, die Dateinamen mit ungültigen XML-Zeichen enthalten, wurde behoben.
- Für die FUSE-Bereitstellung werden listMultipartUploads nicht mehr verwendet.
24. September 2020
- Eine vorherige Einschränkung wurde behoben, bei der passthrough für den Standardcluster weiterhin die vom Benutzer verwendeten Dateisystemimplementierungen einschränkte. Jetzt können Benutzer ohne Einschränkungen auf lokale Dateisysteme zugreifen.
- Updates der Betriebssystemsicherheit.
8. September 2020
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
maxbinlength
. Dieser Parameter wird verwendet, um die Spaltenlänge von BinaryType-Spalten zu steuern, und wird inVARBINARY(maxbinlength)
übersetzt. Sie kann mit.option("maxbinlength", n)
festgelegt werden, wobei 0 < n <= 8000 ist. - Aktualisieren sie Azure Storage SDK auf 8.6.4, und aktivieren Sie TCP-Keepalive für Verbindungen, die vom WASB-Treiber hergestellt werden.
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
25. August 2020
- Mehrdeutige Attributauflösung bei Selbstzusammenführung korrigiert
18. August 2020
- [SPARK-32431][SQL] Doppelte geschachtelte Spalten beim Lesen aus integrierten Datenquellen überprüfen
- Eine Racebedingung im AQS-Connector bei Verwendung von Trigger.Once wurde behoben.
11. August 2020
- [SPARK-28676][CORE] Vermeiden übermäßiger Protokollierung von ContextCleaner
3. August 2020
- Sie können jetzt die LDA-Transformationsfunktion in einem Cluster mit Passthrough-Unterstützung verwenden.
- Updates der Betriebssystemsicherheit.
7. Juli 2020
- Java-Version von 1.8.0_232 auf 1.8.0_252 aktualisiert.
21. April 2020
- [SPARK-31312][SQL] Cache Class-Instanz für die UDF-Instanz in HiveFunctionWrapper
7. April 2020
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
ARROW_PRE_0_15_IPC_FORMAT=1
) hinzugefügt, um die Unterstützung für diese Versionen von PyArrow zu aktivieren. Weitere Informationen finden Sie in den Anweisungen in [SPARK-29367].
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
10. März 2020
- Die optimierte automatische Skalierung wird jetzt standardmäßig für interaktive Cluster im Sicherheitsplan verwendet.
- Der in Databricks Runtime enthaltene Snowflake-Connector (
spark-snowflake_2.11
) wird auf Version 2.5.9 aktualisiert.snowflake-jdbc
wird auf Version 3.12.0 aktualisiert.
Databricks Runtime 5.5 LTS (EoS)
Siehe Databricks Runtime 5.5 LTS (EoS) und Databricks Runtime 5.5 Erweiterter Support (EoS).
8. Dezember 2021
- Updates der Betriebssystemsicherheit.
22. September 2021
- Updates der Betriebssystemsicherheit.
25. August 2021
- Einige zuvor aktualisierte Python-Pakete wurden in Version 5.5 ML Extended Support Release herabgestuft, um eine bessere Parität mit 5.5 ML LTS zu gewährleisten (jetzt veraltet). Die aktualisierten Unterschiede zwischen den beiden Versionen finden Sie unter [_]/release-notes/runtime/5.5xml.md).
15. Juni 2021
- [SPARK-35576] [SQL] Vertrauliche Informationen im Ergebnis des Set-Befehls redigieren
7. Juni 2021
- Fügen Sie eine neue Konfiguration namens
spark.sql.maven.additionalRemoteRepositories
hinzu, eine durch Kommas getrennte Zeichenfolgenkonfiguration der optionalen zusätzlichen Maven-Remotespiegelung. Dieser Wert liegt standardmäßig beihttps://maven-central.storage-download.googleapis.com/maven2/
.
- Fügen Sie eine neue Konfiguration namens
30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
9. März 2021
- Portieren Sie HADOOP-17215 an den Azure Blob File System-Treiber (Unterstützung für bedingtes Überschreiben).
24. Februar 2021
- Eine neue Konfiguration wurde eingeführt
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Diese Konfiguration steuert die integrierte Hive-Initialisierung. Wenn sie auf TRUE festgelegt ist, Azure Databricks alle Funktionen aus allen Datenbanken, die Benutzer haben, inFunctionRegistry
neu geladen. Dies ist das Standardverhalten im Hive-Metastore. Wenn „false“ festgelegt ist, Azure Databricks diesen Prozess zur Optimierung deaktiviert.
- Eine neue Konfiguration wurde eingeführt
12. Januar 2021
- Updates der Betriebssystemsicherheit.
- Korrektur für [HADOOP-17130].
8. Dezember 2020
- [SPARK-27421] [SQL] Filter für int-Spalte und Werteklasse java.lang.String beim Bereinigen der Partitionsspalte beheben
- Updates der Betriebssystemsicherheit.
1. Dezember 2020
- [SPARK-33260] [SQL] Falsche Ergebnisse von SortExec beheben, wenn sortOrder entsprechend „Stream“ ist
- [SPARK-32635] [SQL] Korrektur der reduzierbaren Verteilung
29. Oktober 2020
- Java-Version von 1.8.0_252 auf 1.8.0_265 aktualisiert.
- Korrektur von ABFS- und WASB-Sperren in Bezug auf UserGroupInformation.getCurrentUser()
- Korrektur eines Endlosschleifenfehlers des Avro-Readers beim Lesen der MAGIC-Bytes.
13. Oktober 2020
- Updates der Betriebssystemsicherheit.
- [SPARK-32999][SQL][2.4] Verwenden von Utils.getSimpleName, um zu vermeiden, dass falsch formatierter Klassenname in TreeNode getroffen wird
24. September 2020
- Updates der Betriebssystemsicherheit.
8. September 2020
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
maxbinlength
. Dieser Parameter wird verwendet, um die Spaltenlänge von BinaryType-Spalten zu steuern, und wird inVARBINARY(maxbinlength)
übersetzt. Sie kann mit.option("maxbinlength", n)
festgelegt werden, wobei 0 < n <= 8000 ist.
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
18. August 2020
- [SPARK-32431][SQL] Doppelte geschachtelte Spalten beim Lesen aus integrierten Datenquellen überprüfen
- Eine Racebedingung im AQS-Connector bei Verwendung von Trigger.Once wurde behoben.
11. August 2020
- [SPARK-28676][CORE] Vermeiden übermäßiger Protokollierung von ContextCleaner
3. August 2020
- Updates der Betriebssystemsicherheit
7. Juli 2020
- Java-Version von 1.8.0_232 auf 1.8.0_252 aktualisiert.
21. April 2020
- [SPARK-31312][SQL] Cache Class-Instanz für die UDF-Instanz in HiveFunctionWrapper
7. April 2020
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
ARROW_PRE_0_15_IPC_FORMAT=1
) hinzugefügt, um die Unterstützung für diese Versionen von PyArrow zu aktivieren. Weitere Informationen finden Sie in den Anweisungen in [SPARK-29367].
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
25. März 2020
- Der in Databricks Runtime enthaltene Snowflake-Connector (
spark-snowflake_2.11
) wird auf Version 2.5.9 aktualisiert.snowflake-jdbc
wird auf Version 3.12.0 aktualisiert.
- Der in Databricks Runtime enthaltene Snowflake-Connector (
10. März 2020
- Die Auftragsausgabe, z. B. die an stdout ausgegebene Protokollausgabe, unterliegt einer Größenbeschränkung von 20 MB. Wenn die Gesamtausgabe diese Größe überschreitet, wird die Ausführung abgebrochen und als fehlgeschlagen markiert. Um diesen Grenzwert nicht zu überschreiten, können Sie verhindern, dass stdout vom Treiber zurückgegeben wird. Dazu legen Sie in der Spark-Konfiguration
spark.databricks.driver.disableScalaOutput
auf den Werttrue
fest. Standardmäßig lautet der Flagwertfalse
. Das Flag steuert die Zellenausgabe für Scala-JAR-Aufträge und Scala-Notebooks. Wenn das Flag aktiviert ist, gibt Spark keine Ergebnisse der Auftragsausführung an den Client zurück. Das Flag wirkt sich nicht auf die Daten aus, die in die Clusterprotokolldateien geschrieben werden. Das Festlegen dieses Flags wird nur für automatisierte Cluster für JAR-Aufträge empfohlen, da Notebookergebnisse deaktiviert werden.
- Die Auftragsausgabe, z. B. die an stdout ausgegebene Protokollausgabe, unterliegt einer Größenbeschränkung von 20 MB. Wenn die Gesamtausgabe diese Größe überschreitet, wird die Ausführung abgebrochen und als fehlgeschlagen markiert. Um diesen Grenzwert nicht zu überschreiten, können Sie verhindern, dass stdout vom Treiber zurückgegeben wird. Dazu legen Sie in der Spark-Konfiguration
18. Februar 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 sollte eine Ausnahme auslösen.
- Die Passthrough-Vorgehensweise für Anmeldeinformationen mit ADLS Gen2 hat eine Leistungsbeeinträchtigung aufgrund einer falschen lokalen Threadverarbeitung, wenn der ADLS-Clientvorruf aktiviert ist. In dieser Version wird ADLS Gen2 Vorabruf deaktiviert, wenn passthrough für Anmeldeinformationen aktiviert ist, bis eine ordnungsgemäße Korrektur vorliegt.
28. Januar 2020
- [SPARK-30447][SQL] Problem mit der NULL-Zulässigkeit der konstanten Weitergabe.
14. Januar 2020
- Java-Version von 1.8.0_222 auf 1.8.0_232 aktualisiert.
19. November 2019
- [SPARK-29743][SQL] Stichprobe sollte needCopyResult auf wahr festlegen, wenn ihre untergeordnete needCopyResult auf wahr festgelegt ist
- Die R-Version wurde unbeabsichtigt von 3.6.0 auf 3.6.1 aktualisiert. Wir haben die Version auf 3.6.0 zurückgestuft.
5. November 2019
- Java-Version von 1.8.0_212 auf 1.8.0_222 aktualisiert.
23. Oktober 2019
- [SPARK-29244][CORE] Verhindern, dass freigegebene Seite in BytesToBytesMap wieder frei wird
8. Oktober 2019
- Serverseitige Änderungen, damit Shou Apache Spark ODBC-Treiber beim Abrufen der Ergebnisse nach einem Verbindungsfehler erneut eine Verbindung herstellen und fortfahren kann (erfordert Shou Apache Spark ODBC-Treiberversion 2.6.10).
- Es wurde ein Problem behoben, das sich auf die Verwendung des
Optimize
Befehls mit Tabellen-ACL-fähigen Clustern auswirkte. - Es wurde ein Problem behoben, bei dem
pyspark.ml
Bibliotheken aufgrund eines Scala UDF-Fehlers mit unzulässigen Berechtigungen für Tabellen-ACL- und Passthrough-fähige Cluster mit Anmeldeinformationen fehlschlagen konnten. - Allowlistd SerDe- und SerDeUtil-Methoden für die Passthrough-Methode für Anmeldeinformationen.
- NullPointerException beim Überprüfen des Fehlercodes im WASB-Client wurde behoben.
24. September 2019
- Verbesserte Stabilität von Parquet Writer.
- Das Problem wurde behoben, dass die Thrift-Abfrage abgebrochen wurde, bevor sie mit der Ausführung begonnen hat, möglicherweise im Status GESTARTET hängen geblieben ist.
10. September 2019
- Hinzufügen eines threadsicheren Iterators zu BytesToBytesMap
- [SPARK-27992][SPARK-28881]Python das Verknüpfen mit dem Verbindungsthread erlauben, um Fehler weiterzugeben
- Es wurde ein Fehler behoben, der sich auf bestimmte globale Aggregationsabfragen auswirkte.
- Verbesserte Bearbeitung von Anmeldeinformationen.
- [SPARK-27330][SS] Unterstützung von Taskabbruch in foreach-Writer (6.0, 5.x)
- [SPARK-28642]Anmeldeinformationen in SHOW CREATE TABLE ausblenden
- [SPARK-28699][SQL] Deaktivieren der Radix-Sortierung für ShuffleExchangeExec im Fall einer Neuaufteilung
27. August 2019
- [SPARK-20906][SQL]Benutzerdefiniertes Schema in der API-to_avro mit Schemaregistrierung zulassen
- [SPARK-27838][SQL] Unterstützung eines vom Benutzer bereitgestellten nicht-nullbaren Avro-Schemas für ein nicht-nullbares Katalysator-Schema ohne Null-Datensatz
- Verbesserung der Delta Lake-Zeitreise
- Es wurde ein Problem behoben, das sich auf bestimmte
transform
Ausdrücke auswirkte. - Unterstützt Broadcastvariablen, wenn Prozessisolation aktiviert ist
13. August 2019
- Deltastreamingquelle sollte das neueste Protokoll einer Tabelle überprüfen
- [SPARK-28260] Hinzufügen des CLOSED-Zustands zu ExecutionState
- [SPARK-28489][SS] Korrektur eines Fehlers, durch den KafkaOffsetRangeCalculator.getRanges möglicherweise Offsets löscht
30. Juli 2019
- [SPARK-28015][SQL] Überprüfung, ob stringToDate() die gesamte Eingabe für die Formate jjjj und jjjj-[m]m verbraucht
- [SPARK-28308][CORE] CalendarInterval-Teil unter einer Sekunde sollte vor der Analyse aufgefüllt werden
- [SPARK-27485] EnsureRequirements.reorder sollte doppelte Ausdrücke ordnungsgemäß behandeln
- [SPARK-28355][CORE][PYTHON] Verwenden Sie Spark conf als Schwellenwert, bei dem UDF per Broadcast komprimiert wird.
Databricks Light 2.4: Erweiterter Support
Siehe Databricks Light 2.4 (EoS) und Databricks Light 2.4 Erweiterter Support (EoS).
Databricks Runtime 7.4 (EoS)
Siehe Databricks Runtime 7.4 (EoS).
30. April 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-35227] [BUILD] Aktualisieren des Resolvers für spark-packages in SparkSubmit
- [SPARK-34245] [CORE] Sicherstellen, dass der Master Executors entfernt, die den Zustand der Fertigstellung nicht senden konnten
- [SPARK-35045][SQL] Fügen Sie eine interne Option zum Steuern des Eingabepuffers in Univocity und eine Konfiguration für die CSV-Eingabepuffergröße hinzu.
24. März 2021
- [SPARK-34768] [SQL] Standardmäßige Größe des Eingabepuffers in Univocity berücksichtigen
- [SPARK-34534] Korrektur der blockIds-Reihenfolge beim Verwenden von FetchShuffleBlocks zum Abrufen von Blöcken
9. März 2021
- Der aktualisierte Azure Blob File System-Treiber für Azure Data Lake Storage Gen2 ist jetzt standardmäßig aktiviert. Dies bringt mehrere Stabilitätsverbesserungen mit sich.
- [ES-67926][UI] Korrigieren des href-Links der Spark DAG-Visualisierung
- [ES-65064] Wiederherstellen des Ausgabeschemas von
SHOW DATABASES
- [SC-70522][SQL] Verwenden Sie den richtigen Buildschlüssel für die dynamische Beschneidung, wenn ein Joinhinweis für den Bereich vorhanden ist.
- [SC-35081] Veraltungsprüfung für Delta-Tabellendateien im Festplatten-Cache deaktivieren
- [SC-70640] Korrektur des NPE, wenn die EventGridClient-Antwort keine Entität hat
- [SC-70220][SQL] Geben Sie keine Shuffle-Partitionsnummer an, wenn AOS aktiviert ist
24. Februar 2021
- Der Spark BigQuery-Connector wurde auf v0.18 aktualisiert, wodurch verschiedene Fehlerbehebungen und Unterstützung für Pfeil- und Avro-Iteratoren durchgeführt wurden.
- Es wurde ein Korrektheitsproblem behoben, das dazu führte, dass Spark falsche Ergebnisse zurückgab, wenn die Dezimalpräzision und die Skala der Parquet-Datei vom Spark-Schema abwichen.
- Es wurde ein Fehler beim Lesen Microsoft SQL Server Tabellen behoben, die räumliche Datentypen enthalten, indem die JDBC-Typen Geometrie und Geografie für Spark-SQL.
- Eine neue Konfiguration wurde eingeführt
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Diese Konfiguration steuert die integrierte Hive-Initialisierung. Wenn sie auf TRUE festgelegt ist, Azure Databricks alle Funktionen aus allen Datenbanken, die Benutzer haben, inFunctionRegistry
neu geladen. Dies ist das Standardverhalten im Hive-Metastore. Wenn „false“ festgelegt ist, Azure Databricks diesen Prozess zur Optimierung deaktiviert. - [SPARK-34212] Es wurden Probleme im Zusammenhang mit dem Lesen von Dezimaldaten aus Parquet-Dateien behoben.
- [SPARK-33579][UI] Korrektur der leeren Executorseite hinter dem Proxy.
- [SPARK-20044] [UI] Unterstützung der Spark-Benutzeroberfläche hinter dem Front-End-Reverseproxy mithilfe einer Pfadpräfix.
- [SPARK-33277] [PYSPARK][SQL] ContextAwareIterator zum Beenden des Verbrauchs nach Taskende verwenden.
4. Februar 2021
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
SELECT * FROM table LIMIT nrows
festgelegt hat. Die Regression wurde von Benutzern durchgeführt, die Abfragen über ODBC/JDBC mit aktivierter Pfeilserialisierung ausführen. - Es wurde eine Regression behoben, die dazu führte, dass DBFS FUSE nicht gestartet werden konnte, wenn Konfigurationen von Clusterumgebungsvariablen ungültige Bash-Syntax enthalten.
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
20. Januar 2021
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
df.join(df.select($"col" as "new_col"), cond)
- Der abgeleitete DataFrame schließt einige Spalten über select, groupBy oder window aus.
- Die Verknüpfungsbedingung oder die folgende Transformation nach dem eingebundenen Datenrahmen bezieht sich auf die nicht allgemeinen Spalten. Zum Beispiel,
df.join(df.drop("a"), df("a") === 1)
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
12. Januar 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-33593] [SQL] Vektorleser hat falsche Daten mit binärem Partitionswert erhalten
- [SPARK-33677] [SQL] LikeSimplification-Regel überspringen, wenn Muster ein EscapeChar enthält
- [SPARK-33071][SPARK-33536][SQL] Änderung der dataset_id von LogicalPlan in join() vermeiden, um DetectAmbiguousSelfJoin nicht zu beeinträchtigen
8. Dezember 2020
- [SPARK-33587] [CORE] Executor bei geschachtelten schwerwiegenden Fehlern beenden
- [SPARK-27421] [SQL] Filter für int-Spalte und Werteklasse java.lang.String beim Bereinigen der Partitionsspalte beheben
- [SPARK-33316] [SQL] Unterstützung des vom Benutzer bereitgestellten Nullwerte zulassenden Avro-Schemas für das Non-Nullable-Catalyst-Schema beim Schreiben in Avro
- Updates der Betriebssystemsicherheit.
1. Dezember 2020
- [SPARK-33404] [SQL][3.0] Falsche Ergebnisse im
date_trunc
-Ausdruck beheben - [SPARK-33339] [PYTHON] Pyspark-Anwendung hängt aufgrund eines Fehlers, der keine Ausnahme ist
- [SPARK-33183][SQL][HOTFIX] Optimiererregel EliminateSorts beheben und eine physische Regel hinzufügen, um redundante Sortierungen zu entfernen
- [SPARK-33371] [PYTHON][3.0] „setup.py“ und Tests für Python 3.0 aktualisieren
- [SPARK-33391] [SQL] element_at mit CreateArray nicht einen auf 1 basierenden Index berücksichtigen
- [SPARK-33306] [SQL] Zeitzone wird bei der Umwandlung von Datum in Zeichenfolge benötigt
- [SPARK-33260] [SQL] Falsche Ergebnisse von SortExec beheben, wenn sortOrder entsprechend „Stream“ ist
- [SPARK-33272] [SQL] Attributzuordnung in QueryPlan.transformUpWithNewOutput bereinigen
- [SPARK-33404] [SQL][3.0] Falsche Ergebnisse im
Databricks Runtime 7.2 (EoS)
Siehe Databricks Runtime 7.2 (EoS).
4. Februar 2021
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
SELECT * FROM table LIMIT nrows
festgelegt hat. Die Regression wurde von Benutzern durchgeführt, die Abfragen über ODBC/JDBC mit aktivierter Pfeilserialisierung ausführen. - Es wurde eine Regression behoben, die dazu führte, dass DBFS FUSE nicht gestartet werden konnte, wenn Konfigurationen von Clusterumgebungsvariablen ungültige Bash-Syntax enthalten.
- Es wurde eine Regression behoben, die die inkrementelle Ausführung einer Abfrage verhindert, die einen globalen Grenzwert wie
20. Januar 2021
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
df.join(df.select($"col" as "new_col"), cond)
- Der abgeleitete DataFrame schließt einige Spalten über select, groupBy oder window aus.
- Die Verknüpfungsbedingung oder die folgende Transformation nach dem eingebundenen Datenrahmen bezieht sich auf die nicht allgemeinen Spalten. Zum Beispiel,
df.join(df.drop("a"), df("a") === 1)
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
12. Januar 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-33593] [SQL] Vektorleser hat falsche Daten mit binärem Partitionswert erhalten
- [SPARK-33677] [SQL] LikeSimplification-Regel überspringen, wenn Muster ein EscapeChar enthält
- [SPARK-33071][SPARK-33536][SQL] Änderung der dataset_id von LogicalPlan in join() vermeiden, um DetectAmbiguousSelfJoin nicht zu beeinträchtigen
8. Dezember 2020
- [SPARK-27421] [SQL] Filter für int-Spalte und Werteklasse java.lang.String beim Bereinigen der Partitionsspalte beheben
- [SPARK-33404] [SQL] Falsche Ergebnisse im
date_trunc
-Ausdruck beheben - [SPARK-33339] [PYTHON] Pyspark-Anwendung hängt aufgrund eines Fehlers, der keine Ausnahme ist
- [SPARK-33183] [SQL] Optimiererregel EliminateSorts beheben und eine physische Regel hinzufügen, um redundante Sortierungen zu entfernen
- [SPARK-33391] [SQL] element_at mit CreateArray nicht einen auf 1 basierenden Index berücksichtigen
- Updates der Betriebssystemsicherheit.
1. Dezember 2020
- [SPARK-33306] [SQL] Zeitzone wird bei der Umwandlung von Datum in Zeichenfolge benötigt
- [SPARK-33260] [SQL] Falsche Ergebnisse von SortExec beheben, wenn sortOrder entsprechend „Stream“ ist
3. November 2020
- Java-Version von 1.8.0_252 auf 1.8.0_265 aktualisiert.
- Korrektur von ABFS- und WASB-Sperren in Bezug auf UserGroupInformation.getCurrentUser()
- Korrektur eines Endlosschleifenfehlers des Avro-Readers beim Lesen der MAGIC-Bytes.
13. Oktober 2020
- Updates der Betriebssystemsicherheit.
- [SPARK-32999][SQL] Verwenden Sie Utils.getSimpleName, um einen fehlerhaften Klassennamen in TreeNode zu vermeiden
- Das Auflisten von Verzeichnissen in der FUSE-Bereitstellung, die Dateinamen mit ungültigen XML-Zeichen enthalten, wurde behoben.
- Für die FUSE-Bereitstellung werden listMultipartUploads nicht mehr verwendet.
29. September 2020
- [SPARK-28863][SQL][WARMFIX] Einführung von AlreadyOptimized, um eine erneute Analyse von V1FallbackWriters zu verhindern
- [SPARK-32635] [SQL] Korrektur der reduzierbaren Verteilung
- Fügen Sie eine neue Konfiguration
spark.shuffle.io.decoder.consolidateThreshold
hinzu. Legen Sie den Konfigurationswert aufLong.MAX_VALUE
fest, um die Konsolidierung von netty FrameBuffers zu überspringen, was in Eckfällenjava.lang.IndexOutOfBoundsException
verhindert.
24. September 2020
- [SPARK-32764] [SQL] -0.0 sollte gleich 0.0 sein
- [SPARK-32753][SQL] Beim Transformieren von Plänen nur Tags auf Knoten ohne Tags kopieren
- [SPARK-32659][SQL] Behebung des Datenproblems der eingefügten dynamischen Partitionsbereinigung für einen nicht atomaren Typ
- Updates der Betriebssystemsicherheit.
8. September 2020
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
maxbinlength
. Dieser Parameter wird verwendet, um die Spaltenlänge von BinaryType-Spalten zu steuern, und wird inVARBINARY(maxbinlength)
übersetzt. Sie kann mit.option("maxbinlength", n)
festgelegt werden, wobei 0 < n <= 8000 ist.
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
Databricks Runtime 7.1 (EoS)
Siehe Databricks Runtime 7.1 (EoS).
4. Februar 2021
- Es wurde eine Regression behoben, die dazu führte, dass DBFS FUSE nicht gestartet werden konnte, wenn Konfigurationen von Clusterumgebungsvariablen ungültige Bash-Syntax enthalten.
20. Januar 2021
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
df.join(df.select($"col" as "new_col"), cond)
- Der abgeleitete DataFrame schließt einige Spalten über select, groupBy oder window aus.
- Die Verknüpfungsbedingung oder die folgende Transformation nach dem eingebundenen Datenrahmen bezieht sich auf die nicht allgemeinen Spalten. Zum Beispiel,
df.join(df.drop("a"), df("a") === 1)
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
12. Januar 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-33593] [SQL] Vektorleser hat falsche Daten mit binärem Partitionswert erhalten
- [SPARK-33677] [SQL] LikeSimplification-Regel überspringen, wenn Muster ein EscapeChar enthält
- [SPARK-33071][SPARK-33536][SQL] Änderung der dataset_id von LogicalPlan in join() vermeiden, um DetectAmbiguousSelfJoin nicht zu beeinträchtigen
8. Dezember 2020
- [SPARK-27421] [SQL] Filter für int-Spalte und Werteklasse java.lang.String beim Bereinigen der Partitionsspalte beheben
- Spark-Aufträge, die mit Databricks Connect gestartet wurden, konnten auf unbestimmte Zeit mit
Executor$TaskRunner.$anonfun$copySessionState
in einem Stack-Trace im Executor hängen bleiben - Updates der Betriebssystemsicherheit.
1. Dezember 2020
- [SPARK-33404] [SQL][3.0] Falsche Ergebnisse im
date_trunc
-Ausdruck beheben - [SPARK-33339] [PYTHON] Pyspark-Anwendung hängt aufgrund eines Fehlers, der keine Ausnahme ist
- [SPARK-33183][SQL][HOTFIX] Optimiererregel EliminateSorts beheben und eine physische Regel hinzufügen, um redundante Sortierungen zu entfernen
- [SPARK-33371] [PYTHON][3.0] „setup.py“ und Tests für Python 3.0 aktualisieren
- [SPARK-33391] [SQL] element_at mit CreateArray nicht einen auf 1 basierenden Index berücksichtigen
- [SPARK-33306] [SQL] Zeitzone wird bei der Umwandlung von Datum in Zeichenfolge benötigt
- [SPARK-33404] [SQL][3.0] Falsche Ergebnisse im
3. November 2020
- Java-Version von 1.8.0_252 auf 1.8.0_265 aktualisiert.
- Korrektur von ABFS- und WASB-Sperren in Bezug auf UserGroupInformation.getCurrentUser()
- Korrektur eines Endlosschleifenfehlers des Avro-Readers beim Lesen der MAGIC-Bytes.
13. Oktober 2020
- Updates der Betriebssystemsicherheit.
- [SPARK-32999][SQL] Verwenden Sie Utils.getSimpleName, um einen fehlerhaften Klassennamen in TreeNode zu vermeiden
- Das Auflisten von Verzeichnissen in der FUSE-Bereitstellung, die Dateinamen mit ungültigen XML-Zeichen enthalten, wurde behoben.
- Für die FUSE-Bereitstellung werden listMultipartUploads nicht mehr verwendet.
29. September 2020
- [SPARK-28863][SQL][WARMFIX] Einführung von AlreadyOptimized, um eine erneute Analyse von V1FallbackWriters zu verhindern
- [SPARK-32635] [SQL] Korrektur der reduzierbaren Verteilung
- Fügen Sie eine neue Konfiguration
spark.shuffle.io.decoder.consolidateThreshold
hinzu. Legen Sie den Konfigurationswert aufLong.MAX_VALUE
fest, um die Konsolidierung von netty FrameBuffers zu überspringen, was in Eckfällenjava.lang.IndexOutOfBoundsException
verhindert.
24. September 2020
- [SPARK-32764] [SQL] -0.0 sollte gleich 0.0 sein
- [SPARK-32753][SQL] Beim Transformieren von Plänen nur Tags auf Knoten ohne Tags kopieren
- [SPARK-32659][SQL] Behebung des Datenproblems der eingefügten dynamischen Partitionsbereinigung für einen nicht atomaren Typ
- Updates der Betriebssystemsicherheit.
8. September 2020
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
maxbinlength
. Dieser Parameter wird verwendet, um die Spaltenlänge von BinaryType-Spalten zu steuern, und wird inVARBINARY(maxbinlength)
übersetzt. Sie kann mit.option("maxbinlength", n)
festgelegt werden, wobei 0 < n <= 8000 ist.
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
25. August 2020
- [SPARK-32159][SQL] Korrektur der Integration zwischen
Aggregator[Array[_], _, _]
undUnresolvedMapObjects
- [SPARK-32559][SQL] Korrektur der Kürzungslogik in
UTF8String.toInt/toLong
, die Nicht-ASCII-Zeichen nicht ordnungsgemäß behandelt hat - [SPARK-32543][R] Verwendung in SparkR entfernen
arrow::as_tibble
- [SPARK-32091][CORE] Timeoutfehler beim Entfernen von Blöcken auf dem verlorenen Executor ignorieren
- Es wurde ein Problem behoben, das sich auf Azure Synapse Connector mit MSI-Anmeldeinformationen auswirkte.
- Mehrdeutige Attributauflösung bei Selbstzusammenführung korrigiert
- [SPARK-32159][SQL] Korrektur der Integration zwischen
18. August 2020
- [SPARK-32594][SQL] Korrektur der Serialisierung von Datumsangaben, die in Hive-Tabellen eingefügt wurden
- [SPARK-32237] [SQL] Hinweis in CTE auflösen
- [SPARK-32431][SQL] Doppelte geschachtelte Spalten beim Lesen aus integrierten Datenquellen überprüfen
- [SPARK-32467][UI] Codierungs-URL bei HTTPS-Umleitung zweimal vermeiden
- Eine Racebedingung im AQS-Connector bei Verwendung von Trigger.Once wurde behoben.
11. August 2020
- [SPARK-32280][SPARK-32372] [SQL] ResolveReferences.dedupRight sollte nur Attribute für Vorgängerknoten des Konfliktplans erneut generieren
- [SPARK-32234] [SQL] Fehler bei Spark-SQL-Befehlen beim Auswählen der ORC-Tabellen
3. August 2020
- Sie können jetzt die LDA-Transformationsfunktion in einem Cluster mit Passthrough-Unterstützung verwenden.
Databricks Runtime 7.0 (EoS)
Siehe Databricks Runtime 7.0 (EoS).
4. Februar 2021
- Es wurde eine Regression behoben, die dazu führte, dass DBFS FUSE nicht gestartet werden konnte, wenn Konfigurationen von Clusterumgebungsvariablen ungültige Bash-Syntax enthalten.
20. Januar 2021
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
df.join(df.select($"col" as "new_col"), cond)
- Der abgeleitete DataFrame schließt einige Spalten über select, groupBy oder window aus.
- Die Verknüpfungsbedingung oder die folgende Transformation nach dem eingebundenen Datenrahmen bezieht sich auf die nicht allgemeinen Spalten. Zum Beispiel,
df.join(df.drop("a"), df("a") === 1)
- Diese beiden DataFrames verfügen über gemeinsame Spalten, aber die Ausgabe der Selbstverknüpfung enthält keine gemeinsamen Spalten. Zum Beispiel,
- Es wurde eine Regression im Wartungsrelease vom 12. Januar 2021 behoben, die zu einer falschen AnalysisException führen und angeben kann, dass die Spalte in einer Selbstverknüpfung mehrdeutig ist. Diese Regression tritt auf, wenn ein Benutzer einen DataFrame mit seinem abgeleiteten DataFrame (einer sogenannten Selbstverknüpfung) mit den folgenden Bedingungen verbindet:
12. Januar 2021
- Updates der Betriebssystemsicherheit.
- [SPARK-33593] [SQL] Vektorleser hat falsche Daten mit binärem Partitionswert erhalten
- [SPARK-33677] [SQL] LikeSimplification-Regel überspringen, wenn Muster ein EscapeChar enthält
- [SPARK-33071][SPARK-33536][SQL] Änderung der dataset_id von LogicalPlan in join() vermeiden, um DetectAmbiguousSelfJoin nicht zu beeinträchtigen
8. Dezember 2020
- [SPARK-27421] [SQL] Filter für int-Spalte und Werteklasse java.lang.String beim Bereinigen der Partitionsspalte beheben
- [SPARK-33404] [SQL] Falsche Ergebnisse im
date_trunc
-Ausdruck beheben - [SPARK-33339] [PYTHON] Pyspark-Anwendung hängt aufgrund eines Fehlers, der keine Ausnahme ist
- [SPARK-33183] [SQL] Optimiererregel EliminateSorts beheben und eine physische Regel hinzufügen, um redundante Sortierungen zu entfernen
- [SPARK-33391] [SQL] element_at mit CreateArray nicht einen auf 1 basierenden Index berücksichtigen
- Updates der Betriebssystemsicherheit.
1. Dezember 2020
- [SPARK-33306] [SQL] Zeitzone wird bei der Umwandlung von Datum in Zeichenfolge benötigt
3. November 2020
- Java-Version von 1.8.0_252 auf 1.8.0_265 aktualisiert.
- Korrektur von ABFS- und WASB-Sperren in Bezug auf UserGroupInformation.getCurrentUser()
- Korrektur eines Endlosschleifenfehlers des Avro-Readers beim Lesen der MAGIC-Bytes.
13. Oktober 2020
- Updates der Betriebssystemsicherheit.
- [SPARK-32999][SQL] Verwenden Sie Utils.getSimpleName, um einen fehlerhaften Klassennamen in TreeNode zu vermeiden
- Das Auflisten von Verzeichnissen in der FUSE-Bereitstellung, die Dateinamen mit ungültigen XML-Zeichen enthalten, wurde behoben.
- Für die FUSE-Bereitstellung werden listMultipartUploads nicht mehr verwendet.
29. September 2020
- [SPARK-28863][SQL][WARMFIX] Einführung von AlreadyOptimized, um eine erneute Analyse von V1FallbackWriters zu verhindern
- [SPARK-32635] [SQL] Korrektur der reduzierbaren Verteilung
- Fügen Sie eine neue Konfiguration
spark.shuffle.io.decoder.consolidateThreshold
hinzu. Legen Sie den Konfigurationswert aufLong.MAX_VALUE
fest, um die Konsolidierung von netty FrameBuffers zu überspringen, was in Eckfällenjava.lang.IndexOutOfBoundsException
verhindert.
24. September 2020
- [SPARK-32764] [SQL] -0.0 sollte gleich 0.0 sein
- [SPARK-32753][SQL] Beim Transformieren von Plänen nur Tags auf Knoten ohne Tags kopieren
- [SPARK-32659][SQL] Behebung des Datenproblems der eingefügten dynamischen Partitionsbereinigung für einen nicht atomaren Typ
- Updates der Betriebssystemsicherheit.
8. September 2020
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
maxbinlength
. Dieser Parameter wird verwendet, um die Spaltenlänge von BinaryType-Spalten zu steuern, und wird inVARBINARY(maxbinlength)
übersetzt. Sie kann mit.option("maxbinlength", n)
festgelegt werden, wobei 0 < n <= 8000 ist.
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
25. August 2020
- [SPARK-32159][SQL] Korrektur der Integration zwischen
Aggregator[Array[_], _, _]
undUnresolvedMapObjects
- [SPARK-32559][SQL] Korrektur der Kürzungslogik in
UTF8String.toInt/toLong
, die Nicht-ASCII-Zeichen nicht ordnungsgemäß behandelt hat - [SPARK-32543][R] Verwendung in SparkR entfernen
arrow::as_tibble
- [SPARK-32091][CORE] Timeoutfehler beim Entfernen von Blöcken auf dem verlorenen Executor ignorieren
- Es wurde ein Problem behoben, das sich auf Azure Synapse Connector mit MSI-Anmeldeinformationen auswirkte.
- Mehrdeutige Attributauflösung bei Selbstzusammenführung korrigiert
- [SPARK-32159][SQL] Korrektur der Integration zwischen
18. August 2020
- [SPARK-32594][SQL] Korrektur der Serialisierung von Datumsangaben, die in Hive-Tabellen eingefügt wurden
- [SPARK-32237] [SQL] Hinweis in CTE auflösen
- [SPARK-32431][SQL] Doppelte geschachtelte Spalten beim Lesen aus integrierten Datenquellen überprüfen
- [SPARK-32467][UI] Codierungs-URL bei HTTPS-Umleitung zweimal vermeiden
- Eine Racebedingung im AQS-Connector bei Verwendung von Trigger.Once wurde behoben.
11. August 2020
- [SPARK-32280][SPARK-32372] [SQL] ResolveReferences.dedupRight sollte nur Attribute für Vorgängerknoten des Konfliktplans erneut generieren
- [SPARK-32234] [SQL] Fehler bei Spark-SQL-Befehlen beim Auswählen der ORC-Tabellen
- Sie können jetzt die LDA-Transformationsfunktion in einem Cluster mit Passthrough-Unterstützung verwenden.
Databricks Runtime 6.6 (EoS)
Siehe Databricks Runtime 6.6 (EoS).
1. Dezember 2020
- [SPARK-33260] [SQL] Falsche Ergebnisse von SortExec beheben, wenn sortOrder entsprechend „Stream“ ist
- [SPARK-32635] [SQL] Korrektur der reduzierbaren Verteilung
3. November 2020
- Java-Version von 1.8.0_252 auf 1.8.0_265 aktualisiert.
- Korrektur von ABFS- und WASB-Sperren in Bezug auf UserGroupInformation.getCurrentUser()
- Korrektur eines Endlosschleifenfehlers des Avro-Readers beim Lesen der MAGIC-Bytes.
13. Oktober 2020
- Updates der Betriebssystemsicherheit.
- [SPARK-32999][SQL][2.4] Verwenden von Utils.getSimpleName, um zu vermeiden, dass falsch formatierter Klassenname in TreeNode getroffen wird
- Das Auflisten von Verzeichnissen in der FUSE-Bereitstellung, die Dateinamen mit ungültigen XML-Zeichen enthalten, wurde behoben.
- Für die FUSE-Bereitstellung werden listMultipartUploads nicht mehr verwendet.
24. September 2020
- Updates der Betriebssystemsicherheit.
8. September 2020
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
maxbinlength
. Dieser Parameter wird verwendet, um die Spaltenlänge von BinaryType-Spalten zu steuern, und wird inVARBINARY(maxbinlength)
übersetzt. Sie kann mit.option("maxbinlength", n)
festgelegt werden, wobei 0 < n <= 8000 ist. - Aktualisieren sie Azure Storage SDK auf 8.6.4, und aktivieren Sie TCP-Keepalive für Verbindungen, die vom WASB-Treiber hergestellt werden.
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
25. August 2020
- Mehrdeutige Attributauflösung bei Selbstzusammenführung korrigiert
18. August 2020
- [SPARK-32431][SQL] Doppelte geschachtelte Spalten beim Lesen aus integrierten Datenquellen überprüfen
- Eine Racebedingung im AQS-Connector bei Verwendung von Trigger.Once wurde behoben.
11. August 2020
- [SPARK-28676][CORE] Vermeiden übermäßiger Protokollierung von ContextCleaner
- [SPARK-31967][UI] Downgrade auf vis.js 4.21.0 zur Behebung der Regression der Ladezeit von Jobs UI
3. August 2020
- Sie können jetzt die LDA-Transformationsfunktion in einem Cluster mit Passthrough-Unterstützung verwenden.
- Updates der Betriebssystemsicherheit.
Databricks Runtime 6.5 (EoS)
Siehe Databricks Runtime 6.5 (EoS).
- 24. September 2020
- Eine vorherige Einschränkung wurde behoben, bei der passthrough für den Standardcluster weiterhin die vom Benutzer verwendeten Dateisystemimplementierungen einschränkte. Jetzt können Benutzer ohne Einschränkungen auf lokale Dateisysteme zugreifen.
- Updates der Betriebssystemsicherheit.
- 8. September 2020
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
maxbinlength
. Dieser Parameter wird verwendet, um die Spaltenlänge von BinaryType-Spalten zu steuern, und wird inVARBINARY(maxbinlength)
übersetzt. Sie kann mit.option("maxbinlength", n)
festgelegt werden, wobei 0 < n <= 8000 ist. - Aktualisieren sie Azure Storage SDK auf 8.6.4, und aktivieren Sie TCP-Keepalive für Verbindungen, die vom WASB-Treiber hergestellt werden.
- Für Azure Synapse Analytics wurde ein neuer Parameter erstellt:
- 25. August 2020
- Mehrdeutige Attributauflösung bei Selbstzusammenführung korrigiert
- 18. August 2020
- [SPARK-32431][SQL] Doppelte geschachtelte Spalten beim Lesen aus integrierten Datenquellen überprüfen
- Eine Racebedingung im AQS-Connector bei Verwendung von Trigger.Once wurde behoben.
- 11. August 2020
- [SPARK-28676][CORE] Vermeiden übermäßiger Protokollierung von ContextCleaner
- 3. August 2020
- Sie können jetzt die LDA-Transformationsfunktion in einem Cluster mit Passthrough-Unterstützung verwenden.
- Updates der Betriebssystemsicherheit.
- 7. Juli 2020
- Java-Version von 1.8.0_242 auf 1.8.0_252 aktualisiert.
- 21. April 2020
- [SPARK-31312][SQL] Cache Class-Instanz für die UDF-Instanz in HiveFunctionWrapper
Databricks Runtime 6.3 (EoS)
Siehe Databricks Runtime 6.3 (EoS).
- 7. Juli 2020
- Java-Version von 1.8.0_232 auf 1.8.0_252 aktualisiert.
- 21. April 2020
- [SPARK-31312][SQL] Cache Class-Instanz für die UDF-Instanz in HiveFunctionWrapper
- 7. April 2020
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
ARROW_PRE_0_15_IPC_FORMAT=1
) hinzugefügt, um die Unterstützung für diese Versionen von PyArrow zu aktivieren. Weitere Informationen finden Sie in den Anweisungen in [SPARK-29367].
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
- 10. März 2020
- Der in Databricks Runtime enthaltene Snowflake-Connector (
spark-snowflake_2.11
) wird auf Version 2.5.9 aktualisiert.snowflake-jdbc
wird auf Version 3.12.0 aktualisiert.
- Der in Databricks Runtime enthaltene Snowflake-Connector (
- 18. Februar 2020
- Die Passthrough-Vorgehensweise für Anmeldeinformationen mit ADLS Gen2 hat eine Leistungsbeeinträchtigung aufgrund einer falschen lokalen Threadverarbeitung, wenn der ADLS-Clientvorruf aktiviert ist. In dieser Version wird ADLS Gen2 Vorabruf deaktiviert, wenn passthrough für Anmeldeinformationen aktiviert ist, bis eine ordnungsgemäße Korrektur vorliegt.
- 11. Februar 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 sollte eine Ausnahme auslösen.
- [SPARK-30447][SQL] Problem mit der NULL-Zulässigkeit der konstanten Weitergabe
- [SPARK-28152][SQL] Hinzufügen einer Legacykonfiguration für die alte numerische Zuordnung von „MsSqlServerDialect“
- Die Überschreibfunktion wurde in die Positivliste aufgenommen, damit MLModels extends MLWriter die Funktion aufrufen kann.
Databricks Runtime 6.2 (EoS)
Siehe Databricks Runtime 6.2 (EoS).
- 21. April 2020
- [SPARK-31312][SQL] Cache Class-Instanz für die UDF-Instanz in HiveFunctionWrapper
- 7. April 2020
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
ARROW_PRE_0_15_IPC_FORMAT=1
) hinzugefügt, um die Unterstützung für diese Versionen von PyArrow zu aktivieren. Weitere Informationen finden Sie in den Anweisungen in [SPARK-29367].
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
- 25. März 2020
- Die Auftragsausgabe, z. B. die an stdout ausgegebene Protokollausgabe, unterliegt einer Größenbeschränkung von 20 MB. Wenn die Gesamtausgabe diese Größe überschreitet, wird die Ausführung abgebrochen und als fehlgeschlagen markiert. Um diesen Grenzwert nicht zu überschreiten, können Sie verhindern, dass stdout vom Treiber zurückgegeben wird. Dazu legen Sie in der Spark-Konfiguration
spark.databricks.driver.disableScalaOutput
auf den Werttrue
fest. Standardmäßig lautet der Flagwertfalse
. Das Flag steuert die Zellenausgabe für Scala-JAR-Aufträge und Scala-Notebooks. Wenn das Flag aktiviert ist, gibt Spark keine Ergebnisse der Auftragsausführung an den Client zurück. Das Flag wirkt sich nicht auf die Daten aus, die in die Clusterprotokolldateien geschrieben werden. Das Festlegen dieses Flags wird nur für automatisierte Cluster für JAR-Aufträge empfohlen, da Notebookergebnisse deaktiviert werden.
- Die Auftragsausgabe, z. B. die an stdout ausgegebene Protokollausgabe, unterliegt einer Größenbeschränkung von 20 MB. Wenn die Gesamtausgabe diese Größe überschreitet, wird die Ausführung abgebrochen und als fehlgeschlagen markiert. Um diesen Grenzwert nicht zu überschreiten, können Sie verhindern, dass stdout vom Treiber zurückgegeben wird. Dazu legen Sie in der Spark-Konfiguration
- 10. März 2020
- Der in Databricks Runtime enthaltene Snowflake-Connector (
spark-snowflake_2.11
) wird auf Version 2.5.9 aktualisiert.snowflake-jdbc
wird auf Version 3.12.0 aktualisiert.
- Der in Databricks Runtime enthaltene Snowflake-Connector (
- 18. Februar 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 sollte eine Ausnahme auslösen.
- Die Passthrough-Vorgehensweise für Anmeldeinformationen mit ADLS Gen2 hat eine Leistungsbeeinträchtigung aufgrund einer falschen lokalen Threadverarbeitung, wenn der ADLS-Clientvorruf aktiviert ist. In dieser Version wird ADLS Gen2 Vorabruf deaktiviert, wenn passthrough für Anmeldeinformationen aktiviert ist, bis eine ordnungsgemäße Korrektur vorliegt.
- 28. Januar 2020
- Positivliste ML Überschreibungsfunktion von Modellautoren für Cluster, die für die Passthrough-Methode für Anmeldeinformationen aktiviert sind, sodass die Modellspeicherung den Überschreibungsmodus für Passthrough-Cluster für Anmeldeinformationen verwenden kann.
- [SPARK-30447][SQL] Problem mit der NULL-Zulässigkeit der konstanten Weitergabe.
- [SPARK-28152][SQL] Hinzufügen einer Legacykonfiguration für die alte numerische Zuordnung von „MsSqlServerDialect“.
- 14. Januar 2020
- Java-Version von 1.8.0_222 auf 1.8.0_232 aktualisiert.
- 10. Dezember 2019
- [SPARK-29904][SQL] Parsen von Zeitstempeln in Mikrosekundengenauigkeit von JSON/CSV-Datenquellen.
Databricks Runtime 6.1 (EoS)
Siehe Databricks Runtime 6.1 (EoS).
- 7. April 2020
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
ARROW_PRE_0_15_IPC_FORMAT=1
) hinzugefügt, um die Unterstützung für diese Versionen von PyArrow zu aktivieren. Weitere Informationen finden Sie in den Anweisungen in [SPARK-29367].
- Um ein Problem zu beheben, bei dem pandas udf nicht mit PyArrow 0.15.0 und höher funktioniert, haben wir eine Umgebungsvariable (
- 25. März 2020
- Die Auftragsausgabe, z. B. die an stdout ausgegebene Protokollausgabe, unterliegt einer Größenbeschränkung von 20 MB. Wenn die Gesamtausgabe diese Größe überschreitet, wird die Ausführung abgebrochen und als fehlgeschlagen markiert. Um diesen Grenzwert nicht zu überschreiten, können Sie verhindern, dass stdout vom Treiber zurückgegeben wird. Dazu legen Sie in der Spark-Konfiguration
spark.databricks.driver.disableScalaOutput
auf den Werttrue
fest. Standardmäßig lautet der Flagwertfalse
. Das Flag steuert die Zellenausgabe für Scala-JAR-Aufträge und Scala-Notebooks. Wenn das Flag aktiviert ist, gibt Spark keine Ergebnisse der Auftragsausführung an den Client zurück. Das Flag wirkt sich nicht auf die Daten aus, die in die Clusterprotokolldateien geschrieben werden. Das Festlegen dieses Flags wird nur für automatisierte Cluster für JAR-Aufträge empfohlen, da Notebookergebnisse deaktiviert werden.
- Die Auftragsausgabe, z. B. die an stdout ausgegebene Protokollausgabe, unterliegt einer Größenbeschränkung von 20 MB. Wenn die Gesamtausgabe diese Größe überschreitet, wird die Ausführung abgebrochen und als fehlgeschlagen markiert. Um diesen Grenzwert nicht zu überschreiten, können Sie verhindern, dass stdout vom Treiber zurückgegeben wird. Dazu legen Sie in der Spark-Konfiguration
- 10. März 2020
- Der in Databricks Runtime enthaltene Snowflake-Connector (
spark-snowflake_2.11
) wird auf Version 2.5.9 aktualisiert.snowflake-jdbc
wird auf Version 3.12.0 aktualisiert.
- Der in Databricks Runtime enthaltene Snowflake-Connector (
- 18. Februar 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 sollte eine Ausnahme auslösen.
- Die Passthrough-Vorgehensweise für Anmeldeinformationen mit ADLS Gen2 hat eine Leistungsbeeinträchtigung aufgrund einer falschen lokalen Threadverarbeitung, wenn der ADLS-Clientvorruf aktiviert ist. In dieser Version wird ADLS Gen2 Vorabruf deaktiviert, wenn passthrough für Anmeldeinformationen aktiviert ist, bis eine ordnungsgemäße Korrektur vorliegt.
- 28. Januar 2020
- [SPARK-30447][SQL] Problem mit der NULL-Zulässigkeit der konstanten Weitergabe.
- [SPARK-28152][SQL] Hinzufügen einer Legacykonfiguration für die alte numerische Zuordnung von „MsSqlServerDialect“.
- 14. Januar 2020
- Java-Version von 1.8.0_222 auf 1.8.0_232 aktualisiert.
- 7. November 2019
- [SPARK-29743][SQL] Stichprobe sollte needCopyResult auf wahr festlegen, wenn ihre untergeordnete needCopyResult auf wahr festgelegt ist.
- Geheimnisse, auf die von Spark-Konfigurationseigenschaften und Umgebungsvariablen in Public Preview verwiesen wird. Weitere Informationen finden Sie unter Verwenden eines Geheimnisses in einer Spark-Konfigurationseigenschaft oder -Umgebungsvariable.
- 5. November 2019
- Ein Fehler in DBFS FUSE zum Behandeln von Bereitstellungspunkten
//
im Pfad wurde behoben. - [SPARK-29081] Ersetzen von Aufrufen von SerializationUtils.clone für Eigenschaften durch eine schnellere Implementierung
- [SPARK-29244][CORE] Verhindern, dass freigegebene Seite in BytesToBytesMap wieder frei wird
- (6.1 ML) Die mkl-Bibliotheksversion 2019.4 wurde unbeabsichtigt installiert. Wir haben es auf mkl Version 2019.3 herabgestuft, damit es mit Anaconda Distribution 2019.03 übereinstimmt.
- Ein Fehler in DBFS FUSE zum Behandeln von Bereitstellungspunkten
Databricks Runtime 6.0 (EoS)
Siehe Databricks Runtime 6.0 (EoS).
- 25. März 2020
- Die Auftragsausgabe, z. B. die an stdout ausgegebene Protokollausgabe, unterliegt einer Größenbeschränkung von 20 MB. Wenn die Gesamtausgabe diese Größe überschreitet, wird die Ausführung abgebrochen und als fehlgeschlagen markiert. Um diesen Grenzwert nicht zu überschreiten, können Sie verhindern, dass stdout vom Treiber zurückgegeben wird. Dazu legen Sie in der Spark-Konfiguration
spark.databricks.driver.disableScalaOutput
auf den Werttrue
fest. Standardmäßig lautet der Flagwertfalse
. Das Flag steuert die Zellenausgabe für Scala-JAR-Aufträge und Scala-Notebooks. Wenn das Flag aktiviert ist, gibt Spark keine Ergebnisse der Auftragsausführung an den Client zurück. Das Flag wirkt sich nicht auf die Daten aus, die in die Clusterprotokolldateien geschrieben werden. Das Festlegen dieses Flags wird nur für automatisierte Cluster für JAR-Aufträge empfohlen, da Notebookergebnisse deaktiviert werden.
- Die Auftragsausgabe, z. B. die an stdout ausgegebene Protokollausgabe, unterliegt einer Größenbeschränkung von 20 MB. Wenn die Gesamtausgabe diese Größe überschreitet, wird die Ausführung abgebrochen und als fehlgeschlagen markiert. Um diesen Grenzwert nicht zu überschreiten, können Sie verhindern, dass stdout vom Treiber zurückgegeben wird. Dazu legen Sie in der Spark-Konfiguration
- 18. Februar 2020
- Die Passthrough-Vorgehensweise für Anmeldeinformationen mit ADLS Gen2 hat eine Leistungsbeeinträchtigung aufgrund einer falschen lokalen Threadverarbeitung, wenn der ADLS-Clientvorruf aktiviert ist. In dieser Version wird ADLS Gen2 Vorabruf deaktiviert, wenn passthrough für Anmeldeinformationen aktiviert ist, bis eine ordnungsgemäße Korrektur vorliegt.
- 11. Februar 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 sollte eine Ausnahme auslösen.
- 28. Januar 2020
- [SPARK-30447][SQL] Problem mit der NULL-Zulässigkeit der konstanten Weitergabe.
- [SPARK-28152][SQL] Hinzufügen einer Legacykonfiguration für die alte numerische Zuordnung von „MsSqlServerDialect“.
- 14. Januar 2020
- Java-Version von 1.8.0_222 auf 1.8.0_232 aktualisiert.
- 19. November 2019
- [SPARK-29743][SQL] Stichprobe sollte needCopyResult auf wahr festlegen, wenn ihre untergeordnete needCopyResult auf wahr festgelegt ist
- 5. November 2019
dbutils.tensorboard.start()
unterstützt jetzt TensorBoard 2.0 (bei manueller Installation).- Ein Fehler in DBFS FUSE zum Behandeln von Bereitstellungspunkten
//
im Pfad wurde behoben. - [SPARK-29081]Ersetzen von Aufrufen von SerializationUtils.clone für Eigenschaften durch eine schnellere Implementierung
- 23. Oktober 2019
- [SPARK-29244][CORE] Verhindern, dass freigegebene Seite in BytesToBytesMap wieder frei wird
- 8. Oktober 2019
- Serverseitige Änderungen, damit Shou Apache Spark ODBC-Treiber beim Abrufen der Ergebnisse nach einem Verbindungsfehler erneut eine Verbindung herstellen und fortfahren kann (erfordert Shou Apache Spark ODBC-Treiberversion 2.6.10).
- Es wurde ein Problem behoben, das sich auf die Verwendung des
Optimize
Befehls mit Tabellen-ACL-fähigen Clustern auswirkte. - Es wurde ein Problem behoben, bei dem
pyspark.ml
Bibliotheken aufgrund eines Scala UDF-Fehlers mit unzulässigen Berechtigungen für Tabellen-ACL- und Passthrough-fähige Cluster mit Anmeldeinformationen fehlschlagen konnten. - Allowlistd SerDe-/SerDeUtil-Methoden für die Passthrough-Methode für Anmeldeinformationen.
- NullPointerException beim Überprüfen des Fehlercodes im WASB-Client wurde behoben.
- Das Problem wurde behoben, bei dem Benutzeranmeldeinformationen nicht an Aufträge weitergeleitet wurden, die von
dbutils.notebook.run()
erstellt wurden.
Databricks Runtime 5.4 ML (EoS)
Siehe Databricks Runtime 5.4 für ML (EoS).
- 18. Juni 2019
- Verbesserte Verarbeitung von aktiven MLflow-Ausführungen in der Hyperopt-Integration
- Verbesserte Nachrichten in Hyperopt
- Paket
Marchkdown
von 3.1 auf 3.1.1 aktualisiert
Databricks Runtime 5.4 (EoS)
Siehe Databricks Runtime 5.4 (EoS).
- 19. November 2019
- [SPARK-29743][SQL] Stichprobe sollte needCopyResult auf wahr festlegen, wenn ihre untergeordnete needCopyResult auf wahr festgelegt ist
- 8. Oktober 2019
- Serverseitige Änderungen, damit Shou Apache Spark ODBC-Treiber beim Abrufen der Ergebnisse nach einem Verbindungsfehler erneut eine Verbindung herstellen und fortfahren kann (erfordert Aktualisierung auf Shou Apache Spark ODBC-Treiberversion 2.6.10).
- NullPointerException beim Überprüfen des Fehlercodes im WASB-Client wurde behoben.
- 10. September 2019
- Hinzufügen eines threadsicheren Iterators zu BytesToBytesMap
- Es wurde ein Fehler behoben, der sich auf bestimmte globale Aggregationsabfragen auswirkte.
- [SPARK-27330][SS] Unterstützung von Taskabbruch in foreach-Writer (6.0, 5.x)
- [SPARK-28642]Anmeldeinformationen in SHOW CREATE TABLE ausblenden
- [SPARK-28699][SQL] Deaktivieren der Radix-Sortierung für ShuffleExchangeExec im Fall einer Neuaufteilung
- [SPARK-28699][CORE] Ausnahmefall für das Abbrechen einer unbestimmten Stufe beheben
- 27. August 2019
- Es wurde ein Problem behoben, das sich auf bestimmte
transform
Ausdrücke auswirkte
- Es wurde ein Problem behoben, das sich auf bestimmte
- 13. August 2019
- Deltastreamingquelle sollte das neueste Protokoll einer Tabelle überprüfen
- [SPARK-28489][SS] Korrektur eines Fehlers, durch den KafkaOffsetRangeCalculator.getRanges möglicherweise Offsets löscht
- 30. Juli 2019
- [SPARK-28015][SQL] Überprüfung, ob stringToDate() die gesamte Eingabe für die Formate jjjj und jjjj-[m]m verbraucht
- [SPARK-28308][CORE] CalendarInterval-Teil unter einer Sekunde sollte vor der Analyse aufgefüllt werden
- [SPARK-27485] EnsureRequirements.reorder sollte doppelte Ausdrücke ordnungsgemäß behandeln
- 2. Juli 2019
- Snappy-java wurde von 1.1.7.1 auf 1.1.7.3 aktualisiert.
- 18. Juni 2019
- Verbesserte Verarbeitung von aktiven MLflow-Ausführungen in der MLlib-Integration
- Verbesserte Databricks Advisor-Meldung im Zusammenhang mit der Verwendung der Datenträgerzwischenspeicherung
- Es wurde ein Fehler behoben, der sich auf die Verwendung von Funktionen höherer Ordnung auswirkte.
- Fehler behoben, der Deltametadatenabfragen beeinträchtigt
Databricks Runtime 5.3 (EoS)
Siehe Databricks Runtime 5.3 (EoS).
- 7. November 2019
- [SPARK-29743][SQL] Stichprobe sollte needCopyResult auf wahr festlegen, wenn ihre untergeordnete needCopyResult auf wahr festgelegt ist
- 8. Oktober 2019
- Serverseitige Änderungen, damit Shou Apache Spark ODBC-Treiber beim Abrufen der Ergebnisse nach einem Verbindungsfehler erneut eine Verbindung herstellen und fortfahren kann (erfordert Aktualisierung auf Shou Apache Spark ODBC-Treiberversion 2.6.10).
- NullPointerException beim Überprüfen des Fehlercodes im WASB-Client wurde behoben.
- 10. September 2019
- Hinzufügen eines threadsicheren Iterators zu BytesToBytesMap
- Es wurde ein Fehler behoben, der sich auf bestimmte globale Aggregationsabfragen auswirkte.
- [SPARK-27330][SS] Unterstützung von Taskabbruch in foreach-Writer (6.0, 5.x)
- [SPARK-28642]Anmeldeinformationen in SHOW CREATE TABLE ausblenden
- [SPARK-28699][SQL] Deaktivieren der Radix-Sortierung für ShuffleExchangeExec im Fall einer Neuaufteilung
- [SPARK-28699][CORE] Ausnahmefall für das Abbrechen einer unbestimmten Stufe beheben
- 27. August 2019
- Es wurde ein Problem behoben, das sich auf bestimmte
transform
Ausdrücke auswirkte
- Es wurde ein Problem behoben, das sich auf bestimmte
- 13. August 2019
- Deltastreamingquelle sollte das neueste Protokoll einer Tabelle überprüfen
- [SPARK-28489][SS] Korrektur eines Fehlers, durch den KafkaOffsetRangeCalculator.getRanges möglicherweise Offsets löscht
- 30. Juli 2019
- [SPARK-28015][SQL] Überprüfung, ob stringToDate() die gesamte Eingabe für die Formate jjjj und jjjj-[m]m verbraucht
- [SPARK-28308][CORE] CalendarInterval-Teil unter einer Sekunde sollte vor der Analyse aufgefüllt werden
- [SPARK-27485] EnsureRequirements.reorder sollte doppelte Ausdrücke ordnungsgemäß behandeln
- 18. Juni 2019
- Verbesserte Databricks Advisor-Meldung im Zusammenhang mit der Verwendung der Datenträgerzwischenspeicherung
- Es wurde ein Fehler behoben, der sich auf die Verwendung von Funktionen höherer Ordnung auswirkte.
- Fehler behoben, der Deltametadatenabfragen beeinträchtigt
- 28. Mai 2019
- Verbesserte Stabilität von Delta
- Tolerieren von IOExceptions beim Lesen von Delta LAST_CHECKPOINT Datei
- Wiederherstellung zu fehlgeschlagener Bibliotheksinstallation hinzugefügt
- 7. Mai 2019
- Portieren von HADOOP-15778 (ABFS: Behebung der clientseitigen Drosselung beim Lesen) auf den Azure Data Lake Storage Gen2-Connector
- Portieren von HADOOP-16040 (ABFS: Fehlerbehebung für die tolerateOobAppends-Konfiguration) an den Azure Data Lake Storage Gen2-Connector
- Ein Fehler, der sich auf Tabellen-ACLs auswirkt, wurde behoben.
- Eine Racebedingung beim Laden einer Delta-Protokoll-Prüfsummendatei wurde korrigiert.
- Die Logik zur Erkennung von Deltakonflikten wurde korrigiert, um „Einfügen + Überschreiben“ nicht als reinen „Anfügen“-Vorgang zu identifizieren.
- Sicherstellen, dass das Festplatten-Caching nicht deaktiviert ist, wenn Tabellen-ACLs aktiviert sind
- [SPARK-27494][SS] Nullwerte funktionieren nicht in der Kafka-Quelle v2
- [SPARK-27446][R] Vorhandene Spark-Konfiguration verwenden, falls verfügbar
- [SPARK-27454] [SPARK-27454] [ML][SQL] Fehler bei der Spark-Imagedatenquelle, wenn einige ungültige Images auftreten
- [SPARK-27160][SQL] DecimalType beim Erstellen von ORC-Filtern beheben
- [SPARK-27338][CORE] Deadlock zwischen UnsafeExternalSorter und TaskMemoryManager beheben
Databricks Runtime 5.2 (EoS)
Siehe Databricks Runtime 5.2 (EoS).
- 10. September 2019
- Hinzufügen eines threadsicheren Iterators zu BytesToBytesMap
- Es wurde ein Fehler behoben, der sich auf bestimmte globale Aggregationsabfragen auswirkte.
- [SPARK-27330][SS] Unterstützung von Taskabbruch in foreach-Writer (6.0, 5.x)
- [SPARK-28642]Anmeldeinformationen in SHOW CREATE TABLE ausblenden
- [SPARK-28699][SQL] Deaktivieren der Radix-Sortierung für ShuffleExchangeExec im Fall einer Neuaufteilung
- [SPARK-28699][CORE] Ausnahmefall für das Abbrechen einer unbestimmten Stufe beheben
- 27. August 2019
- Es wurde ein Problem behoben, das sich auf bestimmte
transform
Ausdrücke auswirkte
- Es wurde ein Problem behoben, das sich auf bestimmte
- 13. August 2019
- Deltastreamingquelle sollte das neueste Protokoll einer Tabelle überprüfen
- [SPARK-28489][SS] Korrektur eines Fehlers, durch den KafkaOffsetRangeCalculator.getRanges möglicherweise Offsets löscht
- 30. Juli 2019
- [SPARK-28015][SQL] Überprüfung, ob stringToDate() die gesamte Eingabe für die Formate jjjj und jjjj-[m]m verbraucht
- [SPARK-28308][CORE] CalendarInterval-Teil unter einer Sekunde sollte vor der Analyse aufgefüllt werden
- [SPARK-27485] EnsureRequirements.reorder sollte doppelte Ausdrücke ordnungsgemäß behandeln
- 2. Juli 2019
- Tolerieren von IOExceptions beim Lesen von Delta LAST_CHECKPOINT Datei
- 18. Juni 2019
- Verbesserte Databricks Advisor-Meldung im Zusammenhang mit der Verwendung des Datenträgercaches
- Es wurde ein Fehler behoben, der sich auf die Verwendung von Funktionen höherer Ordnung auswirkte.
- Fehler behoben, der Deltametadatenabfragen beeinträchtigt
- 28. Mai 2019
- Wiederherstellung zu fehlgeschlagener Bibliotheksinstallation hinzugefügt
- 7. Mai 2019
- Portieren von HADOOP-15778 (ABFS: Behebung der clientseitigen Drosselung beim Lesen) auf den Azure Data Lake Storage Gen2-Connector
- Portieren von HADOOP-16040 (ABFS: Fehlerbehebung für die tolerateOobAppends-Konfiguration) an den Azure Data Lake Storage Gen2-Connector
- Eine Racebedingung beim Laden einer Delta-Protokoll-Prüfsummendatei wurde korrigiert.
- Die Logik zur Erkennung von Deltakonflikten wurde korrigiert, um „Einfügen + Überschreiben“ nicht als reinen „Anfügen“-Vorgang zu identifizieren.
- Sicherstellen, dass das Festplatten-Caching nicht deaktiviert ist, wenn Tabellen-ACLs aktiviert sind
- [SPARK-27494][SS] Nullwerte funktionieren nicht in der Kafka-Quelle v2
- [SPARK-27454] [SPARK-27454] [ML][SQL] Fehler bei der Spark-Imagedatenquelle, wenn einige ungültige Images auftreten
- [SPARK-27160][SQL] DecimalType beim Erstellen von ORC-Filtern beheben
- [SPARK-27338][CORE] Deadlock zwischen UnsafeExternalSorter und TaskMemoryManager beheben
- 26. März 2019
- Buchstäbliches Einbetten plattformabhängiger Offsets in Whole-Stage Code Generation vermeiden
- [SPARK-26665][CORE] Fehler beheben, durch den BlockTransferService.fetchBlockSync ewig hängen bleiben kann.
- [SPARK-27134][SQL] Die Funktion array_distinct funktioniert nicht ordnungsgemäß mit Spalten, die ein Array von Arrays enthalten.
- [SPARK-24669][SQL] Tabellen im Fall von DROP DATABASE CASCADE als ungültig erklären.
- [SPARK-26572][SQL] Ergebnisauswertung der Codegenerierung für Aggregat beheben.
- Es wurde ein Fehler behoben, der bestimmte PythonUDFs betrifft.
- 26. Februar 2019
- [SPARK-26864][SQL] Abfrage gibt möglicherweise ein falsches Ergebnis zurück, wenn Python UDF als Left-Semi-Join-Bedingung verwendet wird.
- [SPARK-26887][PYTHON] datetime.date direkt erstellen, anstatt datetime64 als Zwischendaten zu erstellen.
- Es wurde ein Fehler behoben, der sich auf den JDBC-/ODBC-Server auswirkt.
- Ein Fehler, der PySpark betrifft, wurde behoben.
- Schließen Sie die ausgeblendeten Dateien aus, wenn Sie HadoopRDD erstellen.
- Es wurde ein Fehler in Delta behoben, der Serialisierungsprobleme verursacht hat.
- 12. Februar 2019
- Es wurde ein Problem behoben, das sich auf die Verwendung von Delta ADLS Gen2 Azure-Bereitstellungspunkten ausgewirkt hat.
- Es wurde ein Problem behoben, bei dem das Low-Level-Netzwerkprotokoll von Spark beim Senden großer RPC-Fehlermeldungen mit aktivierter Verschlüsselung unterbrochen werden konnte (wenn
spark.network.crypto.enabled
auf „wahr“ festgelegt ist).
- 30. Januar 2019
- Der StackOverflowError wurde behoben, wenn der Joinhinweis „Neigung“ für die zwischengespeicherte Beziehung festgelegt wurde.
- Die Inkonsistenz zwischen dem gecachten RDD eines SQL-Caches und seinem physischen Plan, die zu falschen Ergebnissen führte, wurde behoben.
- [SPARK-26706][SQL] Korrektur
illegalNumericPrecedence
für ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery verarbeitet leere Datensätze nicht ordnungsgemäß.
- CSV/JSON-Datenquellen sollten beim Ableiten eines Schemas vermeiden, Platzhalter für Pfade anzugeben.
- Der Einschränkungsrückschluss für den Window-Operator wurde korrigiert.
- Es wurde ein Problem behoben, das sich auf die Installation von Bibliotheken mit Clustern mit aktivierter Tabellen-ACL ausgewirkt hat.
Databricks Runtime 5.1 (EoS)
Siehe Databricks Runtime 5.1 (EoS).
- 13. August 2019
- Deltastreamingquelle sollte das neueste Protokoll einer Tabelle überprüfen
- [SPARK-28489][SS] Korrektur eines Fehlers, durch den KafkaOffsetRangeCalculator.getRanges möglicherweise Offsets löscht
- 30. Juli 2019
- [SPARK-28015][SQL] Überprüfung, ob stringToDate() die gesamte Eingabe für die Formate jjjj und jjjj-[m]m verbraucht
- [SPARK-28308][CORE] CalendarInterval-Teil unter einer Sekunde sollte vor der Analyse aufgefüllt werden
- [SPARK-27485] EnsureRequirements.reorder sollte doppelte Ausdrücke ordnungsgemäß behandeln
- 2. Juli 2019
- Tolerieren von IOExceptions beim Lesen von Delta LAST_CHECKPOINT Datei
- 18. Juni 2019
- Es wurde ein Fehler behoben, der sich auf die Verwendung von Funktionen höherer Ordnung auswirkte.
- Fehler behoben, der Deltametadatenabfragen beeinträchtigt
- 28. Mai 2019
- Wiederherstellung zu fehlgeschlagener Bibliotheksinstallation hinzugefügt
- 7. Mai 2019
- Portieren von HADOOP-15778 (ABFS: Behebung der clientseitigen Drosselung beim Lesen) auf den Azure Data Lake Storage Gen2-Connector
- Portieren von HADOOP-16040 (ABFS: Fehlerbehebung für die tolerateOobAppends-Konfiguration) an den Azure Data Lake Storage Gen2-Connector
- Eine Racebedingung beim Laden einer Delta-Protokoll-Prüfsummendatei wurde korrigiert.
- Die Logik zur Erkennung von Deltakonflikten wurde korrigiert, um „Einfügen + Überschreiben“ nicht als reinen „Anfügen“-Vorgang zu identifizieren.
- [SPARK-27494][SS] Nullwerte funktionieren nicht in der Kafka-Quelle v2
- [SPARK-27454] [SPARK-27454] [ML][SQL] Fehler bei der Spark-Imagedatenquelle, wenn einige ungültige Images auftreten
- [SPARK-27160][SQL] DecimalType beim Erstellen von ORC-Filtern beheben
- [SPARK-27338][CORE] Deadlock zwischen UnsafeExternalSorter und TaskMemoryManager beheben
- 26. März 2019
- Buchstäbliches Einbetten plattformabhängiger Offsets in Whole-Stage Code Generation vermeiden
- Es wurde ein Fehler behoben, der bestimmte PythonUDFs betrifft.
- 26. Februar 2019
- [SPARK-26864][SQL] Abfrage gibt möglicherweise ein falsches Ergebnis zurück, wenn Python UDF als Left-Semi-Join-Bedingung verwendet wird.
- Es wurde ein Fehler behoben, der sich auf den JDBC-/ODBC-Server auswirkt.
- Schließen Sie die ausgeblendeten Dateien aus, wenn Sie HadoopRDD erstellen.
- 12. Februar 2019
- Es wurde ein Problem behoben, das sich auf die Installation von Bibliotheken mit Clustern mit aktivierter Tabellen-ACL ausgewirkt hat.
- Die Inkonsistenz zwischen dem gecachten RDD eines SQL-Caches und seinem physischen Plan, die zu falschen Ergebnissen führte, wurde behoben.
- [SPARK-26706][SQL] Korrektur
illegalNumericPrecedence
für ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery verarbeitet leere Datensätze nicht ordnungsgemäß.
- Der Einschränkungsrückschluss für den Window-Operator wurde korrigiert.
- Es wurde ein Problem behoben, bei dem das Low-Level-Netzwerkprotokoll von Spark beim Senden großer RPC-Fehlermeldungen mit aktivierter Verschlüsselung unterbrochen werden konnte (wenn
spark.network.crypto.enabled
auf „wahr“ festgelegt ist).
- 30. Januar 2019
- Es wurde ein Problem behoben, das dazu führen kann, dass
df.rdd.count()
mit UDT in bestimmten Fällen eine falsche Antwort ausgibt. - Es wurde ein Problem behoben, das sich auf die Installation von Wheelhouses ausgewirkt hat.
- [SPARK-26267]Wiederholung bei Erkennung falscher Offsets von Kafka.
- Es wurde ein Fehler behoben, der mehrere Dateistreamquellen in einer Streamingabfrage betrifft.
- Der StackOverflowError wurde behoben, wenn der Joinhinweis „Neigung“ für die zwischengespeicherte Beziehung festgelegt wurde.
- Die Inkonsistenz zwischen dem gecachten RDD eines SQL-Caches und seinem physischen Plan, die zu falschen Ergebnissen führte, wurde behoben.
- Es wurde ein Problem behoben, das dazu führen kann, dass
- 8. Januar 2019
- Es wurde ein Problem behoben, das den Fehler
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
verursacht hat. - [SPARK-26352]Join-Neuanordnung sollte die Reihenfolge der Ausgabeattribute nicht ändern.
- [SPARK-26366] ReplaceExceptWithFilter sollte NULL als False betrachten.
- Stabilitätsverbesserung für Delta Lake.
- Delta Lake ist aktiviert.
- Es wurde das Problem behoben, das zu einem Fehler beim Zugriff auf Azure Data Lake Storage Gen2 führte, wenn Microsoft Entra ID-Passthrough für Anmeldeinformationen für Azure Data Lake Storage Gen1 aktiviert wurde.
- Databricks IO Cache ist jetzt für Workerinstanztypen der Ls-Serie für alle Tarife aktiviert.
- Es wurde ein Problem behoben, das den Fehler
Databricks Runtime 5.0 (EoS)
Siehe Databricks Runtime 5.0 (EoS).
- 18. Juni 2019
- Es wurde ein Fehler behoben, der sich auf die Verwendung von Funktionen höherer Ordnung auswirkte.
- 7. Mai 2019
- Eine Racebedingung beim Laden einer Delta-Protokoll-Prüfsummendatei wurde korrigiert.
- Die Logik zur Erkennung von Deltakonflikten wurde korrigiert, um „Einfügen + Überschreiben“ nicht als reinen „Anfügen“-Vorgang zu identifizieren.
- [SPARK-27494][SS] Nullwerte funktionieren nicht in der Kafka-Quelle v2
- [SPARK-27454] [SPARK-27454] [ML][SQL] Fehler bei der Spark-Imagedatenquelle, wenn einige ungültige Images auftreten
- [SPARK-27160][SQL] DecimalType beim Erstellen von ORC-Filtern beheben
- [SPARK-27338][CORE] Deadlock zwischen UnsafeExternalSorter und TaskMemoryManager beheben
- 26. März 2019
- Buchstäbliches Einbetten plattformabhängiger Offsets in Whole-Stage Code Generation vermeiden
- Es wurde ein Fehler behoben, der bestimmte PythonUDFs betrifft.
- 12. März 2019
- [SPARK-26864][SQL] Abfrage gibt möglicherweise ein falsches Ergebnis zurück, wenn Python UDF als Left-Semi-Join-Bedingung verwendet wird.
- 26. Februar 2019
- Es wurde ein Fehler behoben, der sich auf den JDBC-/ODBC-Server auswirkt.
- Schließen Sie die ausgeblendeten Dateien aus, wenn Sie HadoopRDD erstellen.
- 12. Februar 2019
- Die Inkonsistenz zwischen dem gecachten RDD eines SQL-Caches und seinem physischen Plan, die zu falschen Ergebnissen führte, wurde behoben.
- [SPARK-26706][SQL] Korrektur
illegalNumericPrecedence
für ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery verarbeitet leere Datensätze nicht ordnungsgemäß.
- Der Einschränkungsrückschluss für den Window-Operator wurde korrigiert.
- Es wurde ein Problem behoben, bei dem das Low-Level-Netzwerkprotokoll von Spark beim Senden großer RPC-Fehlermeldungen mit aktivierter Verschlüsselung unterbrochen werden konnte (wenn
spark.network.crypto.enabled
auf „wahr“ festgelegt ist).
- 30. Januar 2019
- Es wurde ein Problem behoben, das dazu führen kann, dass
df.rdd.count()
mit UDT in bestimmten Fällen eine falsche Antwort ausgibt. - [SPARK-26267]Wiederholung bei Erkennung falscher Offsets von Kafka.
- Es wurde ein Fehler behoben, der mehrere Dateistreamquellen in einer Streamingabfrage betrifft.
- Der StackOverflowError wurde behoben, wenn der Joinhinweis „Neigung“ für die zwischengespeicherte Beziehung festgelegt wurde.
- Die Inkonsistenz zwischen dem gecachten RDD eines SQL-Caches und seinem physischen Plan, die zu falschen Ergebnissen führte, wurde behoben.
- Es wurde ein Problem behoben, das dazu führen kann, dass
- 8. Januar 2019
- Es wurde ein Problem behoben, das den Fehler
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
verursacht hat. - [SPARK-26352]Join-Neuanordnung sollte die Reihenfolge der Ausgabeattribute nicht ändern.
- [SPARK-26366] ReplaceExceptWithFilter sollte NULL als False betrachten.
- Stabilitätsverbesserung für Delta Lake.
- Delta Lake ist aktiviert.
- Databricks IO Cache ist jetzt für Workerinstanztypen der Ls-Serie für alle Tarife aktiviert.
- Es wurde ein Problem behoben, das den Fehler
- 18. Dezember 2018
- [SPARK-26293]Ausnahme beim Verwenden einer python-UDF in einer Unterabfrage
- Es wurde ein Problem behoben, das sich auf bestimmte Abfragen mit Join und Limit ausgewirkt hat.
- Redigierte Anmeldeinformationen aus RDD-Namen in der Spark-Benutzeroberfläche
- 6. Dezember 2018
- Ein Problem wurde behoben, das ein falsches Abfrageergebnis verursachte, wenn orderBy gefolgt von groupBy mit group-by-Schlüssel als führendem Teil des Sortierschlüssels verwendet wurde.
- Der Snowflake-Connector für Spark wurde von 2.4.9.2-spark_2.4_pre_release auf 2.4.10 aktualisiert.
- Ignorieren Sie beschädigte Dateien nur nach mindestens einem Erneuten, wenn das Flag
spark.sql.files.ignoreCorruptFiles
oderspark.sql.files.ignoreMissingFiles
aktiviert ist. - Es wurde ein Problem behoben, das bestimmte Self-Union-Abfragen betrifft.
- Es wurde ein Fehler mit dem Thrift-Server behoben, bei dem Sitzungen beim Abbrechen manchmal verloren gingen.
- [SPARK-26307] CTAS wurde behoben, wenn INSERT eine partitionierte Tabelle mit Hive SerDe verwendet.
- [SPARK-26147] Python-UDFs in Joinbedingung treten auch dann nicht auf, wenn Spalten von nur einer Seite des Joins verwendet werden.
- [SPARK-26211] Korrektur von InSet für binary und struct und array mit NULL.
- [SPARK-26181]die
hasMinMaxStats
-Methode vonColumnStatsMap
ist nicht korrekt. - Es wurde ein Problem behoben, das die Installation von Python-Raden in Umgebungen ohne Internetzugriff betrifft.
- 20. November 2018
- Es wurde ein Problem behoben, das dazu führte, dass ein Notebook nach dem Abbrechen einer Streamingabfrage nicht mehr verwendet werden konnte.
- Es wurde ein Problem behoben, das sich auf bestimmte Abfragen mit Fensterfunktionen ausgewirkt hat.
- Es wurde ein Problem behoben, das einen Datenstrom aus Delta mit mehreren Schemaänderungen betrifft.
- Es wurde ein Problem behoben, das bestimmte Aggregationsabfragen mit linken Semi-/Anti-Joins betrifft.
Databricks Runtime 4.3 (EoS)
Siehe Databricks Runtime 4.3 (EoS).
9\. April 2019
- [SPARK-26665][CORE] Fehler beheben, durch den BlockTransferService.fetchBlockSync ewig hängen bleiben kann.
- [SPARK-24669][SQL] Tabellen im Fall von DROP DATABASE CASCADE als ungültig erklären.
12. März 2019
- Ein Fehler, der sich auf die Codegenerierung auswirkt, wurde behoben.
- Ein Fehler, der PySpark betrifft, wurde behoben.
26. Februar 2019
- Es wurde ein Fehler behoben, der sich auf den JDBC-/ODBC-Server auswirkt.
12. Februar 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery verarbeitet leere Datensätze nicht ordnungsgemäß.
- Ausschließen der ausgeblendeten Dateien bei der Erstellung von HadoopRDD.
- Die Parquet-Filterkonvertierung für das IN-Prädikat wurde korrigiert, wenn der Wert leer ist.
- Es wurde ein Problem behoben, bei dem das Low-Level-Netzwerkprotokoll von Spark beim Senden großer RPC-Fehlermeldungen mit aktivierter Verschlüsselung unterbrochen werden konnte (wenn
spark.network.crypto.enabled
auf „wahr“ festgelegt ist).
30. Januar 2019
- Es wurde ein Problem behoben, das dazu führen kann, dass
df.rdd.count()
mit UDT in bestimmten Fällen eine falsche Antwort ausgibt. - Die Inkonsistenz zwischen dem gecachten RDD eines SQL-Caches und seinem physischen Plan, die zu falschen Ergebnissen führte, wurde behoben.
- Es wurde ein Problem behoben, das dazu führen kann, dass
8\. Januar 2019
- Es wurde ein Problem behoben, das den Fehler
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
verursacht hat. - Redigierte Anmeldeinformationen aus RDD-Namen in der Spark-Benutzeroberfläche
- [SPARK-26352]Join-Neuanordnung sollte die Reihenfolge der Ausgabeattribute nicht ändern.
- [SPARK-26366] ReplaceExceptWithFilter sollte NULL als False betrachten.
- Delta Lake ist aktiviert.
- Databricks IO Cache ist jetzt für Workerinstanztypen der Ls-Serie für alle Tarife aktiviert.
- Es wurde ein Problem behoben, das den Fehler
18. Dezember 2018
- [SPARK-25002] Avro: Überarbeiten Sie den Namespace des Ausgabedatensatz.
- Es wurde ein Problem behoben, das sich auf bestimmte Abfragen mit Join und Limit ausgewirkt hat.
- [SPARK-26307] CTAS wurde behoben, wenn INSERT eine partitionierte Tabelle mit Hive SerDe verwendet.
- Ignorieren Sie beschädigte Dateien nur nach mindestens einem Erneuten, wenn das Flag
spark.sql.files.ignoreCorruptFiles
oderspark.sql.files.ignoreMissingFiles
aktiviert ist. - [SPARK-26181]die
hasMinMaxStats
-Methode vonColumnStatsMap
ist nicht korrekt. - Es wurde ein Problem behoben, das die Installation von Python-Raden in Umgebungen ohne Internetzugriff betrifft.
- Ein Leistungsproblem in der Abfrageanalyse wurde behoben.
- Es wurde ein Problem in PySpark behoben, bei dem DataFrame-Aktionen mit dem Fehler „Verbindung verweigert“ fehlgeschlagen sind.
- Es wurde ein Problem behoben, das bestimmte Self-Union-Abfragen betrifft.
20. November 2018
- [SPARK-17916][SPARK-25241]Korrektur der Analyse einer leeren Zeichenfolge als NULL, wenn nullValue festgelegt ist.
- [SPARK-25387] Korrektur für NPE, die durch eine fehlerhafte CSV-Eingabe verursacht wurde.
- Es wurde ein Problem behoben, das bestimmte Aggregationsabfragen mit linken Semi-/Anti-Joins betrifft.
6. November 2018
- [SPARK-25741] Lange URLs werden in der Webbenutzeroberfläche nicht ordnungsgemäß gerendert.
- [SPARK-25714] Korrektur der NULL-Behandlung in der Optimiererregel BooleanSimplification.
- Es wurde ein Problem behoben, das sich auf die Bereinigung temporärer Objekte im Synapse Analytics hat.
- [SPARK-25816] Korrektur der Attributauflösung in geschachtelten Extraktoren.
16. Oktober 2018
- Es wurde ein Fehler behoben, der sich auf die Ausgabe der Ausführung in
SHOW CREATE TABLE
Delta-Tabellen auswirkt. - Es wurde ein Fehler behoben, der sich auf den Vorgang
Union
auswirkt.
- Es wurde ein Fehler behoben, der sich auf die Ausgabe der Ausführung in
25. September 2018
- [SPARK-25368][SQL] Falscher Einschränkungsrückschluss gibt ein falsches Ergebnis zurück.
- [SPARK-25402][SQL] NULL-Behandlung in BooleanSimplification.
NotSerializableException
in der Avro-Datenquelle behoben.
11. September 2018
- [SPARK-25214][SS] Behebung des Problems, dass die Kafka v2-Quelle möglicherweise doppelte Datensätze zurück gibt, wenn
failOnDataLoss=false
. - [SPARK-24987][SS] Korrektur des Kafka-Consumerverlusts, wenn keine neuen Offsets für articlePartition.
- Die Filterverringerung sollte den NULL-Wert ordnungsgemäß behandeln.
- Verbesserte Stabilität der Ausführungs-Engine.
- [SPARK-25214][SS] Behebung des Problems, dass die Kafka v2-Quelle möglicherweise doppelte Datensätze zurück gibt, wenn
28. August 2018
- Im Befehl „Delta Lake Löschen“ wurde ein Fehler behoben, durch den die Zeilen, in denen die Bedingung als NULL ausgewertet wird, fälschlicherweise gelöscht wurden.
- [SPARK-25142] Fügen Sie Fehlermeldungen hinzu, wenn der Python-Worker den Socket in
_load_from_socket
nicht öffnen konnte.
23. August 2018
- [SPARK-23935]mapEntry löst
org.codehaus.commons.compiler.CompileException
aus. - Das Problem der löschbaren Karte im Parquet-Reader wurde behoben.
- [SPARK-25051][SQL] FixNullability sollte nicht bei AnalysisBarrier aufhören.
- [SPARK-25081] Es wurde ein Fehler behoben, bei dem ShuffleExternalSorter auf eine freigegebene Speicherseite zugreifen kann, wenn beim Überlauf kein Speicher reserviert werden kann.
- Es wurde eine Interaktion zwischen Databricks Delta und Pyspark behoben, die vorübergehende Lesefehler verursachen konnte.
- [SPARK-25084]“distribute by“ in mehreren Spalten (in Klammern umschließen) kann zu einem Codegenproblem führen.
- [SPARK-25096] Lockern Sie die NULL-Werte, wenn die Cast force-nullable ist.
- Die Standardanzahl von Threads, die vom Delta Lake Optimize-Befehl verwendet werden, wurde verringert, wodurch der Speicher-Overhead reduziert und die Daten schneller übertragen werden.
- [SPARK-25114] Fix RecordBinaryComparator wenn die Subtraktion zwischen zwei Wörtern durch Integer.MAX_VALUE teilbar ist.
- Die Bearbeitung des Geheimnis-Managers wurde korrigiert, wenn der Befehl teilweise erfolgreich war.
- [SPARK-23935]mapEntry löst
Databricks Runtime 4.2 (EoS)
Siehe Databricks Runtime 4.2 (EoS).
26. Februar 2019
- Es wurde ein Fehler behoben, der sich auf den JDBC-/ODBC-Server auswirkt.
12. Februar 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery verarbeitet leere Datensätze nicht ordnungsgemäß.
- Ausschließen der ausgeblendeten Dateien bei der Erstellung von HadoopRDD.
- Die Parquet-Filterkonvertierung für das IN-Prädikat wurde korrigiert, wenn der Wert leer ist.
- Es wurde ein Problem behoben, bei dem das Low-Level-Netzwerkprotokoll von Spark beim Senden großer RPC-Fehlermeldungen mit aktivierter Verschlüsselung unterbrochen werden konnte (wenn
spark.network.crypto.enabled
auf „wahr“ festgelegt ist).
30. Januar 2019
- Es wurde ein Problem behoben, das dazu führen kann, dass
df.rdd.count()
mit UDT in bestimmten Fällen eine falsche Antwort ausgibt.
- Es wurde ein Problem behoben, das dazu führen kann, dass
8\. Januar 2019
- Es wurde ein Problem behoben, das den Fehler
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
verursacht hat. - Redigierte Anmeldeinformationen aus RDD-Namen in der Spark-Benutzeroberfläche
- [SPARK-26352]Join-Neuanordnung sollte die Reihenfolge der Ausgabeattribute nicht ändern.
- [SPARK-26366] ReplaceExceptWithFilter sollte NULL als False betrachten.
- Delta Lake ist aktiviert.
- Databricks IO Cache ist jetzt für Workerinstanztypen der Ls-Serie für alle Tarife aktiviert.
- Es wurde ein Problem behoben, das den Fehler
18. Dezember 2018
- [SPARK-25002] Avro: Überarbeiten Sie den Namespace des Ausgabedatensatz.
- Es wurde ein Problem behoben, das sich auf bestimmte Abfragen mit Join und Limit ausgewirkt hat.
- [SPARK-26307] CTAS wurde behoben, wenn INSERT eine partitionierte Tabelle mit Hive SerDe verwendet.
- Ignorieren Sie beschädigte Dateien nur nach mindestens einem Erneuten, wenn das Flag
spark.sql.files.ignoreCorruptFiles
oderspark.sql.files.ignoreMissingFiles
aktiviert ist. - [SPARK-26181]die
hasMinMaxStats
-Methode vonColumnStatsMap
ist nicht korrekt. - Es wurde ein Problem behoben, das die Installation von Python-Raden in Umgebungen ohne Internetzugriff betrifft.
- Ein Leistungsproblem in der Abfrageanalyse wurde behoben.
- Es wurde ein Problem in PySpark behoben, bei dem DataFrame-Aktionen mit dem Fehler „Verbindung verweigert“ fehlgeschlagen sind.
- Es wurde ein Problem behoben, das bestimmte Self-Union-Abfragen betrifft.
20. November 2018
- [SPARK-17916][SPARK-25241]Korrektur der Analyse einer leeren Zeichenfolge als NULL, wenn nullValue festgelegt ist.
- Es wurde ein Problem behoben, das bestimmte Aggregationsabfragen mit linken Semi-/Anti-Joins betrifft.
6. November 2018
- [SPARK-25741] Lange URLs werden in der Webbenutzeroberfläche nicht ordnungsgemäß gerendert.
- [SPARK-25714] Korrektur der NULL-Behandlung in der Optimiererregel BooleanSimplification.
16. Oktober 2018
- Es wurde ein Fehler behoben, der sich auf die Ausgabe der Ausführung in
SHOW CREATE TABLE
Delta-Tabellen auswirkt. - Es wurde ein Fehler behoben, der sich auf den Vorgang
Union
auswirkt.
- Es wurde ein Fehler behoben, der sich auf die Ausgabe der Ausführung in
25. September 2018
- [SPARK-25368][SQL] Falscher Einschränkungsrückschluss gibt ein falsches Ergebnis zurück.
- [SPARK-25402][SQL] NULL-Behandlung in BooleanSimplification.
NotSerializableException
in der Avro-Datenquelle behoben.
11. September 2018
- [SPARK-25214][SS] Behebung des Problems, dass die Kafka v2-Quelle möglicherweise doppelte Datensätze zurück gibt, wenn
failOnDataLoss=false
. - [SPARK-24987][SS] Korrektur des Kafka-Consumerverlusts, wenn keine neuen Offsets für articlePartition.
- Die Filterverringerung sollte den NULL-Wert ordnungsgemäß behandeln.
- [SPARK-25214][SS] Behebung des Problems, dass die Kafka v2-Quelle möglicherweise doppelte Datensätze zurück gibt, wenn
28. August 2018
- Im Befehl „Delta Lake Löschen“ wurde ein Fehler behoben, durch den die Zeilen, in denen die Bedingung als NULL ausgewertet wird, fälschlicherweise gelöscht wurden.
23. August 2018
- NoClassDefError für Deltamomentaufnahme korrigiert
- [SPARK-23935]mapEntry löst
org.codehaus.commons.compiler.CompileException
aus. - [SPARK-24957][SQL] Average with decimal gefolgt von aggregation returns wrong result. Möglicherweise werden die falschen Ergebnisse von AVERAGE zurückgegeben. Die im Average-Operator hinzugefügte CAST wird umgangen, wenn das Ergebnis von Divide dem Typ entspricht, in den er umgerechnet wird.
- [SPARK-25081] Es wurde ein Fehler behoben, bei dem ShuffleExternalSorter auf eine freigegebene Speicherseite zugreifen kann, wenn beim Überlauf kein Speicher reserviert werden kann.
- Es wurde eine Interaktion zwischen Databricks Delta und Pyspark behoben, die vorübergehende Lesefehler verursachen konnte.
- [SPARK-25114] Fix RecordBinaryComparator wenn die Subtraktion zwischen zwei Wörtern durch Integer.MAX_VALUE teilbar ist.
- [SPARK-25084]“distribute by“ in mehreren Spalten (in Klammern umschließen) kann zu einem Codegenproblem führen.
- [SPARK-24934][SQL] Explizite Allowlist unterstützter Typen in oberen/unteren Grenzen für die Speicherpartitionsbereinigung. Wenn komplexe Datentypen in Abfragefiltern für zwischengespeicherte Daten verwendet werden, gibt Spark immer ein leeres Resultset zurück. Die auf In-Memory-Statistiken basierende Bereinigung generiert falsche Ergebnisse, da NULL für obere/untere Grenzen für komplexe Typen festgelegt ist. Die Korrektur besteht darin, keine auf In-Memory-Statistiken basierende Bereinigung für komplexe Typen zu verwenden.
- Die Bearbeitung des Geheimnis-Managers wurde korrigiert, wenn der Befehl teilweise erfolgreich war.
- Das Problem der löschbaren Karte im Parquet-Reader wurde behoben.
2. August 2018
- WriteStream.table-API in Python hinzugefügt.
- Es wurde ein Problem behoben, das sich auf Delta-Prüfpunkte auswirkte.
- [SPARK-24867][SQL] Hinzufügen von AnalysisBarrier zu DataFrameWriter. SQL Cache wird nicht verwendet, wenn DataFrameWriter zum Schreiben eines DataFrames mit UDF verwendet wird. Dies ist eine Regression, die durch die Änderungen verursacht wird, die wir in AnalysisBarrier vorgenommen haben, da nicht alle Analyzer-Regeln idempotent sind.
- Ein Problem wurde behoben, das dazu führen konnte, dass der Befehl
mergeInto
falsche Ergebnisse lieferte. - Verbesserte Stabilität beim Zugriff auf Azure Data Lake Storage Gen1.
- [SPARK-24809] Das Serialisieren von LongHashedRelation im Executor kann zu Datenfehlern führen.
- [SPARK-24878][SQL] Korrektur der Reversefunktion für den Arraytyp des primitiven Typs, der NULL enthält.
11. Juli 2018
- Ein Fehler bei der Abfrageausführung wurde behoben, der dazu geführt hat, dass Aggregationen für Dezimalspalten mit unterschiedlicher Genauigkeit in einigen Fällen falsche Ergebnisse zurückgeben.
NullPointerException
Ein Fehler wurde behoben, der bei erweiterten Aggregationsvorgängen wie Gruppierungssätzen ausgelöst wurde.
Databricks Runtime 4.1 ML (EoS)
Siehe Databricks Runtime 4.1 ML (EoS).
- 31. Juli 2018
- ML Runtime 4.1 wurde Azure Synapse Analytics hinzugefügt.
- Ein Fehler wurde behoben, der zu falschen Abfrageergebnissen führen konnte, wenn sich der Name einer Partitionsspalte, die in einem Prädikat verwendet wird, vom Fall dieser Spalte im Schema der Tabelle unterscheidet.
- Es wurde ein Fehler behoben, der sich auf die spark SQL Ausführungs-Engine auswirkte.
- Ein Fehler, der sich auf die Codegenerierung auswirkt, wurde behoben.
- Ein Fehler (
java.lang.NoClassDefFoundError
), der Delta Lake betrifft, wurde behoben. - Verbesserte Fehlerbehandlung in Delta Lake.
- Ein Fehler wurde behoben, der dazu führte, dass falsche Daten übersprungene Statistiken für Zeichenfolgenspalten mit 32 Zeichen oder höher gesammelt wurden.
Databricks Runtime 4.1 (EoS)
Siehe Databricks Runtime 4.1 (EoS).
8\. Januar 2019
- [SPARK-26366] ReplaceExceptWithFilter sollte NULL als False betrachten.
- Delta Lake ist aktiviert.
18. Dezember 2018
- [SPARK-25002] Avro: Überarbeiten Sie den Namespace des Ausgabedatensatz.
- Es wurde ein Problem behoben, das sich auf bestimmte Abfragen mit Join und Limit ausgewirkt hat.
- [SPARK-26307] CTAS wurde behoben, wenn INSERT eine partitionierte Tabelle mit Hive SerDe verwendet.
- Ignorieren Sie beschädigte Dateien nur nach mindestens einem Erneuten, wenn das Flag
spark.sql.files.ignoreCorruptFiles
oderspark.sql.files.ignoreMissingFiles
aktiviert ist. - Es wurde ein Problem behoben, das die Installation von Python-Raden in Umgebungen ohne Internetzugriff betrifft.
- Es wurde ein Problem in PySpark behoben, bei dem DataFrame-Aktionen mit dem Fehler „Verbindung verweigert“ fehlgeschlagen sind.
- Es wurde ein Problem behoben, das bestimmte Self-Union-Abfragen betrifft.
20. November 2018
- [SPARK-17916][SPARK-25241]Korrektur der Analyse einer leeren Zeichenfolge als NULL, wenn nullValue festgelegt ist.
- Es wurde ein Problem behoben, das bestimmte Aggregationsabfragen mit linken Semi-/Anti-Joins betrifft.
6. November 2018
- [SPARK-25741] Lange URLs werden in der Webbenutzeroberfläche nicht ordnungsgemäß gerendert.
- [SPARK-25714] Korrektur der NULL-Behandlung in der Optimiererregel BooleanSimplification.
16. Oktober 2018
- Es wurde ein Fehler behoben, der sich auf die Ausgabe der Ausführung in
SHOW CREATE TABLE
Delta-Tabellen auswirkt. - Es wurde ein Fehler behoben, der sich auf den Vorgang
Union
auswirkt.
- Es wurde ein Fehler behoben, der sich auf die Ausgabe der Ausführung in
25. September 2018
- [SPARK-25368][SQL] Falscher Einschränkungsrückschluss gibt ein falsches Ergebnis zurück.
- [SPARK-25402][SQL] NULL-Behandlung in BooleanSimplification.
NotSerializableException
in der Avro-Datenquelle behoben.
11. September 2018
- [SPARK-25214][SS] Behebung des Problems, dass die Kafka v2-Quelle möglicherweise doppelte Datensätze zurück gibt, wenn
failOnDataLoss=false
. - [SPARK-24987][SS] Korrektur des Kafka-Consumerverlusts, wenn keine neuen Offsets für articlePartition.
- Die Filterverringerung sollte den NULL-Wert ordnungsgemäß behandeln.
- [SPARK-25214][SS] Behebung des Problems, dass die Kafka v2-Quelle möglicherweise doppelte Datensätze zurück gibt, wenn
28. August 2018
- Im Befehl „Delta Lake Löschen“ wurde ein Fehler behoben, durch den die Zeilen, in denen die Bedingung als NULL ausgewertet wird, fälschlicherweise gelöscht wurden.
- [SPARK-25084]“distribute by“ in mehreren Spalten (in Klammern umschließen) kann zu einem Codegenproblem führen.
- [SPARK-25114] Fix RecordBinaryComparator wenn die Subtraktion zwischen zwei Wörtern durch Integer.MAX_VALUE teilbar ist.
23. August 2018
- NoClassDefError für Deltamomentaufnahme behoben.
- [SPARK-24957][SQL] Average with decimal gefolgt von aggregation returns wrong result. Möglicherweise werden die falschen Ergebnisse von AVERAGE zurückgegeben. Die im Average-Operator hinzugefügte CAST wird umgangen, wenn das Ergebnis von Divide dem Typ entspricht, in den er umgerechnet wird.
- Das Problem der löschbaren Karte im Parquet-Reader wurde behoben.
- [SPARK-24934][SQL] Explizite Allowlist unterstützter Typen in oberen/unteren Grenzen für die Speicherpartitionsbereinigung. Wenn komplexe Datentypen in Abfragefiltern für zwischengespeicherte Daten verwendet werden, gibt Spark immer ein leeres Resultset zurück. Die auf In-Memory-Statistiken basierende Bereinigung generiert falsche Ergebnisse, da NULL für obere/untere Grenzen für komplexe Typen festgelegt ist. Die Korrektur besteht darin, keine auf In-Memory-Statistiken basierende Bereinigung für komplexe Typen zu verwenden.
- [SPARK-25081] Es wurde ein Fehler behoben, bei dem ShuffleExternalSorter auf eine freigegebene Speicherseite zugreifen kann, wenn beim Überlauf kein Speicher reserviert werden kann.
- Es wurde eine Interaktion zwischen Databricks Delta und Pyspark behoben, die vorübergehende Lesefehler verursachen konnte.
- Die Bearbeitung des Geheimnis-Managers wurde korrigiert, wenn der Befehl teilweise erfolgreich war
2. August 2018
- [SPARK-24613][SQL] Cache mit UDF konnte nicht mit nachfolgenden abhängigen Caches übereinstimmen. Umschließt den logischen Plan mit einem AnalysisBarrier für die Kompilierung des Ausführungsplans in CacheManager, um zu vermeiden, dass der Plan erneut analysiert wird. Dies ist auch eine Regression von Spark 2.3.
- Es wurde ein Synapse Analytics Connectorproblem behoben, das sich auf die Zeitzonenkonvertierung zum Schreiben von DateType-Daten auswirkte.
- Es wurde ein Problem behoben, das sich auf Delta-Prüfpunkte auswirkte.
- Ein Problem wurde behoben, das dazu führen konnte, dass der Befehl
mergeInto
falsche Ergebnisse lieferte. - [SPARK-24867][SQL] Hinzufügen von AnalysisBarrier zu DataFrameWriter. SQL Cache wird nicht verwendet, wenn DataFrameWriter zum Schreiben eines DataFrames mit UDF verwendet wird. Dies ist eine Regression, die durch die Änderungen verursacht wird, die wir in AnalysisBarrier vorgenommen haben, da nicht alle Analyzer-Regeln idempotent sind.
- [SPARK-24809] Das Serialisieren von LongHashedRelation im Executor kann zu Datenfehlern führen.
11. Juli 2018
- Ein Fehler bei der Abfrageausführung wurde behoben, der dazu geführt hat, dass Aggregationen für Dezimalspalten mit unterschiedlicher Genauigkeit in einigen Fällen falsche Ergebnisse zurückgeben.
NullPointerException
Ein Fehler wurde behoben, der bei erweiterten Aggregationsvorgängen wie Gruppierungssätzen ausgelöst wurde.
28. Juni 2018
- Ein Fehler wurde behoben, der zu falschen Abfrageergebnissen führen konnte, wenn sich der Name einer Partitionsspalte, die in einem Prädikat verwendet wird, vom Fall dieser Spalte im Schema der Tabelle unterscheidet.
7. Juni 2018
- Es wurde ein Fehler behoben, der sich auf die spark SQL Ausführungs-Engine auswirkte.
- Ein Fehler, der sich auf die Codegenerierung auswirkt, wurde behoben.
- Ein Fehler (
java.lang.NoClassDefFoundError
), der Delta Lake betrifft, wurde behoben. - Verbesserte Fehlerbehandlung in Delta Lake.
17. Mai 2018
- Ein Fehler wurde behoben, der dazu führte, dass falsche Daten übersprungene Statistiken für Zeichenfolgenspalten mit 32 Zeichen oder höher gesammelt wurden.
Databricks Runtime 4.0 (EoS)
Siehe Databricks Runtime 4.0 (EoS).
6. November 2018
- [SPARK-25714] Korrektur der NULL-Behandlung in der Optimiererregel BooleanSimplification.
16. Oktober 2018
- Es wurde ein Fehler behoben, der sich auf den Vorgang
Union
auswirkt.
- Es wurde ein Fehler behoben, der sich auf den Vorgang
25. September 2018
- [SPARK-25368][SQL] Falscher Einschränkungsrückschluss gibt ein falsches Ergebnis zurück.
- [SPARK-25402][SQL] NULL-Behandlung in BooleanSimplification.
NotSerializableException
in der Avro-Datenquelle behoben.
11. September 2018
- Die Filterverringerung sollte den NULL-Wert ordnungsgemäß behandeln.
28. August 2018
- Im Befehl „Delta Lake Löschen“ wurde ein Fehler behoben, durch den die Zeilen, in denen die Bedingung als NULL ausgewertet wird, fälschlicherweise gelöscht wurden.
23. August 2018
- Das Problem der löschbaren Karte im Parquet-Reader wurde behoben.
- Die Bearbeitung des Geheimnis-Managers wurde korrigiert, wenn der Befehl teilweise erfolgreich war
- Es wurde eine Interaktion zwischen Databricks Delta und Pyspark behoben, die vorübergehende Lesefehler verursachen konnte.
- [SPARK-25081] Es wurde ein Fehler behoben, bei dem ShuffleExternalSorter auf eine freigegebene Speicherseite zugreifen kann, wenn beim Überlauf kein Speicher reserviert werden kann.
- [SPARK-25114] Fix RecordBinaryComparator wenn die Subtraktion zwischen zwei Wörtern durch Integer.MAX_VALUE teilbar ist.
2. August 2018
- [SPARK-24452]Vermeiden des möglichen Überlaufs in „int add“ oder „multiple“.
- [SPARK-24588]Streaming-Join sollte HashClusteredPartitioning von untergeordneten Elementen erfordern
- Ein Problem wurde behoben, das dazu führen konnte, dass der Befehl
mergeInto
falsche Ergebnisse lieferte. - [SPARK-24867][SQL] Hinzufügen von AnalysisBarrier zu DataFrameWriter. SQL Cache wird nicht verwendet, wenn DataFrameWriter zum Schreiben eines DataFrames mit UDF verwendet wird. Dies ist eine Regression, die durch die Änderungen verursacht wird, die wir in AnalysisBarrier vorgenommen haben, da nicht alle Analyzer-Regeln idempotent sind.
- [SPARK-24809] Das Serialisieren von LongHashedRelation im Executor kann zu Datenfehlern führen.
28. Juni 2018
- Ein Fehler wurde behoben, der zu falschen Abfrageergebnissen führen konnte, wenn sich der Name einer Partitionsspalte, die in einem Prädikat verwendet wird, vom Fall dieser Spalte im Schema der Tabelle unterscheidet.
7. Juni 2018
- Es wurde ein Fehler behoben, der sich auf die spark SQL Ausführungs-Engine auswirkte.
- Verbesserte Fehlerbehandlung in Delta Lake.
17. Mai 2018
- Fehlerbehebungen für die Verwaltung von Databricks-Geheimnissen.
- Verbesserte Stabilität beim Lesen von Daten, die in Azure Data Lake Store.
- Es wurde ein Fehler behoben, der die RDD-Zwischenspeicherung beeinflusst hat.
- Es wurde ein Fehler behoben, der sich auf nullsicheres Equal in Spark SQL.
24. April 2018
- Azure Data Lake Store SDK wurde von 2.0.11 auf 2.2.8 aktualisiert, um die Stabilität des Zugriffs auf Azure Data Lake Store zu verbessern.
- Es wurde ein Fehler behoben, der sich auf das Einfügen von Überschreibungen in partitionierte Hive-Tabellen ausgewirkt hat, wenn
spark.databricks.io.hive.fastwriter.enabled
auffalse
festgelegt ist. - Es wurde ein Problem behoben, bei dem die Taskserialisierung fehlgeschlagen ist.
- Verbesserte Delta Lake-Stabilität.
14. März 2018
- Vermeiden Sie unnötige Metadatenaktualisierungen beim Schreiben in Delta Lake.
- Es wurde ein Problem behoben, das durch eine Racebedingung verursacht wurde, die in seltenen Fällen zum Verlust einiger Ausgabedateien führen konnte.
Databricks Runtime 3.5 LTS (EoS)
Siehe Databricks Runtime 3.5 LTS (EoS).
7. November 2019
- [SPARK-29743][SQL] Stichprobe sollte needCopyResult auf wahr festlegen, wenn ihre untergeordnete needCopyResult auf wahr festgelegt ist
8. Oktober 2019
- Serverseitige Änderungen, damit Shou Apache Spark ODBC-Treiber beim Abrufen der Ergebnisse nach einem Verbindungsfehler erneut eine Verbindung herstellen und fortfahren kann (erfordert Aktualisierung auf Shou Apache Spark ODBC-Treiberversion 2.6.10).
10. September 2019
- [SPARK-28699][SQL] Deaktivieren der Radix-Sortierung für ShuffleExchangeExec im Fall einer Neuaufteilung
9\. April 2019
- [SPARK-26665][CORE] Fehler beheben, durch den BlockTransferService.fetchBlockSync ewig hängen bleiben kann.
12. Februar 2019
- Es wurde ein Problem behoben, bei dem das Low-Level-Netzwerkprotokoll von Spark beim Senden großer RPC-Fehlermeldungen mit aktivierter Verschlüsselung unterbrochen werden konnte (wenn
spark.network.crypto.enabled
auf „wahr“ festgelegt ist).
- Es wurde ein Problem behoben, bei dem das Low-Level-Netzwerkprotokoll von Spark beim Senden großer RPC-Fehlermeldungen mit aktivierter Verschlüsselung unterbrochen werden konnte (wenn
30. Januar 2019
- Es wurde ein Problem behoben, das dazu führen kann, dass
df.rdd.count()
mit UDT in bestimmten Fällen eine falsche Antwort ausgibt.
- Es wurde ein Problem behoben, das dazu führen kann, dass
18. Dezember 2018
- Ignorieren Sie beschädigte Dateien nur nach mindestens einem Erneuten, wenn das Flag
spark.sql.files.ignoreCorruptFiles
oderspark.sql.files.ignoreMissingFiles
aktiviert ist. - Es wurde ein Problem behoben, das bestimmte Self-Union-Abfragen betrifft.
- Ignorieren Sie beschädigte Dateien nur nach mindestens einem Erneuten, wenn das Flag
20. November 2018
- [SPARK-25816]Die Auflösung von Attributen in verschachtelten Extraktoren wurde korrigiert.
6. November 2018
- [SPARK-25714] Korrektur der NULL-Behandlung in der Optimiererregel BooleanSimplification.
16. Oktober 2018
- Es wurde ein Fehler behoben, der sich auf den Vorgang
Union
auswirkt.
- Es wurde ein Fehler behoben, der sich auf den Vorgang
25. September 2018
- [SPARK-25402][SQL] NULL-Behandlung in BooleanSimplification.
NotSerializableException
in der Avro-Datenquelle behoben.
11. September 2018
- Die Filterverringerung sollte den NULL-Wert ordnungsgemäß behandeln.
28. August 2018
- Im Befehl „Delta Lake Löschen“ wurde ein Fehler behoben, durch den die Zeilen, in denen die Bedingung als NULL ausgewertet wird, fälschlicherweise gelöscht wurden.
- [SPARK-25114] Fix RecordBinaryComparator wenn die Subtraktion zwischen zwei Wörtern durch Integer.MAX_VALUE teilbar ist.
23. August 2018
- [SPARK-24809] Das Serialisieren von LongHashedRelation im Executor kann zu Datenfehlern führen.
- Das Problem der löschbaren Karte im Parquet-Reader wurde behoben.
- [SPARK-25081] Es wurde ein Fehler behoben, bei dem ShuffleExternalSorter auf eine freigegebene Speicherseite zugreifen kann, wenn beim Überlauf kein Speicher reserviert werden kann.
- Es wurde eine Interaktion zwischen Databricks Delta und Pyspark behoben, die vorübergehende Lesefehler verursachen konnte.
28. Juni 2018
- Ein Fehler wurde behoben, der zu falschen Abfrageergebnissen führen konnte, wenn sich der Name einer Partitionsspalte, die in einem Prädikat verwendet wird, vom Fall dieser Spalte im Schema der Tabelle unterscheidet.
28. Juni 2018
- Ein Fehler wurde behoben, der zu falschen Abfrageergebnissen führen konnte, wenn sich der Name einer Partitionsspalte, die in einem Prädikat verwendet wird, vom Fall dieser Spalte im Schema der Tabelle unterscheidet.
7. Juni 2018
- Es wurde ein Fehler behoben, der sich auf die spark SQL Ausführungs-Engine auswirkte.
- Verbesserte Fehlerbehandlung in Delta Lake.
17. Mai 2018
- Verbesserte Stabilität beim Lesen von Daten, die in Azure Data Lake Store.
- Es wurde ein Fehler behoben, der die RDD-Zwischenspeicherung beeinflusst hat.
- Es wurde ein Fehler behoben, der sich auf nullsicheres Equal in Spark SQL.
- Es wurde ein Fehler behoben, der bestimmte Aggregationen in Streamingabfragen betrifft.
24. April 2018
- Azure Data Lake Store SDK wurde von 2.0.11 auf 2.2.8 aktualisiert, um die Stabilität des Zugriffs auf Azure Data Lake Store zu verbessern.
- Es wurde ein Fehler behoben, der sich auf das Einfügen von Überschreibungen in partitionierte Hive-Tabellen ausgewirkt hat, wenn
spark.databricks.io.hive.fastwriter.enabled
auffalse
festgelegt ist. - Es wurde ein Problem behoben, bei dem die Taskserialisierung fehlgeschlagen ist.
09. März 2018
- Es wurde ein Problem behoben, das durch eine Racebedingung verursacht wurde, die in seltenen Fällen zum Verlust einiger Ausgabedateien führen konnte.
01. März 2018
- Verbesserte Effizienz bei der Verarbeitung von Streams, deren Beenden sehr lange dauern kann.
- Ein Problem mit der automatischen Python-Vervollständigung wurde behoben.
- Angewendete Ubuntu-Sicherheitspatches.
- Es wurde ein Problem behoben, das bestimmte Abfragen mit Python UDFs und Fensterfunktionen betrifft.
- Es wurde ein Problem behoben, das die Verwendung von UDFs in einem Cluster mit aktivierter Tabellenzugriffssteuerung betrifft.
29. Januar 2018
- Es wurde ein Problem behoben, das sich auf die Bearbeitung von In Azure Blob Storage gespeicherten Tabellen auswirkt.
- Die Aggregation nach dropDuplicates für einen leeren DataFrame wurde korrigiert.
Databricks Runtime 3.4 (EoS)
Siehe Databricks Runtime 3.4 (EoS).
7. Juni 2018
- Es wurde ein Fehler behoben, der sich auf die spark SQL Ausführungs-Engine auswirkte.
- Verbesserte Fehlerbehandlung in Delta Lake.
17. Mai 2018
- Verbesserte Stabilität beim Lesen von Daten, die in Azure Data Lake Store.
- Es wurde ein Fehler behoben, der die RDD-Zwischenspeicherung beeinflusst hat.
- Es wurde ein Fehler behoben, der sich auf nullsicheres Equal in Spark SQL.
24. April 2018
- Es wurde ein Fehler behoben, der sich auf das Einfügen von Überschreibungen in partitionierte Hive-Tabellen ausgewirkt hat, wenn
spark.databricks.io.hive.fastwriter.enabled
auffalse
festgelegt ist.
- Es wurde ein Fehler behoben, der sich auf das Einfügen von Überschreibungen in partitionierte Hive-Tabellen ausgewirkt hat, wenn
09. März 2018
- Es wurde ein Problem behoben, das durch eine Racebedingung verursacht wurde, die in seltenen Fällen zum Verlust einiger Ausgabedateien führen konnte.
13. Dezember 2017
- Es wurde ein Problem behoben, das UDFs in Scala betrifft.
- Es wurde ein Problem behoben, das die Verwendung des Data Skipping Index für Datenquellentabellen betrifft, die in Nicht-DBFS-Pfaden gespeichert sind.
07. Dezember 2017
- Verbesserte Shufflestabilität.
Nicht unterstützte Databricks Runtime-Releases
Die ursprünglichen Versionshinweise finden Sie unter dem Link unterhalb der Unterüberschriften.