Mises à jour de maintenance pour Databricks Runtime (archivées)
Cette page archivée répertorie les mises à jour de maintenance publiées pour les versions de Databricks Runtime qui ne sont plus prises en charge. Pour ajouter une mise à jour de maintenance à un cluster existant, redémarrez le cluster.
Important
Cette documentation a été mise hors service et peut ne pas être mise à jour. Les produits, services ou technologies mentionnés dans ce contenu sont arrivés en fin du support. Consultez Notes de publication, versions et compatibilité de Databricks Runtime.
Remarque
Cet article contient des références au terme liste blanche, un terme qu’Azure Databricks n’utilise pas. Lorsque le terme sera supprimé du logiciel, nous le supprimerons de cet article.
Versions de Databricks Runtime
Mises à jour de maintenance par version :
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Support étendu de Databricks Runtime 6.4 (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Databricks Light 2.4 - Support étendu
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
Pour voir les mises à jour de maintenance sur les versions de Databricks Runtime prises en charge, consultez Mises à jour de maintenance de Databricks Runtime.
Databricks Runtime 15.1
Consultez Databricks Runtime 15.1 (EoS).
- 22 octobre 2024
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [SPARK-49688][CONNECT] Correction d’une course de données entre l’interruption et le plan d’exécution
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- [BACKPORT][[SPARK-49474]])https://issues.apache.org/jira/browse/SPARK-49474[SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49628][SQL] ConstantFolding doit copier une expression avec état avant d’évaluer
- [SPARK-48719][SQL] Correction du bogue de calcul de RegrSlope &RegrIntercept lorsque le premier paramètre est null
- [SPARK-49492][CONNECT] Rattacher une tentative sur l’espace réservé d’exécution inactif
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Fournir l’ID de session côté serveur via ReattachExecute
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49336][CONNECT] Limiter le niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT] Prise en charge des chemins de style Windows dans ArtifactManager
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic d’altération aléatoire
- [SPARK-49366][CONNECT] Traiter le nœud Union comme feuille dans la résolution de colonnes de trame de données
- 29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion de manière cohérente des options de lecteur de dataframe booléen
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- [SPARK-48862][PYTHON][CONNECT] Éviter d’appeler
_proto_to_string
lorsque le niveau INFO n’est pas activé - [SPARK-49146][SS] Déplacement des erreurs d’assertion liées au filigrane manquant dans les requêtes de diffusion en continu en mode d’ajout vers le framework d’erreurs
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections de rétroportage de l’enregistreur/lecteur ML
- [SPARK-48050][SS] Journaliser le plan logique au début de la requête
- [SPARK-48706][PYTHON] Les fonctions définies par l’utilisateur Python dans les fonctions d’ordre supérieur ne doivent pas lever d’erreur interne
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Troncature du message pour la journalisation
- [SPARK-48740][SQL] Capture précoce de l’erreur de spécification de fenêtre manquante
- 1er août 2024
- Sur le calcul serverless pour les notebooks et les travaux, le mode SQL ANSI est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Sur le calcul configuré avec le mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumis aux mêmes limitations que celles documentées pour Structured Streaming. Consultez Limitations et exigences de diffusion en continu pour le mode d’accès partagé à Unity Catalog.
- La sortie d’une instruction
SHOW CREATE TABLE
inclut désormais tous les filtres de lignes ou masques de colonne définis sur une vue matérialisée ou une table de diffusion en continu. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez Filtrer les données de table sensibles à l’aide de filtres de lignes et de masques de colonne. - [SPARK-48544][SQL] Réduction de la sollicitation de la mémoire des TreeNode BitSets vides
- [SPARK-46957][CORE] La mise hors service des fichiers aléatoires migrés doit être en mesure de nettoyer à partir de l’exécuteur
- [SPARK-47202][PYTHON] Correction des datetimes de rupture de typo avec tzinfo
- [SPARK-48713][SQL] Ajout d’une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48896][SPARK-48909][SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- [SPARK-48810][CONNECT] L’API de session stop() doit être idempotente et ne pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utilisation de UnsafeRow dans l’analyseur JSON.
- [SPARK-48934][SS] Types DateHeure Python convertis de manière incorrecte pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48705][PYTHON] Utilisation explicite de worker_main quand il démarre par pyspark
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant de terminer
- [SPARK-48047][SQL] Réduire la sollicitation de la mémoire des balises TreeNode vides
- [SPARK-48463] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- Mises à jour de sécurité du système d’exploitation
- 11 juillet 2024
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()
pour conserver un état de table tout au long de la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake est mis à jour à la version 3.16.1.
- Cette version inclut un correctif à un problème qui empêchait l’affichage correct de l’onglet Environnement de l’interface utilisateur Spark lors de l’exécution dans Databricks Container Services.
- Sur le calcul serverless pour les notebooks et les travaux, le mode SQL ANSI est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Pour ignorer les partitions non valides lors de la lecture des données, des sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez également utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Toutefois, l’option de source de données est prioritaire sur la configuration SQL. Ce paramètre est false par défaut.
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan à un jeu de données de streaming
- [SPARK-48100][SQL] Résolution des problèmes liés au fait d’ignorer les champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-47463][SQL] Utilisation de V2Predicate pour inclure dans un wrapper une expression avec le type de retour booléen
- [SPARK-48445][SQL] Ne pas incorporer les fonctions définies par l’utilisateur avec des enfants coûteux
- [SPARK-48292][CORE] Rétablissement de[SPARK-39195][SQL] Spark OutputCommitCoordinator doit abandonner l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48566][PYTHON] Correction d’un bogue où les index de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags est correctement threadlocal
- [SPARK-48503][SQL] Correction des sous-requêtes scalaires non valides avec group-by ou des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48475][PYTHON] Optimisation de _get_jvm_function dans PySpark.
- [SPARK-48294][SQL] Gérer les minuscules dans nestedTypeMissingElementTypeError
- [SPARK-48286]Correction de l’analyse de la colonne avec l’expression par défaut existante – Ajout d’une erreur exposée à l’utilisateur
- [SPARK-47309][SQL] XML : ajout des tests d’inférence de schéma pour les balises de valeur
- [SPARK-47309][SQL][XML] Ajout des tests unitaires d’inférence de schéma
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
applyInPandasWithState()
est disponible sur des clusters partagés.- Corrige un bogue dans lequel l’optimisation de la fenêtre de classement à l’aide de Photon TopK a mal géré les partitions avec des structs.
- [SPARK-48310][PYTHON][CONNECT] Les propriétés mises en cache doivent retourner des copies
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__
manquante pourSQLExpression
- [SPARK-48277]Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Nettoyer les dépendances aléatoires basées sur ShuffleCleanupMode
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- Correction d’un bogue dans la fonction try_divide() où les entrées contenant des décimales ont entraîné des exceptions inattendues.
- [SPARK-48173][SQL] CheckAnalysis doit voir l’intégralité du plan de requête
- [SPARK-48016][SQL] Corriger un bogue dans la fonction try_divide lorsque la valeur est décimale
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- [SPARK-48197][SQL] Éviter l’erreur d’assertion pour une fonction lambda non valide
- [SPARK-48180][SQL] Améliorer l’erreur lorsque l’appel UDTF avec l’argument TABLE oublie les parenthèses autour de plusieurs expressions PARTITION/ORDER BY
- [SPARK-48014][SQL] Modifier l’erreur makeFromJava dans EvaluatePython en une erreur indiquée à l’utilisateur
- [SPARK-48056][CONNECT][PYTHON] Réexécuter le plan si une erreur SESSION_NOT_FOUND est déclenchée et qu’aucune réponse partielle n’a été reçue
- [SPARK-48146][SQL] Corriger la fonction d’agrégation dans l’assertion enfant d’expression With
- [SPARK-47994][SQL] Corriger un bogue de CASSE avec le filtre de colonne dans SQLServer
- Mises à jour de sécurité du système d’exploitation
- 9 mai 2024
- [SPARK-47543][CONNECT][PYTHON] Déduire dict comme MapType à partir de Pandas DataFrame pour permettre la création de DataFrame
- [SPARK-47739][SQL] Inscription du type avro logique
- [SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47855][CONNECT] Ajout de
spark.sql.execution.arrow.pyspark.fallback.enabled
dans la liste non prise en charge - [SPARK-48010][SQL] Éviter les appels répétés à conf.resolver dans resolveExpression
- [SPARK-47941] [SS] [Connect] Propagation des erreurs d’initialisation du Worker ForeachBatch aux utilisateurs pour PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Utilisation du rappel asynchrone pour le nettoyage de l’exécution
- [SPARK-47956][SQL] Vérification de l’intégrité pour la référence LCA non résolue
- [SPARK-47839][SQL] Correction du bogue d’agrégation dans RewriteWithExpression
- [SPARK-48018][SS] Correction de groupId null à l’origine d’une erreur de paramètre manquant avec levée de KafkaException.couldNotReadOffsetRange
- [SPARK-47371][SQL] XML : balises de ligne trouvées dans CDATA ignorées
- [SPARK-47907][SQL] Mise de bang sous une configuration
- [SPARK-47895][SQL] groupe by all doit être idempotent
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une session lorsque la session par défaut est fermée par le serveur
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 15.0
Consultez Databricks Runtime 15.0 (EoS).
- 30 mai 2024
- (Changement de comportement) La fonction
dbutils.widgets.getAll()
est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook.
- (Changement de comportement) La fonction
- 25 avril 2024
- [SPARK-47786] SELECT DISTINCT () ne doit pas devenir SELECT DISTINCT struct() (rétablir le comportement précédent)
- [SPARK-47802][SQL] Rétablir () de meaning struct() vers meaning *
- [SPARK-47509][SQL] Blocage des expressions de sous-requête dans les fonctions lambda et d’ordre supérieur
- [SPARK-47722] Attendre que la fin du travail d’arrière-plan RocksDB avant de fermer
- [SPARK-47081][CONNECT][FOLLOW] Amélioration de la facilité d’utilisation de Progress Handler
- [SPARK-47694][CONNECT] Rendre la taille maximale de message configurable côté client
- [SPARK-47669][SQL][CONNECT][PYTHON] Ajouter
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Valider le nom de colonne avec le schéma mis en cache
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Présenter un cache du plan dans SparkConnectPlanner pour améliorer les performances de l’option Analyser des requêtes
- [SPARK-47704][SQL] L’analyse JSON échoue avec “java.lang.ClassCastException” quand spark.sql.json.enablePartialResults est activé
- [SPARK-47755][CONNECT] Pivot doit échouer quand le nombre de valeurs distinctes est trop important
- [SPARK-47713][SQL][CONNECT] Correction d’une jointure réflexive défaillante
- [SPARK-47812][CONNECT] Prendre en charge la sérialisation de SparkSession pour le Worker ForEachBatch
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
échoue avec un plan non valide - [SPARK-47862][PYTHON][CONNECT]Corriger la génération de fichiers proto
- [SPARK-47800][SQL] Créer une méthode pour l’identificateur de conversion tableIdentifier
- Mises à jour de sécurité du système d’exploitation
- 3 avril 2024
- (Changement de comportement) Pour garantir un comportement cohérent entre les types de calcul, les fonctions définies par l’utilisateur PySpark sur les clusters partagés correspondent désormais au comportement des fonctions définies par l’utilisateur sur les clusters sans isolation et les clusters affectés. Cette mise à jour inclut les modifications suivantes susceptibles d’interrompre le code existant :
- Les fonctions définies par l’utilisateur avec un type de retour
string
ne convertissent plus implicitement les valeurs nonstring
en valeursstring
. Auparavant, les fonctions définies par l’utilisateur avec un type de retourstr
encapsulaient la valeur de retour avec une fonctionstr()
, quel que soit le type de données réel de la valeur renvoyée. - Les fonctions définies par l’utilisateur avec des types de retour
timestamp
n’appliquent plus implicitement de conversion detimestamp
avectimezone
. - Les configurations de cluster Spark
spark.databricks.sql.externalUDF.*
ne s’appliquent plus aux fonctions définies par l’utilisateur PySpark sur les clusters partagés. - La configuration du cluster Spark
spark.databricks.safespark.externalUDF.plan.limit
n’affecte plus les fonctions définies par l’utilisateur PySpark, supprimant ainsi la limitation de la préversion publique de 5 fonctions définies par l’utilisateur par requête pour les fonctions définies par l’utilisateur PySpark. - La configuration de cluster Spark
spark.databricks.safespark.sandbox.size.default.mib
ne s’applique plus aux fonctions définies par l’utilisateur PySpark sur les clusters partagés. Au lieu de cela, la mémoire disponible sur le système est utilisée. Pour limiter la mémoire des fonctions définies par l’utilisateur PySpark, utilisezspark.databricks.pyspark.udf.isolation.memoryLimit
avec une valeur minimale de100m
.
- Les fonctions définies par l’utilisateur avec un type de retour
- Le type de données
TimestampNTZ
est désormais pris en charge en tant que colonne de clustering avec clustering liquide. Consultez Utilisation des clustering liquides pour les tableaux Delta. - [SPARK-47218][SQL] XML : Omission des balises de ligne commentées dans le générateur de jetons XML
- [SPARK-46990][SQL] Correction du chargement de fichiers Avro vides émis par event-hubs
- [SPARK-47033][SQL] Correction du bogue à cause duquel EXECUTE IMMEDIATE USING ne reconnaissait pas les noms de variables de session
- [SPARK-47368][SQL] Suppression de la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- [SPARK-47561][SQL] Correction des problèmes d’ordre des règles d’analyseur concernant l’alias
- [SPARK-47638][PS][CONNECT] Omission de la validation du nom de colonne dans PS
- [SPARK-46906][BACKPORT][SS] Ajout d’une vérification de modification d’opérateur avec état pour la diffusion en continu
- [SPARK-47569][SQL] Interdiction de la comparaison de variantes.
- [SPARK-47241][SQL] Résolution des problèmes d’ordre de règle pour ExtractGenerator
- [SPARK-47218] [SQL] XML : Modification concernant SchemaOfXml qui échouait en mode DROPMALFORMED
- [SPARK-47300][SQL] L’indicateur entre guillemets
quoteIfNeeded
doit commencer par des chiffres - [SPARK-47009][SQL][Collation] Activation de la prise en charge de la création de table pour le classement
- [SPARK-47322][PYTHON][CONNECT] Gestion des duplications de noms de colonnes
withColumnsRenamed
cohérente avecwithColumnRenamed
- [SPARK-47544][PYTHON] Méthode du générateur SparkSession incompatible avec Visual Studio Code IntelliSense
- [SPARK-47511][SQL] Expressions With rendues canoniques par réaffection des ID
- [SPARK-47385] Correction des encodeurs tuples avec les entrées Option.
- [SPARK-47200][SS] Classe d’erreurs pour l’erreur de transaction de fonction utilisateur par lot Foreach
- [SPARK-47135][SS] Implémentation de classes d’erreur pour les exceptions de perte de données Kafka
- [SPARK-38708][SQL] Mise à niveau du client Metastore Hive de Hive 3.1 vers la version 3.1.3
- [SPARK-47305][SQL] Correction de PruneFilters pour étiqueter correctement l’indicateur isStreaming de LocalRelation lorsque le plan présente à la fois Lot et En continu
- [SPARK-47380][CONNECT] Vérification côté serveur que le SparkSession correspond
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) Pour garantir un comportement cohérent entre les types de calcul, les fonctions définies par l’utilisateur PySpark sur les clusters partagés correspondent désormais au comportement des fonctions définies par l’utilisateur sur les clusters sans isolation et les clusters affectés. Cette mise à jour inclut les modifications suivantes susceptibles d’interrompre le code existant :
Databricks Runtime 14.2
Consultez Databricks Runtime 14.2 (EoS).
- 22 octobre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- [BACKPORT][[SPARK-49474]])https://issues.apache.org/jira/browse/SPARK-49474[SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- 25 septembre 2024
- [SPARK-48719][SQL] Correction du bogue de calcul de ' RegrS...
- [SPARK-49628][SQL] ConstantFolding doit copier une expression avec état avant d’évaluer
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic d’altération aléatoire
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49526][CONNECT] Prise en charge des chemins de style Windows dans ArtifactManager
- 29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion de manière cohérente des options de lecteur de dataframe booléen
- [SPARK-49146][SS] Déplacement des erreurs d’assertion liées au filigrane manquant dans les requêtes de diffusion en continu en mode d’ajout vers le framework d’erreurs
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- 14 août 2024
- [SPARK-48050][SS] Journaliser le plan logique au début de la requête
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48706][PYTHON] Les fonctions définies par l’utilisateur Python dans les fonctions d’ordre supérieur ne doivent pas lever d’erreur interne
- 1er août 2024
- Cette version inclut un correctif de bogue pour les classes
ColumnVector
etColumnarArray
de l’interface Java Spark. Avant ce correctif, uneArrayIndexOutOfBoundsException
pouvait être levée, ou des données incorrectes pouvaient être renvoyées lorsqu’une instance de l’une de ces classes contenait des valeursnull
. - La sortie d’une instruction
SHOW CREATE TABLE
inclut désormais tous les filtres de lignes ou masques de colonne définis sur une vue matérialisée ou une table de diffusion en continu. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez Filtrer les données de table sensibles à l’aide de filtres de lignes et de masques de colonne. - [SPARK-47202][PYTHON] Correction des datetimes de rupture de typo avec tzinfo
- [SPARK-48705][PYTHON] Utilisation explicite de worker_main quand il démarre par pyspark
- Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif de bogue pour les classes
- 11 juillet 2024
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()
pour conserver un état de table tout au long de la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake est mis à jour à la version 3.16.1
- Cette version inclut un correctif à un problème qui empêchait l’affichage correct de l’onglet Environnement de l’interface utilisateur Spark lors de l’exécution dans Databricks Container Services.
- [SPARK-48292][CORE] Rétablissement de[SPARK-39195][SQL] Spark OutputCommitCoordinator doit abandonner l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Correction des sous-requêtes scalaires non valides avec group-by ou des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan à un jeu de données de streaming
- [SPARK-48475][PYTHON] Optimisation de _get_jvm_function dans PySpark.
- [SPARK-48100][SQL] Résolution des problèmes liés au fait d’ignorer les champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48445][SQL] Ne pas incorporer les fonctions définies par l’utilisateur avec des enfants coûteux
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
- Corrige un bogue dans lequel l’optimisation de la fenêtre de classement à l’aide de Photon TopK a mal géré les partitions avec des structs.
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__
manquante pourSQLExpression
- [SPARK-48277]Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- (Changement de comportement) La fonction
dbutils.widgets.getAll()
est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook. - [SPARK-48173][SQL] CheckAnalysis doit voir l’intégralité du plan de requête
- [SPARK-48197][SQL] Éviter l’erreur d’assertion pour une fonction lambda non valide
- [SPARK-47994][SQL] Corriger un bogue de CASSE avec le filtre de colonne dans SQLServer
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) La fonction
- 9 mai 2024
- [SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47956][SQL] Vérification de l’intégrité pour la référence LCA non résolue
- [SPARK-47371][SQL] XML : balises de ligne trouvées dans CDATA ignorées
- [SPARK-47812][CONNECT] Prendre en charge la sérialisation de SparkSession pour le Worker ForEachBatch
- [SPARK-47895][SQL] groupe by all doit être idempotent
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- Mises à jour de sécurité du système d’exploitation
- [SPARK-48044][PYTHON][CONNECT] Cache
- 25 avril 2024
- [SPARK-47704][SQL] L’analyse JSON échoue avec “java.lang.ClassCastException” quand spark.sql.json.enablePartialResults est activé
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
échoue avec un plan non valide - Mises à jour de sécurité du système d’exploitation
- 11 avril 2024
- [SPARK-47309][SQL][XML] Ajout des tests unitaires d’inférence de schéma
- [SPARK-46990][SQL] Correction du chargement de fichiers Avro vides émis par event-hubs
- [SPARK-47638][PS][CONNECT] Omission de la validation du nom de colonne dans PS
- [SPARK-47509][SQL] Blocage des expressions de sous-requête dans les fonctions lambda et d’ordre supérieur
- [SPARK-38708][SQL] Mise à niveau du client Metastore Hive de Hive 3.1 vers la version 3.1.3
- Mises à jour de sécurité du système d’exploitation
- 1er avril 2024
- [SPARK-47322][PYTHON][CONNECT] Gestion des duplications de noms de colonnes
withColumnsRenamed
cohérente avecwithColumnRenamed
- [SPARK-47385] Correction des encodeurs tuples avec les entrées Option.
- [SPARK-47070] Corriger l’agrégation non valide après la réécriture de la sous-requête
- [SPARK-47218] [SQL] XML : Modification concernant SchemaOfXml qui échouait en mode DROPMALFORMED
- [SPARK-47305][SQL] Correction de PruneFilters pour étiqueter correctement l’indicateur isStreaming de LocalRelation lorsque le plan présente à la fois Lot et En continu
- [SPARK-47218][SQL] XML : Omission des balises de ligne commentées dans le générateur de jetons XML
- Rétablir « [SPARK-46861] [CORE] Éviter l’interblocage dans DAGScheduler »
- [SPARK-47300][SQL] L’indicateur entre guillemets
quoteIfNeeded
doit commencer par des chiffres - [SPARK-47368][SQL] Suppression de la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- Mises à jour de sécurité du système d’exploitation
- [SPARK-47322][PYTHON][CONNECT] Gestion des duplications de noms de colonnes
- 14 mars 2024
- [SPARK-47035][SS][CONNECT] Protocole pour l’écouteur côté client
- [SPARK-47121][CORE] Éviter RejectedExecutionExceptions lors de l’arrêt de StandaloneSchedulerBackend
- [SPARK-47145][SQL] Passer l’identificateur de table à l’exécution de l’analyse de la source de données des lignes pour la stratégie V2.
- [SPARK-47176][SQL] Avoir une fonction d’assistance ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47129][CONNECT][SQL] Faire en sorte que le cache
ResolveRelations
se connecte au plan correctement - [SPARK-47044][SQL] Ajouter une requête exécutée pour les sources de données externes JDBC pour expliquer la sortie
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la création de rapports numSourceRows par l’indicateur de performance d’opération du double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose des privilèges SELECT et MODIFY sur ANY FILE.
- Vous pouvez désormais ingérer des fichiers XML à l’aide du chargeur automatique, read_files, COPY INTO, DLT et DBSQL. La prise en charge des fichiers XML peut déduire et évoluer automatiquement le schéma, sauver des données avec des incompatibilités de type, valider XML à l’aide de XSD, prendre en charge des expressions SQL telles que from_xml, schema_of_xml et to_xml. Pour plus d’informations, consultez Prise en charge des fichiers XML. Si vous utilisiez précédemment le package spark-xml externe, veuillez consulter ici pour obtenir des conseils sur la migration.
- [SPARK-46954][SQL] XML : Wrap InputStreamReader avec BufferedReader
- [SPARK-46630][SQL] XML : Validation du nom de l’élément XML lors de l’écriture
- [SPARK-46248][SQL] XML : Prise en charge des options ignoreCorruptFiles et ignoreMissingFiles
- [SPARK-46954][SQL] XML : Optimiser la recherche d’index de schéma
- [SPARK-47059][SQL] Attacher un contexte d’erreur pour la commande ALTER COLUMN v1
- [SPARK-46993][SQL] Corriger le pliage constant pour les variables de session
- 8 février 2024
- Les requêtes de flux des changements de données (CDF) sur les vues matérialisées du catalogue Unity ne sont pas prises en charge et la tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog retourne une erreur. Les tables Unity Catalog Streaming prennent en charge les requêtes CDF sur des tables non-tables
APPLY CHANGES
dans Databricks Runtime 14.1 et versions ultérieures. Les requêtes CDF ne sont pas prises en charge avec les tables Unity Catalog Streaming dans Databricks Runtime 14.0 et versions antérieures. - [SPARK-46930] Ajouter la prise en charge d’un préfixe personnalisé pour les champs de type union dans Avro.
- [SPARK-46822] Respect spark.sql.legacy.charVarcharAsString lors de la conversion du type jdbc en type catalyseur dans jdbc.
- [SPARK-46952] XML : limite la taille de l’enregistrement endommagé.
- [SPARK-46644] Modifier l’ajout et la fusion dans SQLMetric à utiliser isZero.
- [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-46933] Ajouter une mesure du temps d’exécution des requêtes pour les connecteurs qui utilisent JDBCRDD.
- Mises à jour de sécurité du système d’exploitation
- Les requêtes de flux des changements de données (CDF) sur les vues matérialisées du catalogue Unity ne sont pas prises en charge et la tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog retourne une erreur. Les tables Unity Catalog Streaming prennent en charge les requêtes CDF sur des tables non-tables
- 31 janvier 2024
- [SPARK-46382] XML : Mise à jour de la documentation pour
ignoreSurroundingSpaces
. - [SPARK-46382] XML : Capture des valeurs dispersées entre des éléments
- [SPARK-46763] Corriger l’échec d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs dupliqués.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au timestamp.
- [SPARK-46677] Résoudre la résolution de
dataframe["*"]
. - [SPARK-46382] XML : ignoreSurroundingSpaces défini par défaut sur true.
- [SPARK-46633] Correction du lecteur Avro pour la gestion des blocs de longueur nulle.
- [SPARK-45964] Suppression de l’accesseur SQL privé dans le package XML et JSON sous le package Catalyst.
- [SPARK-46581] Mise à jour du commentaire sur isZero dans AccumulatorV2.
- [SPARK-45912] Amélioration de l’API XSDToSchema : Modification de l’API HDFS pour l’accessibilité du stockage cloud.
- [SPARK-45182] Ignorer l’achèvement de la tâche de l’ancienne étape après avoir réessayé l’étape parentale indéterminée telle que déterminée par la somme de contrôle.
- [SPARK-46660] ReattachExecute demande des mises à jour du caractère actif de SessionHolder.
- [SPARK-46610] Créer une table doit lever une exception lorsqu’aucune valeur pour une clé dans les options n’est levée.
- [SPARK-46383] Réduire l’utilisation du tas de pilotes en réduisant la durée de vie de
TaskInfo.accumulables()
. - [SPARK-46769] Affiner l’inférence de schéma associée au timestamp.
- [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour passer les arguments correctement.
- [SPARK-46676] dropDuplicatesWithinWatermark ne doit pas échouer lors de la canonisation du plan.
- [SPARK-45962] Suppression de
treatEmptyValuesAsNulls
et utilisation à la place de l’optionnullValue
dans XML. - [SPARK-46541] Correction de l’ambiguïté de la référence à une colonne dans la jointure automatique.
- [SPARK-46599] XML : Utiliser TypeCoercion.findTightestCommonType pour vérifier la compatibilité.
- Mises à jour de sécurité du système d’exploitation
- [SPARK-46382] XML : Mise à jour de la documentation pour
- 17 janvier 2024
- Le nœud
shuffle
du plan d’explication retourné par une requête Photon est mis à jour pour ajouter l’indicateurcausedBroadcastJoinBuildOOM=true
quand une erreur de mémoire insuffisante se produit pendant une lecture aléatoire qui fait partie d’une jointure de diffusion. - Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
- [SPARK-46261]
DataFrame.withColumnsRenamed
devrait conserver l’ordre dict/map. - [SPARK-46538] Résolution du problème de référence de colonne ambiguë dans
ALSModel.transform
. - [SPARK-46145] spark.catalog.listTables ne lève pas d’exception quand la table ou la vue est introuvable.
- [SPARK-46484] Les fonctions d’assistance
resolveOperators
conservent l’ID de plan. - [SPARK-46394] Résolution des problèmes de spark.catalog.listDatabases() sur les schémas avec des caractères spéciaux quand
spark.sql.legacy.keepCommandOutputSchema
est défini sur true. - [SPARK-46609] Explosion exponentielle évitée dans PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Désactivation des sous-requêtes avec OFFSET corrélé pour corriger le bogue d’exactitude.
- [SPARK-46152] XML : ajout de la prise en charge de DecimalType dans l’inférence de schéma XML.
- [SPARK-46602] Propagation de
allowExisting
lors de la création d’une vue quand la vue/la table n’existe pas. - [SPARK-45814] ArrowConverters.createEmptyArrowBatch appelle close() pour éviter une fuite de mémoire.
- [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
- [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
- [SPARK-46600] Déplacement du code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
- [SPARK-46478] Inversion de SPARK-43049 pour utiliser varchar(255) d’Oracle pour la chaîne.
- [SPARK-46417] Plus d’échec lors de l’appel de hive.getTable et quand throwException a la valeur false.
- [SPARK-46153] XML : Ajout de la prise en charge de TimestampNTZType.
- [SPARK-46056][BACKPORT] Correction du NPE de la lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais rebaser pour timestamp ntz.
- [SPARK-46260]
DataFrame.withColumnsRenamed
doit respecter l’ordre des dictés. - [SPARK-46036] Suppression de la classe d’erreurs de la fonction raise_error.
- [SPARK-46294] Nettoyage de la sémantique de la valeur d’initialisation / zéro.
- [SPARK-46173] Appel de trimAll ignoré lors de l’analyse des dates.
- [SPARK-46250] Réalisation d’une opération « deflake » sur test_parity_listener.
- [SPARK-46587] XML : Correction de la conversion des grands entiers XSD.
- [SPARK-46396] L’inférence de l’horodatage ne doit pas lever d’exception.
- [SPARK-46241] Correction de la routine de gestion des erreurs pour qu’elle n’entre pas dans une boucle récursive infinie.
- [SPARK-46355] XML : Fermeture de InputStreamReader à la fin d’une lecture.
- [SPARK-46370] Correction du bogue lors de l’interrogation d’une table après la modification des valeurs par défaut des colonnes.
- [SPARK-46265] Des assertions dans AddArtifact RPC rendent le client de connexion incompatible avec les clusters plus anciens.
- [SPARK-46308] Interdire la gestion récursive des erreurs.
- [SPARK-46337]
CTESubstitution
doit conserver lePLAN_ID_TAG
.
- Le nœud
- 14 décembre 2023
- [SPARK-46141] Changement de la valeur par défaut de spark.sql.legacy.ctePrecedencePolicy en CORRECTED.
- [SPARK-45730] ReloadingX509TrustManagerSuite rendu moins granulaire.
- [SPARK-45852] Gestion correcte de l’erreur de récursivité lors de la journalisation.
- [SPARK-45808] Gestion améliorée des erreurs pour les exceptions SQL.
- [SPARK-45920] Le regroupement par un ordinal doit être idempotent.
- Inversion de « [SPARK-45649] Unification de l’infrastructure de préparation pour
OffsetWindowFunctionFrame
». - [SPARK-45733] Prise en charge des stratégies de nouvelles tentatives multiples.
- [SPARK-45509] Correction du comportement de référence de la colonne df pour Spark Connect.
- [SPARK-45655] Expressions non déterministes autorisées dans AggregateFunctions dans CollectMetrics.
- [SPARK-45905] Le type le moins courant entre les types décimaux doit conserver les chiffres de la partie entière en premier.
- [SPARK-45136] Amélioration de ClosureCleaner avec la prise en charge d’Ammonite.
- [SPARK-46255] Prise en charge de la conversion de type complexe -> chaîne.
- [SPARK-45859] Objets UDF différés dans ml.functions.
- [SPARK-46028] Acceptation de la colonne d’entrée par
Column.__getitem__
. - [SPARK-45798] Déclaration de l’ID de session côté serveur Assert.
- [SPARK-45892] Validation du plan d’optimiseur de refactorisation pour dissocier
validateSchemaOutput
etvalidateExprIdUniqueness
. - [SPARK-45844] Implémentation de l’insensibilité à la casse pour XML.
- [SPARK-45770] Introduction du plan
DataFrameDropColumns
pourDataframe.drop
. - [SPARK-44790] XML : Implémentation de to_xml et des liaisons pour Python, les connexions et SQL.
- [SPARK-45851] Prise en charge de plusieurs stratégies dans le client Scala.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfix
pour corriger une vulnérabilité PyArrow RCE. - Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
getColumns
provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques. - [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-45852] Le client Python pour Spark Connect intercepte désormais les erreurs de récursivité pendant la conversion de texte.
- [SPARK-45808] Gestion améliorée des erreurs pour les exceptions SQL.
- L’ordinal [SPARK-45920]
GROUP BY
ne remplace pas l’ordinal. - Rétablissez [SPARK-45649].
- [SPARK-45733] Ajout de la prise en charge de plusieurs stratégies de nouvelle tentative.
- [SPARK-45509] Correction du comportement de référence de la colonne
df
pour Spark Connect. - [SPARK-45655] Autorisation des expressions non déterministes de
AggregateFunctions
dansCollectMetrics
. - [SPARK-45905] Le type le moins courant entre les types décimaux conserve désormais les chiffres intégraux en premier.
- [SPARK-45136] Amélioration de
ClosureCleaner
avec la prise en charge d’Ammonite. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - [SPARK-46028]
Column.__getitem__
accepte les colonnes d’entrée. - [SPARK-45798] Déclaration de l’ID de session côté serveur Assert.
- [SPARK-45892] Validation du plan d’optimiseur de refactorisation pour dissocier
validateSchemaOutput
etvalidateExprIdUniqueness
. - [SPARK-45844] Implémentation de l’insensibilité à la casse pour XML.
- [SPARK-45770] Correction de la résolution de colonne avec
DataFrameDropColumns
pourDataframe.drop
. - [SPARK-44790] Ajout de l’implémentation
to_xml
et de liaisons pour Python, Spark Connect et SQL. - [SPARK-45851] Ajout de la prise en charge de plusieurs stratégies dans le client Scala.
- Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
Databricks Runtime 14.0
Consultez Databricks Runtime 14.0 (EoS).
- 8 février 2024
- [SPARK-46396] L’inférence de l’horodatage ne doit pas lever d’exception.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-45182] Ignorer l’achèvement de la tâche de l’ancienne étape après avoir réessayé l’étape parentale indéterminée telle que déterminée par la somme de contrôle.
- [SPARK-46933] Ajouter une mesure du temps d’exécution des requêtes pour les connecteurs qui utilisent JDBCRDD.
- [SPARK-45957] Éviter de générer un plan d’exécution pour les commandes non exécutables.
- [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- [SPARK-46930] Ajouter la prise en charge d’un préfixe personnalisé pour les champs de type union dans Avro.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-45582] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie.
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2024
- [SPARK-46541] Correction de l’ambiguïté de la référence à une colonne dans la jointure automatique.
- [SPARK-46676] dropDuplicatesWithinWatermark ne doit pas échouer lors de la canonisation du plan.
- [SPARK-46769] Affiner l’inférence de schéma associée au timestamp.
- [SPARK-45498] Suivi : Ignorer l’achèvement des tâches des anciennes tentatives d’étapes.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au timestamp.
- [SPARK-46383] Réduire l’utilisation du tas de pilotes en réduisant la durée de vie de
TaskInfo.accumulables()
. - [SPARK-46633] Correction du lecteur Avro pour la gestion des blocs de longueur nulle.
- [SPARK-46677] Résoudre la résolution de
dataframe["*"]
. - [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour passer les arguments correctement.
- [SPARK-46763] Corriger l’échec d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs dupliqués.
- [SPARK-46610] Créer une table doit lever une exception lorsqu’aucune valeur pour une clé dans les options n’est levée.
- Mises à jour de sécurité du système d’exploitation
- 17 janvier 2024
- Le nœud
shuffle
du plan d’explication retourné par une requête Photon est mis à jour pour ajouter l’indicateurcausedBroadcastJoinBuildOOM=true
quand une erreur de mémoire insuffisante se produit pendant une lecture aléatoire qui fait partie d’une jointure de diffusion. - Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
- [SPARK-46394] Résolution des problèmes de spark.catalog.listDatabases() sur les schémas avec des caractères spéciaux quand
spark.sql.legacy.keepCommandOutputSchema
est défini sur true. - [SPARK-46250] Réalisation d’une opération « deflake » sur test_parity_listener.
- [SPARK-45814] ArrowConverters.createEmptyArrowBatch appelle close() pour éviter une fuite de mémoire.
- [SPARK-46173] Appel de trimAll ignoré lors de l’analyse des dates.
- [SPARK-46484] Les fonctions d’assistance
resolveOperators
conservent l’ID de plan. - [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais rebaser pour timestamp ntz.
- [SPARK-46056] Correction du NPE de la lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
- [SPARK-46478] Inversion de SPARK-43049 pour utiliser varchar(255) d’Oracle pour la chaîne.
- [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
- [SPARK-46417] Plus d’échec lors de l’appel de hive.getTable et quand throwException a la valeur false.
- [SPARK-46261]
DataFrame.withColumnsRenamed
devrait conserver l’ordre dict/map. - [SPARK-46370] Correction du bogue lors de l’interrogation d’une table après la modification des valeurs par défaut des colonnes.
- [SPARK-46609] Explosion exponentielle évitée dans PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Déplacement du code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
- [SPARK-46538] Résolution du problème de référence de colonne ambiguë dans
ALSModel.transform
. - [SPARK-46337]
CTESubstitution
doit conserver lePLAN_ID_TAG
. - [SPARK-46602] Propagation de
allowExisting
lors de la création d’une vue quand la vue/la table n’existe pas. - [SPARK-46260]
DataFrame.withColumnsRenamed
doit respecter l’ordre des dictés. - [SPARK-46145] spark.catalog.listTables ne lève pas d’exception quand la table ou la vue est introuvable.
- Le nœud
- 14 décembre 2023
- Correction d’un problème où les traits de soulignement en échappement dans les opérations getColumns provenant de clients JDBC ou ODBC étaient gérés incorrectement et interprétés comme des caractères génériques.
- [SPARK-46255] Prise en charge de la conversion de type complexe -> chaîne.
- [SPARK-46028] Acceptation de la colonne d’entrée par
Column.__getitem__
. - [SPARK-45920] Le regroupement par un ordinal doit être idempotent.
- [SPARK-45433] Correction de l’inférence de schéma CSV/JSON quand les horodatages ne correspondent pas au timestampFormat spécifié.
- [SPARK-45509] Correction du comportement de référence de la colonne df pour Spark Connect.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfix
pour corriger une vulnérabilité PyArrow RCE. - Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
getColumns
provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques. - Lors de l’ingestion de données CSV à l’aide de tables de chargement automatique ou de diffusion en continu, les fichiers CSV volumineux sont désormais fractionnés et peuvent être traités en parallèle pendant l’inférence de schéma et le traitement des données.
- Le connecteur Spark-snowflake a été mis à niveau vers la version 2.12.0.
- [SPARK-45859] Objets UDF rendus différés
ml.functions
. - Rétablissez [SPARK-45592].
- [SPARK-45892] Validation du plan d’optimiseur de refactorisation pour dissocier
validateSchemaOutput
etvalidateExprIdUniqueness
. - [SPARK-45592] Correction du problème d’exactitude dans AQE avec
InMemoryTableScanExec
. - [SPARK-45620] Les API liées à l’UDF Python utilisent désormais camelCase.
- [SPARK-44784] Le test SBT est désormais hermétique.
- [SPARK-45770] Correction de la résolution de colonne avec
DataFrameDropColumns
pourDataframe.drop
. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 10 novembre 2023
- Requêtes de flux de données modifiées sur les tables de streaming du catalogue Unity et les vues matérialisées pour afficher les messages d’erreur.
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
n’échoue plus lorsqueIGNORE NULLS
etoffset > rowCount
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-44219] Ajout de validations par règle supplémentaires pour les réécritures d’optimisation.
- [SPARK-45543] Correction d’un problème à cause duquel
InferWindowGroupLimit
générait une erreur si les autres fonctions de fenêtre n’ont pas le même cadre de fenêtre que les fonctions de classement. - Mises à jour de sécurité du système d’exploitation
- 23 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - [SPARK-45396] Ajout d’une entrée de document pour le module
PySpark.ml.connect
, et ajout deEvaluator
à__all__
pourml.connect
. - [SPARK-45256] Correction d’un problème à cause duquel
DurationWriter
échouait lors de l’écriture de plus de valeurs que la capacité initiale. - [SPARK-45279]
plan_id
est joint à tous les plans logiques. - [SPARK-45250] Profil de ressource de tâche de niveau de support ajouté pour le cluster yarn lorsque l’allocation dynamique est désactivée.
- [SPARK-45182] Ajout de la prise en charge de la restauration de l’étape de mappage aléatoire afin que toutes les tâches intermédiaires puissent être retentées lorsque la sortie de l’étape est indéterminée.
- [SPARK-45419] Évitez de réutiliser les fichiers
rocksdb sst
dans une autre instancerocksdb
en supprimant les entrées de carte de version de versions plus volumineuses. - [SPARK-45386] Correction d’un problème à cause duquel
StorageLevel.NONE
retournerait incorrectement 0. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
- La fonction
array_insert
est basée sur 1 pour les index positifs et négatifs, alors qu’avant, elle était basée sur 0 pour les index négatifs. Il insère désormais un nouvel élément à la fin des tableaux d’entrée pour l’index -1. Pour restaurer le comportement précédent, affectez àspark.sql.legacy.negativeIndexInArrayInsert
la valeurtrue
. - Azure Databricks n’ignore plus ignorer les fichiers endommagés lorsque qu’une inférence de schéma CSV avec le chargeur automatique a activé
ignoreCorruptFiles
. - [SPARK-45227] Correction d’un problème de sécurité de thread subtil avec
CoarseGrainedExecutorBackend
. - [SPARK-44658]
ShuffleStatus.getMapStatus
doit retournerNone
au lieu deSome(null)
. - [SPARK-44910]
Encoders.bean
ne prend pas en charge les superclasses avec des arguments de type générique. - [SPARK-45346] L’inférence de schéma Parquet respecte les indicateurs respectant la casse lors de la fusion du schéma.
- Rétablissez [SPARK-42946].
- [SPARK-42205] Mise à jour du protocole JSON pour supprimer la journalisation des accumulables dans une tâche ou des événements de démarrage d’étape.
- [SPARK-45360] Le générateur de sessions Spark prend en charge l’initialisation à partir de
SPARK_REMOTE
. - [SPARK-45316] Ajout de nouveaux paramètres
ignoreCorruptFiles
/ignoreMissingFiles
àHadoopRDD
etNewHadoopRDD
. - [SPARK-44909] Ignorez l’exécution du serveur de streaming de journaux du distributeur torch quand il n’est pas disponible.
- [SPARK-45084]
StateOperatorProgress
utilise désormais un numéro de partition aléatoire exact. - [SPARK-45371] Correction des problèmes d’ombrage dans le client Scala Spark Connect.
- [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - [SPARK-44840] Définition de
array_insert()
1 pour les index négatifs. - [SPARK-44551] commentaires modifiés à synchroniser avec OSS.
- [SPARK-45078] La fonction
ArrayInsert
effectue désormais un cast explicite lorsque le type d’élément n’est pas égal au type de composant dérivé. - [SPARK-45339] Pyspark enregistre désormais les erreurs de nouvelle tentative.
- [SPARK-45057] Évite d’acquérir un verrou de lecture quand la valeur
keepReadLock
est false. - [SPARK-44908][ML] [CONNECT] Correction de la fonctionnalité de param
foldCol
du validateur croisé. - Mises à jour de sécurité du système d’exploitation
Databricks Runtime 13.1
Consultez Databricks Runtime 13.1 (EoS).
- 29 novembre 2023
- Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
getColumns
provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques. - [SPARK-44846] Suppression d’expressions de regroupement complexes après
RemoveRedundantAggregates
. - [SPARK-43802] Correction d’un problème à cause duquel le codegen d’expressions unhex et unbase64 échouait.
- [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures
USING
. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
- 14 novembre 2023
- Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
- Requêtes de flux de données modifiées sur les tables Unity Catalog Streaming et vues matérialisées pour afficher les messages d’erreur.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
n’échoue plus lorsqueIGNORE NULLS
etoffset > rowCount
. - [SPARK-45543] Correction d’un problème à cause duquel
InferWindowGroupLimit
provoquait un problème si les autres fonctions de fenêtre n’avaient pas le même cadre de fenêtre que les fonctions de classement. - Mises à jour de sécurité du système d’exploitation
- 24 octobre 2023
- [SPARK-43799] Ajout de l’option binaire du descripteur à l’API
Protobuf
PySpark. - Rétablissez [SPARK-42946].
- [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
- Mises à jour de sécurité du système d’exploitation
- [SPARK-43799] Ajout de l’option binaire du descripteur à l’API
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
- Ne plus ignorer les fichiers endommagés lorsque
ignoreCorruptFiles
est activé pendant l’inférence de schéma CSV avec le chargeur automatique. - [SPARK-44658]
ShuffleStatus.getMapStatus
retourneNone
au lieu deSome(null)
. - [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - [SPARK-42205] Mise à jour du protocole JSON pour supprimer la journalisation des accumulables dans une tâche ou des événements de démarrage d’étape.
- Mises à jour de sécurité du système d’exploitation
- 12 septembre 2023
- [SPARK-44718] Faites correspondre la configuration en mode mémoire par défaut
ColumnVector
avec la valeur de configurationOffHeapMemoryMode
. - SPARK-44878 Désactivation de la limite stricte pour le gestionnaire d’écritures
RocksDB
afin d’éviter l’exception d’insertion sur le cache complet. - Correctifs divers.
- [SPARK-44718] Faites correspondre la configuration en mode mémoire par défaut
- 30 août 2023
- [SPARK-44871] Correction du comportement « percentile_disc ».
- [SPARK-44714] Réduit les restrictions de la résolution LCA concernant les requêtes.
- [SPARK-44245] Les tests de documents
PySpark.sql.dataframe sample()
sont désormais uniquement illustratifs. - [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - Mises à jour de sécurité du système d’exploitation
- 15 août 2023
- [SPARK-44485] Optimisation de
TreeNode.generateTreeString
. - [SPARK-44643] Correction de
Row.__repr__
lorsque la ligne est vide. - [SPARK-44504] La tâche de maintenance nettoie désormais les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44479] Correction de la conversion de
protobuf
à partir d’un type de structure vide. - [SPARK-44464] Correction de
applyInPandasWithStatePythonRunner
pour les lignes de sortie qui présententNull
comme première valeur de colonne. - Correctifs divers.
- [SPARK-44485] Optimisation de
- 27 juillet 2023
- Correction d’un problème à cause duquel
dbutils.fs.ls()
renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé. - [SPARK-44199]
CacheManager
n’actualise plus le fichierfileIndex
inutilement. - [SPARK-44448] Correction d’un bogue de résultats incorrects avec
DenseRankLimitIterator
etInferWindowGroupLimit
. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel
- 24 juillet 2023
- Rétablissez [SPARK-42323].
- [SPARK-41848] Correction d’un problème de sur-planification de tâche avec
TaskResourceProfile
. - [SPARK-44136] Correction d’un problème à cause duquel
StateManager
se matérialisait dans un exécuteur au lieu du pilote dansFlatMapGroupsWithStateExec
. - [SPARK-44337] Correction d’un problème à cause duquel tout champ défini sur
Any.getDefaultInstance
provoquait une erreur d’analyse. - Mises à jour de sécurité du système d’exploitation
- 27 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- Photonized
approx_count_distinct
. - L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- Le champs d’attributs
PubSubRecord
est stocké au format JSON au lieu de la chaîne provenant d’une carte Scala pour une sérialisation et une désérialisation plus simples. - La commande
EXPLAIN EXTENDED
retourne maintenant l’éligibilité au cache de résultats de la requête. - Améliorez les performances des mises à jour incrémentielles avec Iceberg et Parquet
SHALLOW CLONE
. - [SPARK-43032] Correctif de bogue Python SQM.
- [SPARK-43404]Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43340] Gestion du champ de trace de pile manquant dans des journaux d’événements.
- [SPARK-43527] Résolution de
catalog.listCatalogs
dans PySpark. - [SPARK-43541] Propagation de toutes les balises
Project
dans la résolution des expressions et des colonnes manquantes. - [SPARK-43300] Wrapper
NonFateSharingCache
pour le cache Guava. - [SPARK-43378] Ferme correctement les objets de flux dans
deserializeFromChunkedBuffer
. - [SPARK-42852] Rétablissement des modifications associées à
NamedLambdaVariable
à partir deEquivalentExpressions
. - [SPARK-43779]
ParseToDate
charge désormaisEvalMode
dans le thread principal. - [SPARK-43413] Correction de la sous-requête
IN
de la possibilité de valeurs nulles deListQuery
. - [SPARK-43889] Ajout d’une vérification pour le nom de colonne pour
__dir__()
afin de filtrer les noms de colonnes sujets aux erreurs. - [SPARK-43043] Amélioration des performances de
MapOutputTracker
.updateMapOutput - [SPARK-43522] Correction de la création d’un nom de colonne struct avec un index du tableau.
- [SPARK-43457] Augmentation de l’agent utilisateur d’authentification avec des versions de système d’exploitation, Python et Spark.
- [SPARK-43286] Mise à jour du mode CBC
aes_encrypt
pour générer des images virtuelles aléatoires. - [SPARK-42851] Protégection de
EquivalentExpressions.addExpr()
avecsupportedExpression()
. - Rétablissez [SPARK-43183].
- Mises à jour de sécurité du système d’exploitation
- Photonized
Databricks Runtime 12.2 LTS
Voir Databricks Runtime 12.2 LTS.
- 29 novembre 2023
- Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
getColumns
provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques. - [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage
Stage
etTask
. - [SPARK-44846] Suppression d’expressions de regroupement complexes après
RemoveRedundantAggregates
. - [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures
USING
. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-43973] L’interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
- [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
- 14 novembre 2023
- Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
n’échoue plus lorsqueIGNORE NULLS
etoffset > rowCount
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- Mises à jour de sécurité du système d’exploitation
- 24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Correctifs divers.
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
- [SPARK-42553] Vérifiez qu’il y a au moins une unité de temps après l’intervalle.
- [SPARK-45346] L’inférence de schéma Parquet respecte l’indicateur respectant la casse lors de la fusion du schéma.
- [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - [SPARK-45084]
StateOperatorProgress
pour utiliser un numéro de partition aléatoire précis et adéquat.
- 12 septembre 2023
- [SPARK-44873] Ajout de la prise en charge de
alter view
avec des colonnes imbriquées dans le client Hive. - [SPARK-44718] Faites correspondre la configuration en mode mémoire par défaut
ColumnVector
avec la valeur de configurationOffHeapMemoryMode
. - [SPARK-43799] Ajout de l’option binaire du descripteur à l’API
Protobuf
PySpark. - Correctifs divers.
- [SPARK-44873] Ajout de la prise en charge de
- 30 août 2023
- [SPARK-44485] Optimisation de
TreeNode.generateTreeString
. - [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - [SPARK-44871][11.3-13.0] Correction du comportement de
percentile_disc
. - [SPARK-44714] Réduit les restrictions de la résolution LCA concernant les requêtes.
- Mises à jour de sécurité du système d’exploitation
- [SPARK-44485] Optimisation de
- 15 août 2023
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44464] Correction de
applyInPandasWithStatePythonRunner
pour les lignes de sortie qui présententNull
comme première valeur de colonne. - Mises à jour de sécurité du système d’exploitation
- 29 juillet 2023
- Correction d’un problème à cause duquel
dbutils.fs.ls()
renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé. - [SPARK-44199]
CacheManager
n’actualise plus le fichierfileIndex
inutilement. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel
- 24 juillet 2023
- [SPARK-44337] Correction d’un problème à cause duquel tout champ défini sur
Any.getDefaultInstance
provoquait une erreur d’analyse. - [SPARK-44136] Correction d’un problème à cause duquel
StateManager
se matérialisait dans un exécuteur au lieu du pilote dansFlatMapGroupsWithStateExec
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44337] Correction d’un problème à cause duquel tout champ défini sur
- 23 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- Photonized
approx_count_distinct
. - La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43779]
ParseToDate
charge désormaisEvalMode
dans le thread principal. - [SPARK-43156][SPARK-43098] Test d’erreur de nombre de sous-requêtes scalaire étendu avec
decorrelateInnerQuery
désactivé. - Mises à jour de sécurité du système d’exploitation
- Photonized
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Améliorez les performances des mises à jour incrémentielles avec Iceberg et Parquet
SHALLOW CLONE
. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-43404] Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43413][11.3-13.0] Correction de la sous-requête
IN
de possibilité de valeurs nulles deListQuery
. - [SPARK-43522] Correction de la création d’un nom de colonne struct avec un index du tableau.
- [SPARK-43541] Propagation de toutes les balises
Project
dans la résolution des expressions et des colonnes manquantes. - [SPARK-43527] Résolution de
catalog.listCatalogs
dans PySpark. - [SPARK-43123] Les métadonnées de champ interne ne fuient plus vers des catalogues.
- [SPARK-43340] Correction du champ de trace de pile manquant dans des journaux d’événements.
- [SPARK-42444]
DataFrame.drop
gère désormais correctement les colonnes dupliquées. - [SPARK-42937]
PlanSubqueries
est désormais définiInSubqueryExec#shouldBroadcast
sur true. - [SPARK-43286] Mise à jour du mode CBC
aes_encrypt
pour générer des images virtuelles aléatoires. - [SPARK-43378] Ferme correctement les objets de flux dans
deserializeFromChunkedBuffer
.
- L’analyseur JSON en mode
- 17 mai 2023
- Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
- Si un fichier Avro a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui ont différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Auto Loader effectue maintenant les opérations suivantes.
-
- Lit correctement et ne sauve plus les types
Integer
,Short
etByte
si l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne sauve plus les types
-
- Empêche la lecture des types d’intervalles en tant que types date ou horodatage pour éviter d’obtenir des dates endommagées.
-
- Empêche la lecture
Decimal
des types avec une précision inférieure.
- Empêche la lecture
- [SPARK-43172] Expose l’hôte et le jeton du client Spark Connect.
- [SPARK-43293]
__qualified_access_only
est ignoré dans les colonnes normales. - [SPARK-43098] Correction d’un bogue d’exactitude lorsque la
COUNT
sous-requête scalaire est regroupée par clause. - [SPARK-43085] Prise en charge de l’attribution de colonnes
DEFAULT
pour les noms de tables en plusieurs parties. - [SPARK-43190]
ListQuery.childOutput
est désormais cohérent avec la sortie secondaire. - [SPARK-43192] Suppression de la validation de l’ensemble de caractères de l’agent utilisateur.
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2023
- Si un fichier Parquet a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui avaient différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Désormais, le chargeur automatique lit et ne sauve plus correctement les types
Integer
,Short
etByte
si l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles. - [SPARK-43009] Paramétrisation de
sql()
avec des constantesAny
- [SPARK-42406] Arrêter les champs récursifs Protobuf en supprimant le champ
- [SPARK-43038] Prise en charge du mode GCM par
aes_encrypt()
/aes_decrypt()
- [SPARK-42971] Modification pour imprimer
workdir
siappDirs
est Null lors de l’événement de handle de workerWorkDirCleanup
- [SPARK-43018] Correction d’un bogue pour INSERT des commandes avec des littéraux d’horodatage
- Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet a été lu uniquement avec l’option
- 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande
SYNC
. - Corrige un problème dans le comportement %autoreload dans les notebooks en dehors d’un dépôt.
- Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928] Rend
resolvePersistentFunction
synchronisé. - [SPARK-42936] Corrige un problème LC lorsque la clause peut être résolue directement par son agrégat enfant.
- [SPARK-42967] Corrige
SparkListenerTaskStart.stageAttemptId
lorsqu’une tâche démarre après l’annulation de la phase. - Mises à jour de sécurité du système d’exploitation
- Prise en charge des formats de source de données hérités dans la commande
- 29 mars 2023
Databricks SQL prend désormais en charge la spécification de valeurs par défaut pour les colonnes des tables Delta Lake, au moment de la création de la table ou après. Les commandes suivantes
INSERT
,UPDATE
,DELETE
etMERGE
peuvent faire référence à n’importe quelle valeur par défaut d’une colonne à l’aide de la mot clé expliciteDEFAULT
. De plus, si des affectationsINSERT
ont une liste explicite de moins de colonnes que la table cible, les valeurs de colonne par défaut correspondantes sont remplacées par les colonnes restantes (ou NULL si aucune valeur par défaut n’est spécifiée).Par exemple :
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
Le chargeur automatique lance désormais au moins un journal RocksDB synchrone propre pour les flux
Trigger.AvailableNow
afin de s’assurer que le point de contrôle peut être nettoyé régulièrement pour les flux du chargeur automatique à exécution rapide. Certains flux peuvent mettre plus longtemps à s’arrêter, mais vous économiserez des coûts de stockage et améliorerez l’expérience du chargeur automatique dans les exécutions futures.Vous pouvez maintenant modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Augmentation de lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming
[SPARK-42521] Ajout des valeurs NULL pour INSERT avec des listes spécifiées par l’utilisateur de moins de colonnes que la table cible
[SPARK-42702][SPARK-42623] Prise en charge de la requête paramétrable dans la sous-requête et la CTE
[SPARK-42668] Intercepter une exception lors de la tentative de fermeture du flux compressé dans l’arrêt HDFSStateStoreProvider
[SPARK-42403] JsonProtocol doit gérer les chaînes JSON Null
- 8 mars 2023
- Le message d’erreur « Échec de l’initialisation de la configuration » a été amélioré pour fournir plus de contexte au client.
- Il existe un changement de terminologie pour l’ajout de fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe préférée est maintenant
'delta.feature.featureName'='supported'
au lieu de'delta.feature.featureName'='enabled'
. Pour la compatibilité descendante, l’utilisation de'delta.feature.featureName'='enabled'
fonctionne toujours et continuera de fonctionner. - À partir de cette version, il est possible de créer ou de remplacer une table par une propriété de table
delta.ignoreProtocolDefaults
supplémentaire pour ignorer les configurations Spark liées au protocole, ce qui inclue les versions de lecteur et d’enregistreur par défaut, et les fonctionnalités de table prises en charge par défaut. - [SPARK-42070] Modifier la valeur par défaut de l’argument de la fonction Mask de -1 à NULL
- [SPARK-41793] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales importantes
- [SPARK-42484] Meilleur message d’erreur UnsafeRowUtils
- [SPARK-42516] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
- [SPARK-42635] Correction de l’expression TimestampAdd.
- [SPARK-42622] Désactivation de la substitution dans les valeurs
- [SPARK-42534] Correction de la clause de limite DB2Dialect
- [SPARK-42121] Ajouter des fonctions table intégrées posexplode, posexplode_outer, json_tuple et pile
- [SPARK-42045] Mode SQL ANSI : Round/Bround doit retourner une erreur sur un dépassement de capacité d’entier minuscule, petit ou important
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 11.3 LTS
Voir Databricks Runtime 11.3 LTS.
- 29 novembre 2023
- Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
getColumns
provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques. - [SPARK-43973] L’interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
- [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures
USING
. - [SPARK-44846] Suppression d’expressions de regroupement complexes après
RemoveRedundantAggregates
. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
- 14 novembre 2023
- Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
- [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - Rétablissez [SPARK-33861].
- [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
n’échoue plus lorsqueIGNORE NULLS
etoffset > rowCount
. - [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - Mises à jour de sécurité du système d’exploitation
- 24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Correctifs divers.
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
- [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - [SPARK-45084]
StateOperatorProgress
pour utiliser un numéro de partition aléatoire précis et adéquat. - [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
- Mises à jour de sécurité du système d’exploitation
- 10 septembre 2023
- Correctifs divers.
- 30 août 2023
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - [SPARK-44871][11.3-13.0] Correction du comportement de
percentile_disc
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
- 15 août 2023
- [SPARK-44485] Optimisation de
TreeNode.generateTreeString
. - [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44464] Correction de
applyInPandasWithStatePythonRunner
pour les lignes de sortie qui présententNull
comme première valeur de colonne. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44485] Optimisation de
- 27 juillet 2023
- Correction d’un problème à cause duquel
dbutils.fs.ls()
renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé. - [SPARK-44199]
CacheManager
n’actualise plus le fichierfileIndex
inutilement. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel
- 24 juillet 2023
- [SPARK-44136] [SS] Correction d’un problème à cause duquel StateManager pouvait être matérialisé dans l’exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
- Mises à jour de sécurité du système d’exploitation
- 23 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- Photonized
approx_count_distinct
. - La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43779]
ParseToDate
charge désormaisEvalMode
dans le thread principal. - [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Test de bogue de nombre de sous-requêtes scalaire étendu avec
decorrelateInnerQuery
désactivé. - [SPARK-43098] Correction du bogue COUNT lorsque la sous-requête scalaire dispose d’une clause group by
- Mises à jour de sécurité du système d’exploitation
- Photonized
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Améliorez les performances des mises à jour incrémentielles avec Iceberg et Parquet
SHALLOW CLONE
. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-43404]Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43527] Résolution de
catalog.listCatalogs
dans PySpark. - [SPARK-43413][11.3-13.0] Correction de la sous-requête
IN
de possibilité de valeurs nulles deListQuery
. - [SPARK-43340] Correction du champ de trace de pile manquant dans des journaux d’événements.
- L’analyseur JSON en mode
Databricks Runtime 10.4 LTS
Consultez Databricks Runtime 10.4 LTS.
- 29 novembre 2023
- [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures
USING
. - [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
- [SPARK-44846] Suppression d’expressions de regroupement complexes après
RemoveRedundantAggregates
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45544] Prise en charge SSL intégrée dans
- 14 novembre 2023
- [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - Rétablissez [SPARK-33861].
- Mises à jour de sécurité du système d’exploitation
- [SPARK-45541] Ajout de
- 24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- [SPARK-45084]
StateOperatorProgress
pour utiliser un numéro de partition aléatoire précis et adéquat. - [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45084]
- 10 septembre 2023
- Correctifs divers.
- 30 août 2023
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
- 15 août 2023
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-43973] L’interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
- Mises à jour de sécurité du système d’exploitation
- 23 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43098] Correction du bogue COUNT lorsque la sous-requête scalaire dispose d’une clause group by
- [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Test de nombre de sous-requêtes scalaire étendu avec
decorrelateInnerQuery
désactivé. - Mises à jour de sécurité du système d’exploitation
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Correction d’un problème dans l’analyse de données sauvées JSON pour empêcher
UnknownFieldException
. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-43404] Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43413] Correction de la possibilité de valeurs nulles de
IN
de la sous-requêteListQuery
. - Mises à jour de sécurité du système d’exploitation
- L’analyseur JSON en mode
- 17 mai 2023
- Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
- [SPARK-41520] Fractionnez le modèle d’arborescence
AND_OR
pour séparerAND
etOR
. - [SPARK-43190]
ListQuery.childOutput
est désormais cohérent avec la sortie secondaire. - Mises à jour de sécurité du système d’exploitation
- 25 avril 2023
- [SPARK-42928] Rend
resolvePersistentFunction
synchronisé. - Mises à jour de sécurité du système d’exploitation
- [SPARK-42928] Rend
- 11 avril 2023
- Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42937]
PlanSubqueries
est désormais définiInSubqueryExec#shouldBroadcast
sur true. - [SPARK-42967] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
- 29 mars 2023
- [SPARK-42668] Intercepter une exception lors de la tentative de fermeture du flux compressé dans l’arrêt HDFSStateStoreProvider
- [SPARK-42635] Correction de …
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2023
- [SPARK-41162] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
- [SPARK-33206] Correction du calcul de poids du cache d’index aléatoire pour les petits fichiers d’index
- [SPARK-42484] Amélioration du message d’erreur
UnsafeRowUtils
- Correctifs divers.
- 28 février 2023
- Prise en charge de la colonne générée pour les date_format aaaa-MM-jj. Cette modification prend en charge l’élagage de partition pour les aaaa-MM-jj en tant que date_format dans les colonnes générées.
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 LTS ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- Prise en charge de la colonne générée pour les date_format aaaa-MM-jj. Cette modification prend en charge l’élagage de partition pour les aaaa-MM-jj en tant que date_format dans les colonnes générées.
- Mises à jour de sécurité du système d’exploitation
- 16 février 2023
- [SPARK-30220] Activer l’utilisation des sous-requêtes Exists/In en dehors du nœud Filtre
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- 18 janvier 2023
- Le connecteur Azure Synapse retourne un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Nettoyage du lot d’écriture après le commit du magasin d’états RocksDB
- [SPARK-41199] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41198] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41339] Fermez et recréez le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- Mises à jour de sécurité du système d’exploitation
- Le connecteur Azure Synapse retourne un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
- 29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
- Quand
csvignoreleadingwhitespace
est défini surtrue
, il supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
. - Quand
csvignoretrailingwhitespace
est défini surtrue
, il supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.
- Quand
- Correction d’un problème avec l’analyse JSON dans Auto Loader quand toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypes
n’a pas été définie ou défini surfalse
) et que le JSON contenait des objets imbriqués. - Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
- 15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez
spark.sql.json.enablePartialResults
surtrue
. L’indicateur est désactivé par défaut pour conserver le comportement d’origine. - [SPARK-40292] Correction des noms de colonnes dans la fonction
arrays_zip
lorsque des tableaux sont référencés à partir de structs imbriqués - Mises à jour de sécurité du système d’exploitation
- 1er novembre 2022
- Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwrites
est activé - [SPARK-40697] Ajoutez un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596] Remplissez ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée
- 18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- [SPARK-40468] Correction de la taille des colonnes au format CSV lorsque
_corrupt_record
est sélectionné. - Mises à jour de sécurité du système d’exploitation
- [SPARK-40468] Correction de la taille des colonnes au format CSV lorsque
- 22 septembre 2022
- Les utilisateurs peuvent définir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) pour réactiver la liste intégrée du chargeur automatique sur ADLS Gen2. La liste intégrée a été précédemment désactivée en raison de problèmes de performances, mais peut avoir entraîné une augmentation des coûts de stockage pour les clients. - [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40213] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- [SPARK-40380] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-38404] Amélioration de la résolution CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
- [SPARK-40089] Correction du tri pour certains types décimaux
- [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- Les utilisateurs peuvent définir spark.conf.set(
- 6 septembre 2022
- [SPARK-40235] Utilisation d’un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40218] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976] ArrayIntersect devrait correctement gérer la valeur Null dans l’expression de gauche
- [SPARK-40053] Ajout de
assume
aux cas d’annulation dynamique nécessitant un environnement de runtime Python - [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
- 24 août 2022
- SPARK-39983 Plus de mise en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775] Désactivation des valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39962] Application d’une projection lorsque les attributs de groupe sont vides
- [SPARK-37643] Lorsque charVarcharAsString a la valeur true, la requête de prédicat de type de données char ignore la règle rpadding
- Mises à jour de sécurité du système d’exploitation
- 9 août 2022
- [SPARK-39847] Correction de la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format “aaaaMMjj” avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- [SPARK-39625] Ajout de Dataset.as(StructType)
- [SPARK-39689] Prise en charge du
lineSep
de 2 caractères dans la source de données CSV - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39570] La table incluse devrait autoriser les expressions avec alias
- [SPARK-39702] Réduction de la surcharge de mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] Ajout de ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39476] Désactivation de l’optimisation du cast de désenveloppement lors de la conversion de Long en Float/Double ou d’Entier en Float
- [SPARK-38868] Pas de propagation d’exceptions à partir du prédicat de filtre lors de l’optimisation des jointures externes
- Mises à jour de sécurité du système d’exploitation
- 20 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39355] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute
- [SPARK-39548] La commande CreateView avec une requête de clause de fenêtre provoque un problème de définition de fenêtre introuvable incorrect
- [SPARK-39419] Correction d’ArraySort pour lever une exception lorsque le comparateur retourne Null
- Désactivation de l’utilisation par le chargeur automatique des API cloud intégrées pour dresser la liste des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- [SPARK-39376] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2022
- [SPARK-39283] Correction d’un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIteratou
- [SPARK-39285] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096] Amélioration des performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- [SPARK-36718] Correction de la vérification
isExtractOnly
dans CollapseProject
- 2 juin 2022
- [SPARK-39093] Contournement d’une erreur de compilation codegen lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par un intégral
- [SPARK-38990] Contournement de NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire intégrée potentielle dans Auto Loader.
- [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-37593] Réduction de la taille de page par défaut selon LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisés
- [SPARK-39084] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38974] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38931] Création d’un répertoire DFS racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
- Correction d’un problème lié aux bibliothèques délimitées aux notebooks qui ne fonctionnaient pas dans les travaux de streaming par lots.
- [SPARK-38616] Suivi du texte de requête SQL dans Catalyst TreeNode
- Mises à jour de sécurité du système d’exploitation
- 6 avril 2022
- Les fonctions Spark SQL suivantes sont désormais disponibles avec cette version :
timestampadd()
etdateadd()
: Ajout d’une durée dans une unité spécifiée à une expression d’horodatage.timestampdiff()
etdatediff()
: Calcule de la différence de temps entre deux expressions d’horodatage d’une unité spécifiée.
- Parquet-MR a été mis à niveau vers la version 1.12.2
- Prise en charge améliorée des schémas complets dans les fichiers Parquet
- [SPARK-38631] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- [SPARK-38509][SPARK-38481] Cherry-picking de trois modifications
timestmapadd/diff
. - [SPARK-38523] Correction lors de la référence à la colonne d’enregistrement endommagé du CSV
- [SPARK-38237] Autorisation de
ClusteredDistribution
à exiger des clés de clustering complètes - [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180] Autorisation des expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155] Interdiction de tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- Mises à jour de sécurité du système d’exploitation
- Les fonctions Spark SQL suivantes sont désormais disponibles avec cette version :
Databricks Runtime 9.1 LTS
Voir Databricks Runtime 9.1 LTS.
- 29 novembre 2023
- [SPARK-45859] Objets UDF rendus différés
ml.functions
. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45859] Objets UDF rendus différés
- 14 novembre 2023
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
- Mises à jour de sécurité du système d’exploitation
- [SPARK-45545]
- 24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- Mises à jour de sécurité du système d’exploitation
- 10 septembre 2023
- Correctifs divers.
- 30 août 2023
- Mises à jour de sécurité du système d’exploitation
- 15 août 2023
- Mises à jour de sécurité du système d’exploitation
- 23 juin 2023
- La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- [SPARK-43098] Correction du bogue COUNT lorsque la sous-requête scalaire dispose d’une clause group by
- [SPARK-43156][SPARK-43098] Test de bogue de nombre de sous-requêtes scalaire étendu avec
decorrelateInnerQuery
désactivé. - [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- Mises à jour de sécurité du système d’exploitation
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Correction d’un problème dans l’analyse de données sauvées JSON pour empêcher
UnknownFieldException
. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-37520] Ajout des fonctions de chaîne
startswith()
etendswith()
- [SPARK-43413] Correction de la possibilité de valeurs nulles de
IN
de la sous-requêteListQuery
. - Mises à jour de sécurité du système d’exploitation
- L’analyseur JSON en mode
- 17 mai 2023
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2023
- Mises à jour de sécurité du système d’exploitation
- 11 avril 2023
- Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42967] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
- 29 mars 2023
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2023
- [SPARK-42484] Amélioration du message d’erreur pour
UnsafeRowUtils
. - Correctifs divers.
- [SPARK-42484] Amélioration du message d’erreur pour
- 28 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 LTS ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- Mises à jour de sécurité du système d’exploitation
- 16 février 2023
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- 18 janvier 2023
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2022
- Correction d’un problème avec l’analyse JSON dans Auto Loader quand toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypes
n’a pas été définie ou défini surfalse
) et que le JSON contenait des objets imbriqués. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème avec l’analyse JSON dans Auto Loader quand toutes les colonnes étaient laissées en tant que chaînes (
- 15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers.
- 1er novembre 2022
- Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwrites
est activé - [SPARK-40596] Remplissez ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée
- 18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Correctifs divers.
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste intégrée pour Auto Loader sur ADLS Gen2. La liste intégrée a été précédemment désactivée en raison de problèmes de performances, mais peut avoir entraîné une augmentation des coûts de stockage pour les clients.
- [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40089] Correction du tri pour certains types décimaux
- [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- 6 septembre 2022
- [SPARK-40235] Utilisation d’un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
- 24 août 2022
- [SPARK-39666] Utilisation de UnsafeProjection.create pour respecter
spark.sql.codegen.factoryMode
dans ExpressionEncoder - [SPARK-39962] Application d’une projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
- [SPARK-39666] Utilisation de UnsafeProjection.create pour respecter
- 9 août 2022
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39689] Prise en charge pour le
lineSep
de 2 caractères dans la source de données CSV - [SPARK-39575] Ajout de
ByteBuffer#rewind
aprèsByteBuffer#get
dansAvroDeserializer
. - [SPARK-37392] Correction de l’erreur de performances pour l’optimiseur de catalyseur.
- Mises à jour de sécurité du système d’exploitation
- 13 juillet 2022
- [SPARK-39419]
ArraySort
lève une exception lorsque le comparateur renvoie null. - Désactivation de l’utilisation par le chargeur automatique des API cloud intégrées pour dresser la liste des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
- [SPARK-39419]
- 5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers.
- 15 juin 2022
- [SPARK-39283] Correction du blocage entre
TaskMemoryManager
etUnsafeExternalSorter.SpillableIterator
.
- [SPARK-39283] Correction du blocage entre
- 2 juin 2022
- [SPARK-34554] Implémentez la méthode
copy()
dansColumnarMap
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-34554] Implémentez la méthode
- 18 mai 2022
- Correction d’une fuite de mémoire intégrée potentielle dans Auto Loader.
- Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
- [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-39084] Correction
df.rdd.isEmpty()
à l’aide deTaskContext
pour arrêter l’itérateur lors de l’achèvement de la tâche - Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers.
- 6 avril 2022
- [SPARK-38631] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire actif était
/databricks/driver
. - [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180] Autorisation des expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155] Interdiction de tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un parquet.
- Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire actif était
- 14 mars 2022
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table Créer/Modifier sont traités comme relatifs
- [SPARK-34069] Interruption du thread de tâche si la propriété locale
SPARK_JOB_INTERRUPT_ON_CANCEL
a la valeur true.
- 23 février 2022
- [SPARK-37859] Les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec la version Spark 3.2.
- 8 février 2022
- [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un parquet.
- Mises à jour de sécurité du système d’exploitation
- 1er février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janvier 2022
- Correction d’un problème à cause duquel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares.
- Correction d’un problème à cause duquel la commande
OPTIMIZE
pouvait échouer lors de l’activation du dialecte SQL ANSI.
- 19 janvier 2022
- Correctifs mineurs et améliorations de la sécurité.
- Mises à jour de sécurité du système d’exploitation
- 4 novembre 2021
- Correction d’un problème qui pouvait entraîner l’échec des flux Structured Streaming avec
ArrayIndexOutOfBoundsException
. - Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for scheme
ou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfiguration
n’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
- Correction d’un problème qui pouvait entraîner l’échec des flux Structured Streaming avec
- 20 octobre 2021
- Mise à niveau du connecteur BigQuery de la version 0.18.1 à la version 0.22.2. Cela ajoute la prise en charge du type BigNumeric.
Databricks Runtime 13.0 (EoS)
Consultez Databricks Runtime 13.0 (EoS).
13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
- [SPARK-42553][SQL] Vérifiez au moins une unité de temps après l’intervalle.
- [SPARK-45178] Secours pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser wrapper. - [SPARK-44658][CORE]
ShuffleStatus.getMapStatus
retourneNone
au lieu deSome(null)
. - [SPARK-42205][CORE] Supprimez la journalisation des cumulables dans des événements de démarrage de tâche/phase dans
JsonProtocol
. - Mises à jour de sécurité du système d’exploitation
12 septembre 2023
- [SPARK-44485][SQL] Optimise
TreeNode.generateTreeString
. - [SPARK-44718][SQL] Fait correspondre la configuration en mode mémoire par défaut
ColumnVector
à la valeur de configurationOffHeapMemoryMode
. - Divers correctifs de bogues.
- [SPARK-44485][SQL] Optimise
30 août 2023
- [SPARK-44818][Backport] Corrige la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - [SPARK-44714] Réduit les restrictions de la résolution LCA concernant les requêtes.
- [SPARK-44245][PYTHON] Les doctests
pyspark.sql.dataframe sample()
sont désormais uniquement illustratifs. - [SPARK-44871][11.3-13.0][SQL] Corrige le comportement de
percentile_disc
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44818][Backport] Corrige la course pour l’interruption de tâche en attente émise avant l’initialisation de
15 août 2023
- [SPARK-44643][SQL][PYTHON] Correction
Row.__repr__
lorsque la ligne est vide. - [SPARK-44504][Backport] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44479][CONNECT][PYTHON] Correction
protobuf
de la conversion à partir d’un type de structure vide. - [SPARK-44464][SS] Correction
applyInPandasWithStatePythonRunner
des lignes de sortie qui ontNull
comme première valeur de colonne. - Divers correctifs de bogues.
- [SPARK-44643][SQL][PYTHON] Correction
29 juillet 2023
- Correction d’un bogue où
dbutils.fs.ls()
renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé. - [SPARK-44199]
CacheManager
n’actualise plus le fichierfileIndex
inutilement. - Mises à jour de sécurité du système d’exploitation
- Correction d’un bogue où
24 juillet 2023
- [SPARK-44337][PROTOBUF] Correction d’un problème au cours duquel tout champ défini sur
Any.getDefaultInstance
provoquait une erreur d’analyse. - [SPARK-44136] [SS] Correction d’un problème au cours duquel
StateManager
se matérialisait dans un exécuteur au lieu d’un pilote dansFlatMapGroupsWithStateExec
. - Rétablir [SPARK-42323][SQL] Attribuer le nom à
_LEGACY_ERROR_TEMP_2332
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44337][PROTOBUF] Correction d’un problème au cours duquel tout champ défini sur
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- Photonized
approx_count_distinct
. - La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43156][SPARK-43098][SQL] Étendre le test de bogues du nombre de sous-requêtes scalaires avec decorrelateInnerQuery désactivé
- [SPARK-43779][SQL]
ParseToDate
chargeEvalMode
dans le thread principal. - [SPARK-42937][SQL]
PlanSubqueries
doit avoir la valeurInSubqueryExec#shouldBroadcast
sur true - Mises à jour de sécurité du système d’exploitation
- Photonized
2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Améliorez les performances de la mise à jour incrémentielle avec
SHALLOW CLONE
Iceberg et Parquet. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-43404][Rétroportage] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43340][COEUR] Correction du champ de trace de pile manquant dans des journaux d’événements.
- [SPARK-43300][COEUR] Wrapper
NonFateSharingCache
pour le cache Guava. - [SPARK-43378][COEUR] Fermez correctement les objets de flux dans
deserializeFromChunkedBuffer
. - [SPARK-16484][SQL] Utilisez des registres 8 bits pour représenter des DataSketches.
- [SPARK-43522][SQL] Correction de la création d’un nom de colonne struct avec un index du tableau.
- [SPARK-43413][11.3-13.0][SQL] Corrige la sous-requête
IN
de possibilité de valeurs nulles deListQuery
. - [SPARK-43043][COEUR] Performances
MapOutputTracker.updateMapOutput
améliorées. - [SPARK-16484][SQL] Ajout de la prise en charge de DataSketches HllSketch.
- [SPARK-43123][SQL] Les métadonnées de champ interne ne fuient plus vers des catalogues.
- [SPARK-42851][SQL] Protection
EquivalentExpressions.addExpr()
avecsupportedExpression()
. - [SPARK-43336][SQL] Le cast entre
Timestamp
etTimestampNTZ
nécessite un fuseau horaire. - [SPARK-43286][SQL] Mise à jour du mode CBC
aes_encrypt
pour générer des images virtuelles aléatoires. - [SPARK-42852][SQL] Restauration des modifications associées à
NamedLambdaVariable
à partir deEquivalentExpressions
. - [SPARK-43541][SQL] Propagation de toutes les balises
Project
dans la résolution des expressions et des colonnes manquantes. - [SPARK-43527][PYTHON] Résolution de
catalog.listCatalogs
dans PySpark. - Mises à jour de sécurité du système d’exploitation
- L’analyseur JSON en mode
31 mai 2023
- La prise en charge de l’écriture optimisée par défaut pour des tables Delta inscrites dans Unity Catalog a été développée pour inclure des instructions
CTAS
et des opérationsINSERT
pour des tables partitionnés. Ce comportement s’aligne sur des valeurs par défaut sur des entrepôts SQL. Consultez Écritures optimisées pour Delta Lake sur Azure Databricks.
- La prise en charge de l’écriture optimisée par défaut pour des tables Delta inscrites dans Unity Catalog a été développée pour inclure des instructions
17 mai 2023
- Correction d’une régression où
_metadata.file_path
et_metadata.file_name
retournerait des chaînes au format incorrect. Par exemple, un chemin d’accès avec des espaces est désormais représenté commes3://test-bucket/some%20directory/some%20data.csv
étant au lieu des3://test-bucket/some directory/some data.csv
. - Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
-
- Si un fichier Avro a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui ont différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
.
- Si un fichier Avro a été lu uniquement avec l’option
- Auto Loader effectue maintenant les opérations suivantes.
-
- Lit correctement et ne sauve plus les
Integer
types , siShort
Byte
l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne sauve plus les
-
- Empêche la lecture des types d’intervalles en tant que types date ou timestamp pour éviter d’obtenir des dates endommagées.
-
- Empêche la lecture
Decimal
des types avec une précision inférieure.
- Empêche la lecture
- [SPARK-43172] [CONNECT] Expose l’hôte et le jeton du client Spark Connect.
- [SPARK-43293][SQL]
__qualified_access_only
est ignoré dans les colonnes normales. - [SPARK-43098][SQL] Correction d’un bogue d’exactitude lorsque la
COUNT
sous-requête scalaire est regroupée par clause. - [SPARK-43085][SQL] Prise en charge de l’attribution de colonnes
DEFAULT
pour les noms de tables en plusieurs parties. - [SPARK-43190][SQL]
ListQuery.childOutput
est désormais cohérent avec la sortie secondaire. - [SPARK-43192] [CONNECT] Suppression de la validation de l’ensemble de caractères de l’agent utilisateur.
- Correction d’une régression où
25 avril 2023
- Vous pouvez modifier une table Delta pour ajouter la prise en charge d’une fonctionnalité de table Delta à l’aide de
DeltaTable.addFeatureSupport(feature_name)
. - La
SYNC
commande prend désormais en charge les formats de source de données hérités. - Correction d’un bogue dans lequel l’utilisation du formateur Python avant d’exécuter d’autres commandes dans un bloc-notes Python pouvait entraîner l’absence du chemin du bloc-notes dans
sys.path.
- Azure Databricks prend désormais en charge la spécification de valeurs par défaut pour les colonnes de tables Delta.
INSERT
Les commandes ,UPDATE
,DELETE
etMERGE
peuvent faire référence à la valeur par défaut d’une colonne à l’aide de la mot clé expliciteDEFAULT
. PourINSERT
les commandes avec une liste explicite de moins de colonnes que la table cible, les valeurs de colonne par défaut correspondantes sont remplacées par les colonnes restantes (ouNULL
si aucune valeur par défaut n’est spécifiée).
- Vous pouvez modifier une table Delta pour ajouter la prise en charge d’une fonctionnalité de table Delta à l’aide de
Corrige un bogue dans lequel le terminal web ne pouvait pas être utilisé pour accéder aux fichiers dans
/Workspace
pour certains utilisateurs.- Si un fichier Parquet a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui avaient différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Auto Loader lit et ne sauve
Integer
plus correctement les types , siShort
Byte
l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles. - Correction d’un bogue dans lequel l’évolution du schéma Auto Loader peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42794][SS] Augmentez les lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming.
- [SPARK-39221][SQL] Faire en sorte que les informations sensibles soient expurgées correctement pour l’onglet tâche/étape du serveur thrift.
- [SPARK-42971][CORE] Changez pour imprimer
workdir
siappDirs
est null lors de l’événement worker handleWorkDirCleanup
. - [SPARK-42936][SQL] Corrige le bogue LCA lorsque le fait d’avoir une clause peut être résolue directement par son agrégat enfant.
- [SPARK-43018][SQL] Correction d’un bogue pour
INSERT
les commandes avec des littéraux d’horodatage. - Rétablir[SPARK-42754][SQL][UI] Correction du problème de compatibilité descendante dans une exécution SQL imbriquée.
- Rétablir [SPARK-41498] [SC-119018] Propager des métadonnées via Union.
- [SPARK-43038] [SQL] prend en charge le mode GCM par
aes_encrypt()
/aes_decrypt()
. - [SPARK-42928][SQL] Rendre
resolvePersistentFunction
synchronisé. - [SPARK-42521][SQL] Ajoutez des
NULL
valeurs pourINSERT
avec des listes spécifiées par l’utilisateur de moins de colonnes que la table cible. - [SPARK-41391][SQL] Le nom de la colonne de sortie de
groupBy.agg(count_distinct)
était incorrect. - [SPARK-42548][SQL] Ajouter
ReferenceAllColumns
pour ignorer les attributs de réécriture. - [SPARK-42423][SQL] Ajouter le début et la longueur du bloc de fichiers de colonne de métadonnées.
- [SPARK-42796][SQL] Prise en charge de l’accès aux
TimestampNTZ
colonnes dansCachedBatch
. - [SPARK-42266][PYTHON] Supprimer le répertoire parent dans shell.py exécuter quand IPython est utilisé.
- [SPARK-43011][SQL]
array_insert
doit échouer avec 0 index. - [SPARK-41874][CONNECT][PYTHON] Prise en charge
SameSemantics
dans Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Prise en charge de la requête paramétrable dans la sous-requête et la CTE.
- [SPARK-42967][CORE] Correction
SparkListenerTaskStart.stageAttemptId
quand une tâche est démarrée après l’annulation de la phase. - Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet a été lu uniquement avec l’option
Databricks Runtime 12.1 (EoS)
Consultez Databricks Runtime 12.1 (EoS).
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- Photonized
approx_count_distinct
. - La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43779][SQL]
ParseToDate
chargeEvalMode
dans le thread principal. - [SPARK-43156][SPARK-43098][SQL] Étendre le test de bogues du nombre de sous-requêtes scalaires avec decorrelateInnerQuery désactivé
- Mises à jour de sécurité du système d’exploitation
- Photonized
2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Améliorez les performances de la mise à jour incrémentielle avec
SHALLOW CLONE
Iceberg et Parquet. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-43404][Rétroportage] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43413][11.3-13.0][SQL] Corrige la sous-requête
IN
de possibilité de valeurs nulles deListQuery
. - [SPARK-43522][SQL] Correction de la création d’un nom de colonne struct avec un index du tableau.
- [SPARK-42444][PYTHON]
DataFrame.drop
gère désormais correctement des colonnes dupliquées. - [SPARK-43541][SQL] Propagation de toutes les balises
Project
dans la résolution des expressions et des colonnes manquantes. - [SPARK-43340][COEUR] Correction du champ de trace de pile manquant dans des journaux d’événements.
- [SPARK-42937][SQL]
PlanSubqueries
définit maintenant la valeurInSubqueryExec#shouldBroadcast
sur true. - [SPARK-43527][PYTHON] Résolution de
catalog.listCatalogs
dans PySpark. - [SPARK-43378][COEUR] Fermez correctement les objets de flux dans
deserializeFromChunkedBuffer
.
- L’analyseur JSON en mode
17 mai 2023
- Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
- Si un fichier Avro a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui ont différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Auto Loader effectue maintenant les opérations suivantes.
-
- Lit correctement et ne sauve plus les
Integer
types , siShort
Byte
l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne sauve plus les
-
- Empêche la lecture des types d’intervalles en tant que types date ou timestamp pour éviter d’obtenir des dates endommagées.
-
- Empêche la lecture
Decimal
des types avec une précision inférieure.
- Empêche la lecture
- [SPARK-43098][SQL] Correction d’un bogue d’exactitude lorsque la
COUNT
sous-requête scalaire est regroupée par clause. - [SPARK-43190][SQL]
ListQuery.childOutput
est désormais cohérent avec la sortie secondaire. - Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui avaient différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Auto Loader lit et ne sauve
Integer
plus correctement les types , siShort
Byte
l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles. - [SPARK-43009][SQL] Paramétré
sql()
avecAny
des constantes. - [SPARK-42971][CORE] Changez pour imprimer
workdir
siappDirs
est null lors de l’événement worker handleWorkDirCleanup
. - Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet a été lu uniquement avec l’option
11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande SYNC.
- Corrige un bogue dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un dépôt.
- Correction d’un bogue dans lequel l’évolution du schéma Auto Loader peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928][SQL] Rendre
resolvePersistentFunction
synchronisé. - [SPARK-42967][CORE] Correctifs
SparkListenerTaskStart.stageAttemptId
lorsqu’une tâche démarre après l’annulation de la phase. - Mises à jour de sécurité du système d’exploitation
29 mars 2023
- Auto Loader déclenche désormais au moins un journal RocksDB synchrone propre pour les flux afin
Trigger.AvailableNow
de s’assurer que le point de contrôle peut être nettoyé régulièrement pour les flux Auto Loader à exécution rapide. Cela peut prendre plus de temps pour que certains flux ne s’arrêtent, mais vous économiserez des coûts de stockage et améliorerez l’expérience Auto Loader dans les exécutions futures. - Vous pouvez maintenant modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Prise en charge de la requête paramétrable dans la sous-requête et la CTE
- [SPARK-41162][SQL] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON null
- [SPARK-42668][SS] Intercepter une exception lors de la tentative de fermeture du flux compressé dans HDFSStateStoreProvider abandon
- [SPARK-42794][SS] Augmentez les lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming
- Auto Loader déclenche désormais au moins un journal RocksDB synchrone propre pour les flux afin
14 mars 2023
- Il existe un changement de terminologie pour l’ajout de fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe préférée est maintenant
'delta.feature.featureName'='supported'
au lieu de'delta.feature.featureName'='enabled'
. Pour la compatibilité descendante, l’utilisation'delta.feature.featureName'='enabled'
fonctionne toujours et continuera de fonctionner. - [SPARK-42622][CORE] Désactiver la substitution dans les valeurs
- [SPARK-42534][SQL] Correction de la clause de limite DB2Dialect
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-42516][SQL] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
- [SPARK-42484] [SQL] Message d’erreur better UnsafeRowUtils
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales volumineuses
- Mises à jour de sécurité du système d’exploitation
- Il existe un changement de terminologie pour l’ajout de fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe préférée est maintenant
24 février 2023
- Vous pouvez maintenant utiliser un ensemble unifié d’options (
host
, ,port
database
,user
,password
) pour vous connecter aux sources de données prises en charge dans la fédération des requêtes (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez queport
est facultatif et utilise le numéro de port par défaut pour chaque source de données s’il n’est pas fourni.
Exemple de configuration de connexion PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemple de configuration de connexion Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] Éviter d’interrompre la configuration de journalisation de pyspark.pandas
- [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
- [SPARK-41990][SQL] Utiliser
FieldReference.column
au lieu de dans la conversion deapply
filtre v1 en V2 - Rétablir [SPARK-41848][CORE] Correction de la tâche sur-planifiée avec TaskResourceProfile
- [SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour canoniser de grandes arborescences d’expressions commutatives
- Mises à jour de sécurité du système d’exploitation
- Vous pouvez maintenant utiliser un ensemble unifié d’options (
16 février 2023
- La commande SYNC prend en charge la synchronisation des tables de metastore Hive recréées. Si une table HMS a été précédemment synchronisé dans Unity Catalog, puis supprimée et recréée, une resynchronisation ultérieure fonctionne au lieu de lever le code statut TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) pour représenter 0
- [SPARK-36173][CORE] Prise en charge de l’obtention du numéro d’UC dans TaskContext
- [SPARK-41848][CORE] Correction de la tâche sur-planifiée avec TaskResourceProfile
- [SPARK-42286][SQL] Secours vers le chemin de code codegen précédent pour l’expr complexe avec CAST
31 janvier 2023
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose des privilèges SELECT et MODIFY sur ANY FILE.
- [SPARK-41581][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Correction du test Kafka pour vérifier les partitions perdues afin de prendre en compte les opérations Kafka lentes
- [SPARK-41580][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2137
- [SPARK-41666][PYTHON] Prise en charge de SQL paramétré par
sql()
- [SPARK-41579][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Suivi] Correction d’une régression de synchronisation de code pour ConvertToLocalRelation
- [SPARK-41576][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2054
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 12.0 (EoS)
Consultez Databricks Runtime 12.0 (EoS).
15 juin 2023
- Photonized
approx_count_distinct
. - La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43156][SPARK-43098][SQL] Étendre le test de bogues du nombre de sous-requêtes scalaires avec decorrelateInnerQuery désactivé
- [SPARK-43779][SQL]
ParseToDate
chargeEvalMode
dans le thread principal. - Mises à jour de sécurité du système d’exploitation
- Photonized
2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Améliorez les performances de la mise à jour incrémentielle avec
SHALLOW CLONE
Iceberg et Parquet. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-42444][PYTHON]
DataFrame.drop
gère désormais correctement des colonnes dupliquées. - [SPARK-43404][Rétroportage] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43413][11.3-13.0][SQL] Corrige la sous-requête
IN
de possibilité de valeurs nulles deListQuery
. - [SPARK-43527][PYTHON] Résolution de
catalog.listCatalogs
dans PySpark. - [SPARK-43522][SQL] Correction de la création d’un nom de colonne struct avec un index du tableau.
- [SPARK-43541][SQL] Propagation de toutes les balises
Project
dans la résolution des expressions et des colonnes manquantes. - [SPARK-43340][COEUR] Correction du champ de trace de pile manquant dans des journaux d’événements.
- [SPARK-42937][SQL]
PlanSubqueries
doit avoir la valeurInSubqueryExec#shouldBroadcast
définie sur true.
- L’analyseur JSON en mode
17 mai 2023
- Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
- Si un fichier Avro a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui ont différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Auto Loader effectue maintenant les opérations suivantes.
-
- Lit correctement et ne sauve plus les
Integer
types , siShort
Byte
l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne sauve plus les
-
- Empêche la lecture des types d’intervalles en tant que types date ou timestamp pour éviter d’obtenir des dates endommagées.
-
- Empêche la lecture
Decimal
des types avec une précision inférieure.
- Empêche la lecture
- [SPARK-43172] [CONNECT] Expose l’hôte et le jeton du client Spark Connect.
- [SPARK-41520][SQL] Fractionner
AND_OR
le modèle d’arborescence pour séparerAND
etOR
. - [SPARK-43098][SQL] Correction d’un bogue d’exactitude lorsque la
COUNT
sous-requête scalaire est regroupée par clause. - [SPARK-43190][SQL]
ListQuery.childOutput
est désormais cohérent avec la sortie secondaire. - Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui avaient différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Auto Loader lit et ne sauve
Integer
plus correctement les types , siShort
Byte
l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles. - [SPARK-42971][CORE] Changez pour imprimer
workdir
siappDirs
est null lors de l’événement worker handleWorkDirCleanup
- Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet a été lu uniquement avec l’option
11 avril 2023
- Prise en charge des formats de source de données hérités dans la
SYNC
commande. - Corrige un bogue dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un dépôt.
- Correction d’un bogue dans lequel l’évolution du schéma Auto Loader peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928][SQL] Rendre
resolvePersistentFunction
synchronisé. - [SPARK-42967][CORE] Correctifs
SparkListenerTaskStart.stageAttemptId
lorsqu’une tâche démarre après l’annulation de la phase. - Mises à jour de sécurité du système d’exploitation
- Prise en charge des formats de source de données hérités dans la
29 mars 2023
- [SPARK-42794][SS] Augmentez les lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming
- [SPARK-41162][SQL] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON null
- [SPARK-42668][SS] Intercepter une exception lors de la tentative de fermeture du flux compressé dans HDFSStateStoreProvider abandon
- Divers correctifs de bogues.
14 mars 2023
- [SPARK-42534][SQL] Correction de la clause de limite DB2Dialect
- [SPARK-42622][CORE] Désactiver la substitution dans les valeurs
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales volumineuses
- [SPARK-42484] [SQL] Message d’erreur better UnsafeRowUtils
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-42516][SQL] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
- Mises à jour de sécurité du système d’exploitation
24 février 2023
Options de connexion standardisées pour la fédération des requêtes
Vous pouvez maintenant utiliser un ensemble unifié d’options (
host
, ,port
database
,user
,password
) pour vous connecter aux sources de données prises en charge dans la fédération des requêtes (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez queport
est facultatif et utilise le numéro de port par défaut pour chaque source de données s’il n’est pas fourni.Exemple de configuration de connexion PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemple de configuration de connexion Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
Rétablir [SPARK-41848][CORE] Correction de la tâche sur-planifiée avec TaskResourceProfile
[SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour canoniser de grandes arborescences d’expressions commutatives
[SPARK-41990][SQL] Utiliser
FieldReference.column
au lieu de dans la conversion deapply
filtre v1 en V2[SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
Mises à jour de sécurité du système d’exploitation
16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables de metastore Hive recréées. Si une table HMS a été précédemment synchronisé dans Unity Catalog, puis supprimée et recréée, une resynchronisation ultérieure fonctionne au lieu de lever le code statut TABLE_ALREADY_EXISTS.
- [SPARK-36173][CORE] Prise en charge de l’obtention du numéro d’UC dans TaskContext
- [SPARK-42286][SQL] Secours vers le chemin de code codegen précédent pour l’expr complexe avec CAST
- [SPARK-41848][CORE] Correction de la tâche sur-planifiée avec TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) pour représenter 0
25 janvier 2023
- [SPARK-41660][SQL] Propager uniquement les colonnes de métadonnées si elles sont utilisées
- [SPARK-41379][SS][PYTHON] Fournir une session Spark cloné dans DataFrame dans la fonction utilisateur pour le récepteur foreachBatch dans PySpark
- [SPARK-41669][SQL] Taille précoce dans canCollapseExpressions
- Mises à jour de sécurité du système d’exploitation
18 janvier 2023
- La commande SQL
REFRESH FUNCTION
prend désormais en charge les fonctions SQL et les fonctions table SQL. Par exemple, la commande peut être utilisée pour actualiser une fonction SQL persistante qui a été mise à jour dans une autre session SQL. - La source de données JDBC (Java Database Connectivity) v1 prend désormais en charge le pushdown de clause LIMIT pour améliorer les performances dans les requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
surfalse
. - Dans les clusters d’ACL de table héritées, la création de fonctions qui référencent des classes JVM nécessite désormais le privilège
MODIFY_CLASSPATH
. - La source de données JDBC (Java Database Connectivity) v1 prend désormais en charge le pushdown de clause LIMIT pour améliorer les performances dans les requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - Le streaming structuré Spark fonctionne désormais avec format(“deltasharing”) comme source sur une table de partage delta.
- [SPARK-38277] [SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- [SPARK-41733] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle ResolveWindowTime
- [SPARK-39591] [SS] Suivi de progression asynchrone
- [SPARK-41339] [SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41198] [SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41539] [SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-41732] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41199] [SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41261] [PYTHON][SS] Correction du problème pour applyInPandasWithState quand les colonnes de clés de regroupement ne sont pas placées dans l’ordre à partir du plus vieux
- Mises à jour de sécurité du système d’exploitation
- La commande SQL
17 mai 2023
- Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
- Correction d’une régression qui provoquait la persistance des travaux Azure Databricks après l’échec de la connexion au metastore pendant l’initialisation du cluster.
- [SPARK-41520][SQL] Fractionner
AND_OR
le modèle d’arborescence pour séparerAND
etOR
. - [SPARK-43190][SQL]
ListQuery.childOutput
est désormais cohérent avec la sortie secondaire. - Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui avaient différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Auto Loader lit et ne sauve
Integer
plus correctement les types , siShort
Byte
l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles. - [SPARK-42937][SQL]
PlanSubqueries
définit maintenant la valeurInSubqueryExec#shouldBroadcast
sur true. - Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet a été lu uniquement avec l’option
11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande SYNC.
- Corrige un bogue dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un dépôt.
- Correction d’un bogue dans lequel l’évolution du schéma Auto Loader peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928][SQL] Synchroniser resolvePersistentFunction.
- [SPARK-42967][CORE] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
29 mars 2023
- [SPARK-42794][SS] Augmentez les lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON null
- [SPARK-42668][SS] Intercepter une exception lors de la tentative de fermeture du flux compressé dans HDFSStateStoreProvider abandon
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales volumineuses
- [SPARK-42484] [SQL] Message d’erreur better UnsafeRowUtils
- [SPARK-42534][SQL] Correction de la clause de limite DB2Dialect
- [SPARK-41162][SQL] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
- [SPARK-42516][SQL] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
- Divers correctifs de bogues.
Février 28, 2023
Options de connexion standardisées pour la fédération des requêtes
Vous pouvez maintenant utiliser un ensemble unifié d’options (
host
, ,port
database
,user
,password
) pour vous connecter aux sources de données prises en charge dans la fédération des requêtes (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez queport
est facultatif et utilise le numéro de port par défaut pour chaque source de données s’il n’est pas fourni.Exemple de configuration de connexion PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemple de configuration de connexion Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] Secours vers le chemin de code codegen précédent pour l’expr complexe avec CAST
[SPARK-41989][PYTHON] Éviter d’interrompre la configuration de journalisation de pyspark.pandas
[SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
[SPARK-41360][CORE] Éviter la réinscription de BlockManager si l’exécuteur a été perdu
[SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour canoniser de grandes arborescences d’expressions commutatives
[SPARK-41990][SQL] Utiliser
FieldReference.column
au lieu de dans la conversion deapply
filtre v1 en V2Mises à jour de sécurité du système d’exploitation
16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables de metastore Hive recréées. Si une table HMS a été précédemment synchronisé dans Unity Catalog, puis supprimée et recréée, une resynchronisation ultérieure fonctionne au lieu de lever le code statut TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) pour représenter 0
- [SPARK-40382][SQL] Regrouper des expressions d’agrégation distinctes par enfants sémantiquement équivalents dans
RewriteDistinctAggregates
- Mises à jour de sécurité du système d’exploitation
25 janvier 2023
- [SPARK-41379][SS][PYTHON] Fournir une session Spark cloné dans DataFrame dans la fonction utilisateur pour le récepteur foreachBatch dans PySpark
- [SPARK-41660][SQL] Propager uniquement les colonnes de métadonnées si elles sont utilisées
- [SPARK-41669][SQL] Taille précoce dans canCollapseExpressions
- Divers correctifs de bogues.
18 janvier 2023
- La commande SQL
REFRESH FUNCTION
prend désormais en charge les fonctions SQL et les fonctions table SQL. Par exemple, la commande peut être utilisée pour actualiser une fonction SQL persistante qui a été mise à jour dans une autre session SQL. - La source de données JDBC (Java Database Connectivity) v1 prend désormais en charge le pushdown de clause LIMIT pour améliorer les performances dans les requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
surfalse
. - La source de données JDBC (Java Database Connectivity) v1 prend désormais en charge le pushdown de clause LIMIT pour améliorer les performances dans les requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198] [SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41539] [SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-39591] [SS] Suivi de progression asynchrone
- [SPARK-41199] [SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41261] [PYTHON][SS] Correction du problème pour applyInPandasWithState quand les colonnes de clés de regroupement ne sont pas placées dans l’ordre à partir du plus vieux
- [SPARK-41339] [SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277] [SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
- La commande SQL
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
csvignoreleadingwhitespace
, quand est défini surtrue
, supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.csvignoretrailingwhitespace
, quand est défini surtrue
, supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypes
n’a pas été définie ou définie surfalse
) et que le JSON contenait des objets imbriqués. - Mettez à niveau la dépendance
snowflake-jdbc
vers la version 3.13.22. - Les types de tables JDBC sont désormais EXTERNAL par défaut.
- [SPARK-40906][SQL]
Mode
doit copier les clés avant l’insertion dans Map - Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
15 novembre 2022
- Les ACL de table et les clusters partagés UC autorisent désormais la méthode Dataset.toJSON à partir de Python.
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour vous inscrire à l’amélioration du comportement, définissez
spark.sql.json.enablePartialResults
surtrue
. L’indicateur est désactivé par défaut pour conserver le comportement d’origine - [SPARK-40903][SQL] Éviter de réorganiser l’ajout décimal pour la canonicalisation si le type de données est modifié
- [SPARK-40618] [SQL] Correction d’un bogue dans la règle MergeScalarSubqueries avec des sous-requêtes imbriquées à l’aide du suivi des références
- [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- Mises à jour de sécurité du système d’exploitation
1er novembre 2022
- Flux structuré dans Unity Catalog prend désormais en charge l’actualisation des jetons d’accès temporaires. Les charges de travail de streaming qui s’exécutent avec Unity Catalog tous les clusters d’usage ou de travaux n’échouent plus après l’expiration du jeton initial.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - Correction d’un problème où l’exécution
MERGE
et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution dejava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwrites
est activé. - Mise à niveau d’Apache commons-text vers 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Ajout de la prise en charge de la configuration de MetricsLevel CloudWatch
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Correction de NPE dans applyInPandasWithState lorsque le schéma d’entrée a des colonnes « non nullables »
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 11.2 (EoS)
Consultez Databricks Runtime 11.2 (EoS).
- 28 février 2023
- [SPARK-42286][SQL] Secours vers le chemin de code codegen précédent pour l’expr complexe avec CAST
- [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
- Mises à jour de sécurité du système d’exploitation
- 16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables de metastore Hive recréées. Si une table HMS a été précédemment synchronisé dans Unity Catalog, puis supprimée et recréée, une resynchronisation ultérieure fonctionne au lieu de lever le code statut TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) pour représenter 0
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- [SPARK-41379][SS][PYTHON] Fournir une session Spark cloné dans DataFrame dans la fonction utilisateur pour le récepteur foreachBatch dans PySpark
- 18 janvier 2023
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198] [SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41539] [SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-41199] [SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41339] [SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277] [SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
- 29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
csvignoreleadingwhitespace
, quand est défini surtrue
, supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.csvignoretrailingwhitespace
, quand est défini surtrue
, supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypes
n’a pas été définie ou définie surfalse
) et que le JSON contenait des objets imbriqués. - [SPARK-40906][SQL]
Mode
doit copier les clés avant l’insertion dans Map - Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
- 15 novembre 2022
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez
spark.sql.json.enablePartialResults
surtrue
. L’indicateur est désactivé par défaut pour conserver le comportement d’origine - [SPARK-40618] [SQL] Correction d’un bogue dans la règle MergeScalarSubqueries avec des sous-requêtes imbriquées à l’aide du suivi des références
- [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- Mises à jour de sécurité du système d’exploitation
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez
- 1er novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - Correction d’un problème où l’exécution
MERGE
et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution dejava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwrites
est activé - [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- 19 octobre 2022
- Correction d’un problème lié à l’utilisation de COPY INTO avec des informations d’identification temporaires sur des clusters/entrepôts avec Unity Catalog.
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste native pour Auto Loader sur ADLS Gen2. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur DBR 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40315][SQL] Prise en charge de l’URL encode/décodage en tant que fonction intégrée et fonctions liées à l’URL de nettoyage
- [SPARK-40156][SQL]
url_decode()
doit retourner une classe d’erreur - [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
- [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de
_metadata
- [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- [SPARK-40055][SQL] listCatalogs doit également retourner spark_catalog même quand l’implémentation de spark_catalog est defaultSessionCatalog
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40389][SQL] Les décimales ne peuvent pas effectuer un upcast en tant que types intégraux si le cast peut dépasser
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40066][SQL][FOLLOW-UP] Vérification si ElementAt est résolu avant d’obtenir son dataType
- [SPARK-40109][SQL] Nouvelle fonction SQL : get()
- [SPARK-40066][SQL] Mode ANSI : retourne toujours null sur l’accès non valide à la colonne mappée
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-35542][ML] Correctif : Bucketizer créé pour plusieurs colonnes avec des paramètres
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
- [SPARK-39912]SPARK-39828[SQL] Affinage CatalogImpl
Databricks Runtime 11.1 (EoS)
Consultez Databricks Runtime 11.1 (EoS).
31 janvier 2023
- [SPARK-41379][SS][PYTHON] Fournir une session Spark cloné dans DataFrame dans la fonction utilisateur pour le récepteur foreachBatch dans PySpark
- Divers correctifs de bogues.
18 janvier 2023
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198] [SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41199] [SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41339] [SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277] [SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
csvignoreleadingwhitespace
, quand est défini surtrue
, supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.csvignoretrailingwhitespace
, quand est défini surtrue
, supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypes
n’a pas été définie ou définie surfalse
) et que le JSON contenait des objets imbriqués. - [SPARK-39650] [SS] Correction d’un schéma de valeur incorrect dans la déduplication de streaming avec compatibilité descendante
- Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
15 novembre 2022
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée. Lorsqu’une partie d’un enregistrement ne correspond ainsi pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour vous inscrire à l’amélioration du comportement, définissez
spark.sql.json.enablePartialResults
surtrue
. L’indicateur est désactivé par défaut pour conserver le comportement d’origine - Mises à jour de sécurité du système d’exploitation
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée. Lorsqu’une partie d’un enregistrement ne correspond ainsi pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour vous inscrire à l’amélioration du comportement, définissez
1er novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - Correction d’un problème où l’exécution
MERGE
et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution dejava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwrites
est activé - [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Correction d’un problème lié à l’utilisation de COPY INTO avec des informations d’identification temporaires sur des clusters/entrepôts avec Unity Catalog.
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste native pour Auto Loader sur ADLS Gen2. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur DBR 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
- [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de
_metadata
- [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- [SPARK-40055][SQL] listCatalogs doit également retourner spark_catalog même quand l’implémentation de spark_catalog est defaultSessionCatalog
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
6 septembre 2022
- Nous avons mis à jour le modèle d’autorisation dans les contrôles d’accès aux tables afin que seules des autorisations MODIFY soient nécessaires pour modifier le schéma ou les propriétés d’une table avec ALTER TABLE. Auparavant, ces opérations exigeaient qu’un utilisateur soit propriétaire de la table. La propriété est toujours requise pour accorder des autorisations sur une table, et modifier son propriétaire, son emplacement ou son nom. Cette modification rend le modèle d’autorisation pour les listes de contrôle d’accès à la table plus cohérent avec Unity Catalog.
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
- [SPARK-40053][CORE][SQL][TESTS] Ajouter
assume
aux cas d’annulation dynamique nécessitant un environnement de runtime Python - [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
24 août 2022
- Les partages, les fournisseurs et les destinataires prennent désormais en charge les commandes SQL pour modifier les propriétaires, les commentaires, renommer
- [SPARK-39983] [CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39912][SPARK-39828][SQL] Affiner CatalogImpl
- [SPARK-39775] [CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39867][SQL] La limite globale ne doit pas hériter de OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- [SPARK-39839][SQL] Gestion du cas spécial de la décimale de longueur de variable null avec offsetAndSize autre que zéro dans la vérification d’intégrité structurelle UnsafeRow
- [SPARK-39713] [SQL] Mode ANSI : ajouter une suggestion d’utilisation de try_element_at pour l’erreur INVALID_ARRAY_INDEX
- [SPARK-39847] Correction de la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731] [SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
10 août 2022
- Pour des tables Delta avec contrôle d’accès, une évolution automatique du schéma via des instructions DML telles que
INSERT
etMERGE
est désormais disponible pour tous les utilisateurs disposant d’autorisationsMODIFY
sur ces tables. En outre, les autorisations requises pour opérer l’évolution du schéma avecCOPY INTO
sont désormais réduites deOWNER
àMODIFY
pour la cohérence avec d’autres commandes. Ces modifications rendent le modèle de sécurité d’ACL de table plus cohérent avec le modèle de sécurité de Unity Catalog, ainsi qu’avec d’autres opérations telles que le remplacement de table. - [SPARK-39889] Améliorer le message d’erreur de division par 0
- [SPARK-39795] [SQL] Nouvelle fonction SQL : try_to_timestamp
- [SPARK-39749] Toujours utiliser une représentation sous forme de chaîne simple lors du forçage de type de la chaîne décimale en mode ANSI
- [SPARK-39625] Renommer df.as en df.to
- [SPARK-39787] [SQL] Utilisation de la classe d’erreur dans l’erreur d’analyse de la fonction to_timestamp
- [SPARK-39625][SQL] Ajouter Dataset.as(StructType)
- [SPARK-39689]Prise en charge de 2 caractères
lineSep
dans la source de données CSV - [SPARK-39579] [SQL][PYTHON][R] Rendre ListFunctions/getFunctions/functionExists compatible avec l’espace de noms de couche 3
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] [AVRO] Ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39265] [SQL] Corriger l’échec du test lorsque SPARK_ANSI_SQL_MODE est activé
- [SPARK-39441] [SQL] Accélérer DeduplicateRelations
- [SPARK-39497] [SQL] Améliorer l’exception d’analyse de la colonne clé de carte manquante
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-39434] [SQL] Fournir le contexte de requête d’erreur du runtime lorsque l’index de tableau est hors limite
- Pour des tables Delta avec contrôle d’accès, une évolution automatique du schéma via des instructions DML telles que
Databricks Runtime 11.0 (EoS)
Consultez Databricks Runtime 11.0 (EoS).
- 29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
csvignoreleadingwhitespace
, quand est défini surtrue
, supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.csvignoretrailingwhitespace
, quand est défini surtrue
, supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypes
n’a pas été définie ou définie surfalse
) et que le JSON contenait des objets imbriqués. - [SPARK-39650] [SS] Correction d’un schéma de valeur incorrect dans la déduplication de streaming avec compatibilité descendante
- Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
- 15 novembre 2022
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez
spark.sql.json.enablePartialResults
surtrue
. L’indicateur est désactivé par défaut pour conserver le comportement d’origine.
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez
- 1er novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwrites
est activé - [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- 18 octobre 2022
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste native pour Auto Loader sur ADLS Gen2. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur DBR 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
- [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de
_metadata
- [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
- 6 septembre 2022
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
- [SPARK-40053][CORE][SQL][TESTS] Ajouter
assume
aux cas d’annulation dynamique nécessitant un environnement de runtime Python - [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
- 24 août 2022
- [SPARK-39983] [CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775] [CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39867][SQL] La limite globale ne doit pas hériter de OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
- 9 août 2022
- [SPARK-39713] [SQL] Mode ANSI : ajouter une suggestion d’utilisation de try_element_at pour l’erreur INVALID_ARRAY_INDEX
- [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731] [SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- [SPARK-39889] Améliorer le message d’erreur de division par 0
- [SPARK-39795] [SQL] Nouvelle fonction SQL : try_to_timestamp
- [SPARK-39749] Toujours utiliser une représentation sous forme de chaîne simple lors du forçage de type de la chaîne décimale en mode ANSI
- [SPARK-39625] [SQL] Ajouter Dataset.to(StructType)
- [SPARK-39787] [SQL] Utiliser la classe d’erreur dans l’erreur d’analyse de la fonction to_timestamp
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- [SPARK-39689]Prise en charge de 2 caractères
lineSep
dans la source de données CSV - [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39702][CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575][AVRO] ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39497][SQL] Améliorer l’exception d’analyse de la colonne clé de carte manquante
- [SPARK-39441][SQL] Accélérer la dédupliquéeRelations
- [SPARK-39476][SQL] Désactiver l’optimisation du cast d’unwrap lors de la conversion de Long à Float/ Double ou d’Entier à Float
- [SPARK-39434][SQL] Fournir le contexte de requête d’erreur du runtime lorsque l’index de tableau est hors limite
- [SPARK-39570] [WARMFIX][SQL] La table incluse devrait autoriser les expressions avec alias
- Mises à jour de sécurité du système d’exploitation
- [SPARK-39689]Prise en charge de 2 caractères
- 13 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- Correction d’un problème pour la fonction table (TVF) cloud_files_state lors de l’exécution sur des chemins autres que DBFS.
- Désactivation de l’utilisation par le chargeur automatique des API cloud natives pour dresser la liste des répertoires sur Azure.
- [SPARK-38796][SQL] Mise à jour des fonctions to_number et try_to_number pour autoriser une demande de tirage (PR) avec des nombres positifs
- [SPARK-39272][SQL] Augmentation de la position de début du contexte de requête de 1
- [SPARK-39419][SQL] Correction d’ArraySort pour lever une exception lorsque le comparateur retourne null
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- Amélioration des messages d’erreur pour une série de classes d’erreurs.
- [SPARK-39451][SQL] Prise en charge du cast des intervalles en entiers en mode ANSI
- [SPARK-39361] Non-utilisation du modèle de conversion extensible de Log4J2 dans les configurations de journalisation par défaut
- [SPARK-39354][SQL] Affichage de
Table or view not found
même s’il y a desdataTypeMismatchError
relatives àFilter
en même temps - [SPARK-38675][CORE] Correction de la compétition pendant le déverrouillage dans BlockInfoManager
- [SPARK-39392] [SQL] Gestion plus fine des messages d’erreur ANSI pour les conseils de la fonction try_*
- [SPARK-39214] [SQL][3.3] Amélioration des erreurs liées à CAST
- [SPARK-37939] [SQL] Utilisation de classes d’erreurs dans les erreurs d’analyse des propriétés
- [SPARK-39085][SQL] Déplacer le message d’erreur de
INCONSISTENT_BEHAVIOR_CROSS_VERSION
vers error-classes.json - [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 10.5 (EoS)
Voir Databricks Runtime 10.5 (EoS).
- 1er novembre 2022
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
- 18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste native pour Auto Loader sur ADLS Gen2. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur DBR 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- reload4j a été mis à niveau vers la version 1.2.19 pour corriger les vulnérabilités.
- [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de
_metadata
- [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-38404][SQL] Amélioration de la résolution CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- Mises à jour de sécurité du système d’exploitation
- 6 septembre 2022
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
- [SPARK-40053][CORE][SQL][TESTS] Ajouter
assume
aux cas d’annulation dynamique nécessitant un environnement de runtime Python - [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
- 24 août 2022
- [SPARK-39983] [CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775] [CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- [SPARK-37643][SQL] Lorsque charVarcharAsString a la valeur true, pour que la requête de prédicat de type de données char ignore la règle rpadding
- Mises à jour de sécurité du système d’exploitation
- 9 août 2022
- [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731] [SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- [SPARK-39625][SQL] Ajouter Dataset.as(StructType)
- [SPARK-39689]Prise en charge de 2 caractères
lineSep
dans la source de données CSV - [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39570] [WARMFIX][SQL] La table incluse devrait autoriser les expressions avec alias
- [SPARK-39702][CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575][AVRO] ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39476][SQL] Désactiver l’optimisation du cast d’unwrap lors de la conversion de Long à Float/ Double ou d’Entier à Float
- Mises à jour de sécurité du système d’exploitation
- 13 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39355][SQL] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute
- [SPARK-39548][SQL] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
- [SPARK-39419][SQL] Correction d’ArraySort pour lever une exception lorsque le comparateur retourne null
- Désactivation de l’utilisation par le chargeur automatique des API cloud natives pour dresser la liste des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- [SPARK-36718][SQL][FOLLOWUP] Corriger la vérification
isExtractOnly
dans CollapseProject
- 2 juin 2022
- [SPARK-39166][SQL] Fournir le contexte de requête d’erreur d’exécution pour l’arithmétique binaire lorsque WSCG est désactivé
- [SPARK-39093][SQL] Éviter une erreur de compilation codegen lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par une intégrale
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-38868][SQL]Pas de propagation d’exceptions à partir du prédicat de filtre lors de l’optimisation des jointures externes
- [SPARK-38796][SQL] Implémentation des fonctions SQL to_number et try_to_number selon une nouvelle spécification
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-38929] [SQL] Amélioration des messages d’erreur pour les échecs de cast en ANSI
- [SPARK-38926][SQL] Types de sortie dans les messages d’erreur dans le style SQL
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268][SQL] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38908][SQL] Contexte de requête fourni dans l’erreur d’exécution du cast du type String vers Number/Date/Timestamp/Boolean
- [SPARK-39046][SQL] Retour d’une chaîne de contexte vide si TreeNode.origin est mal défini
- [SPARK-38974][SQL] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38762][SQL] Contexte de requête fourni dans les erreurs de dépassement Decimal
- [SPARK-38931][SS] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- [SPARK-38992][CORE] Non utilisation de bash -c dans ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL]Contexte de requête fourni dans l’erreur indiquant que la clé de carte n’existe pas
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- [SPARK-38698][SQL] Contexte de requête fourni dans l’erreur d’exécution de Divide/Div/Reminder/Pmod
- [SPARK-38823][SQL] Fait en sorte que
NewInstance
ne peut pas être plié pour corriger le problème de corruption de tampon d’agrégation - [SPARK-38809][SS] Implémentation de l’option pour ignorer les valeurs Null dans l’implémentation du hachage symétrique des jointures de flux
- [SPARK-38676][SQL] Contexte de requête SQL fourni dans le message d’erreur d’exécution de Add/Substract/Multiply
- [SPARK-38677][PYSPARK] Python MonitorThread doit détecter le blocage en raison des E/S bloquantes
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 10.3 (EoS)
Voir Databricks Runtime 10.3 (EoS).
- 27 juillet 2022
- [SPARK-39689]Prise en charge de 2 caractères
lineSep
dans la source de données CSV - [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39702][CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- Mises à jour de sécurité du système d’exploitation
- [SPARK-39689]Prise en charge de 2 caractères
- 20 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39476][SQL] Désactiver l’optimisation du cast d’unwrap lors de la conversion de Long à Float/ Double ou d’Entier à Float
- [SPARK-39548][SQL] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
- [SPARK-39419][SQL] Correction d’ArraySort pour lever une exception lorsque le comparateur retourne null
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- [SPARK-36718][SQL][FOLLOWUP] Corriger la vérification
isExtractOnly
dans CollapseProject
- 2 juin 2022
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-37593][CORE] Réduction de la taille de page par défaut selon LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisés
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268][SQL] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38974][SQL] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- Mises à jour de sécurité du système d’exploitation
- 4 mai 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
- 19 avril 2022
- [SPARK-38616][SQL] Suivi du texte de requête SQL dans Catalyst TreeNode
- Mises à jour de sécurité du système d’exploitation
- 6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire de travail était
/databricks/driver
. - [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
- Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire de travail était
- 14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
- [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
- 23 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet
Databricks Runtime 10.2 (EoS)
Voir Databricks Runtime 10.2 (EoS).
- 15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- 2 juin 2022
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- [SPARK-38931][SS] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- Mises à jour de sécurité du système d’exploitation
- 4 mai 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
- 19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire de travail était
/databricks/driver
. - [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
- Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire de travail était
- 14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
- [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
- 23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
- 8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet
- Mises à jour de sécurité du système d’exploitation
- 1er février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janvier 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
- 19 janvier 2022
- Introduction de la prise en charge de l’insertion d’informations d’identification temporaires dans COPY INTO pour le chargement des données sources sans nécessiter les autorisations SQL ANY_FILE
- Correctifs de bogues et améliorations de la sécurité
- 20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.
Databricks Runtime 10.1 (EoS)
Voir Databricks Runtime 10.1 (EoS).
- 15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- 2 juin 2022
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- [SPARK-37270][SQL] Correction d’envoi pliable dans des branches CaseWhen si elseValue est vide
- Mises à jour de sécurité du système d’exploitation
- 6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
- 14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
- [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
- 23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
- 8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet
- Mises à jour de sécurité du système d’exploitation
- 1er février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janvier 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
- 19 janvier 2022
- Introduction de la prise en charge de l’insertion d’informations d’identification temporaires dans COPY INTO pour le chargement des données sources sans nécessiter les autorisations SQL ANY_FILE
- Correction d’un problème de mémoire insuffisante avec la mise en cache des résultats des requêtes dans certaines conditions
- Correction d’un problème avec
USE DATABASE
lorsqu’un utilisateur change le catalogue actuel pour un catalogue non défini par défaut - Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
- 20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.
Databricks Runtime 10.0 (EoS)
Voir Databricks Runtime 10.0 (EoS).
- 19 avril 2022
- [SPARK-37270][SQL] Correction d’envoi pliable dans des branches CaseWhen si elseValue est vide
- Mises à jour de sécurité du système d’exploitation
- 6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
- 14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
- [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
- 23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
- 8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet
- [SPARK-36905][SQL] Correction de la lecture des vues d’une ruche sans nom de colonne explicite
- [SPARK-37859][SQL] Correction du problème selon lequel les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec la version 3.2
- Mises à jour de sécurité du système d’exploitation
- 1er février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janvier 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
- 19 janvier 2022
- Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
- 20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.
- 9 novembre 2021
- Introduction d’indicateurs de configuration supplémentaires pour permettre un contrôle affiné des comportements ANSI
- 4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for scheme
ou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfiguration
n’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
- 30 novembre 2021
- Correction d’un problème avec l’analyse des timestamps où une chaîne de fuseau horaire sans deux-points était considérée comme non valide
- Correction d’un problème de mémoire insuffisante avec la mise en cache des résultats des requêtes dans certaines conditions
- Correction d’un problème avec
USE DATABASE
lorsqu’un utilisateur change le catalogue actuel pour un catalogue non défini par défaut
Databricks Runtime 9.0 (EoS)
Consultez Databricks Runtime 9.0 (EoS).
- 8 février 2022
- Mises à jour de sécurité du système d’exploitation
- 1er février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janvier 2022
- Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
- 19 janvier 2022
- Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
- 4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for scheme
ou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfiguration
n’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
- 22 septembre 2021
- Correction d’un bogue dans le tableau Spark de conversion avec NULL en chaîne
- 15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
- 8 septembre 2021
- Ajout de la prise en charge du nom de schéma (format
databaseName.schemaName.tableName
) comme nom de table cible pour le connecteur Azure Synapse - Ajout de la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- [SPARK-33527][SQL] Extension de la fonction de décodage pour être cohérent avec les bases de données classiques
- [SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnected
pour éviterexecutorsconnected
afin de ne pas bloquer l’arrêt des exécuteurs
- Ajout de la prise en charge du nom de schéma (format
- 25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction du lien rompu vers le meilleur notebook d’essai sur la page d’expérience AutoML
Databricks Runtime 8.4 (EoS)
Consultez Databricks Runtime 8.4 (EoS).
- 19 janvier 2022
- Mises à jour de sécurité du système d’exploitation
- 4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for scheme
ou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfiguration
n’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
- 22 septembre 2021
- Le pilote JDBC de Spark a été mis à niveau vers la version 2.6.19.1030
- [SPARK-36734][SQL] Mise à niveau d’ORC vers la version 1.5.1
- 15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Mises à jour de sécurité du système d’exploitation
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
- 8 septembre 2021
- [SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnected
pour éviterexecutorsconnected
afin de ne pas bloquer l’arrêt des exécuteurs
- [SPARK-36532][CORE][3.1] Correction du blocage dans
- 25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction d’un bogue dans le passage des informations d’identification causé par la nouvelle optimisation des prérécupérations de Parquet, où les informations d’identification directes de l’utilisateur peuvent ne pas être trouvées pendant l’accès au fichier
- 11 août 2021
- Corrige un problème d’incompatibilité avec RocksDB qui empêchait l’utilisation de l’ancienne version Databricks Runtime 8.4. Cela corrige la compatibilité ascendante pour les applications Auto Loader,
COPY INTO
et de streaming avec état - Corrige un bogue lors de l’utilisation d’Auto Loader pour lire des fichiers CSV dont les fichiers d’en-tête ne correspondent pas. Si les noms des colonnes ne correspondent pas, la colonne est remplie de valeurs NULL. Désormais, si un schéma est fourni, il suppose que le schéma est le même et n’enregistre les différences de colonnes que si les colonnes de données récupérées sont activées
- Ajoute une nouvelle option appelée
externalDataSource
dans le connecteur Azure Synapse pour supprimer l’exigence d’autorisationCONTROL
sur la base de données pour la lecture de PolyBase
- Corrige un problème d’incompatibilité avec RocksDB qui empêchait l’utilisation de l’ancienne version Databricks Runtime 8.4. Cela corrige la compatibilité ascendante pour les applications Auto Loader,
- 29 juillet 2021
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
Databricks Runtime 8.3 (EoS)
Voir Databricks Runtime 8.3 (EoS).
- 19 janvier 2022
- Mises à jour de sécurité du système d’exploitation
- 4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for scheme
ou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfiguration
n’entrent pas en vigueur dans les requêtes.
- 22 septembre 2021
- Le pilote JDBC de Spark a été mis à niveau vers la version 2.6.19.1030
- 15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Mises à jour de sécurité du système d’exploitation
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
- 8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
- [SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnected
pour éviterexecutorsconnected
afin de ne pas bloquer l’arrêt des exécuteurs
- 25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction d’un bogue dans le passage des informations d’identification causé par la nouvelle optimisation des prérécupérations de Parquet, où les informations d’identification directes de l’utilisateur peuvent ne pas être trouvées pendant l’accès au fichier
- 11 août 2021
- Corrige un bogue lors de l’utilisation d’Auto Loader pour lire des fichiers CSV dont les fichiers d’en-tête ne correspondent pas. Si les noms des colonnes ne correspondent pas, la colonne est remplie de valeurs NULL. Désormais, si un schéma est fourni, il suppose que le schéma est le même et n’enregistre les différences de colonnes que si les colonnes de données récupérées sont activées
- 29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
- 14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Introduction du format
database.schema.table
pour le connecteur Synapse - Ajout d’une prise en charge pour fournir le format
databaseName.schemaName.tableName
comme table cible au lieu de seulementschemaName.tableName
outableName
- 15 juin 2021
- Correction d’un bogue
NoSuchElementException
dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs - Ajoute les commandes SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
etSHOW USERS
Pour plus d’informations, consultez Instructions de sécurité et Instructions d’affichage.
- Correction d’un bogue
Databricks Runtime 8.2 (EoS)
Consultez Databricks Runtime 8.2 (EoS).
22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
- [SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnected
pour éviterexecutorsconnected
afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Introduction du format
database.schema.table
pour le connecteur Synapse - Ajout d’une prise en charge pour fournir le format
databaseName.schemaName.tableName
comme table cible au lieu de seulementschemaName.tableName
outableName
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
15 juin 2021
- Corrige un bogue
NoSuchElementException
dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
- Corrige un bogue
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- Correction d’un problème de mémoire insuffisante lorsqu’Auto Loader rapporte les métriques de progression de Structured Streaming
Databricks Runtime 8.1 (EoS)
Consultez Databricks Runtime 8.1 (EoS).
22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
- [SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnected
pour éviterexecutorsconnected
afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
15 juin 2021
- Corrige un bogue
NoSuchElementException
dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
- Corrige un bogue
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- Correction d’un problème de mémoire insuffisante lorsqu’Auto Loader rapporte les métriques de progression de Structured Streaming
27 avril 2021
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-34856][SQL] Mode ANSI : Autorise le cast de types complexes en type de chaîne
- [SPARK-35014] Corriger le modèle PhysicalAggregation pour ne pas réécrire les expressions pliables
- [SPARK-34769][SQL] AnsiTypeCoercion : renvoie le type convertible le plus étroit parmi TypeCollection
- [SPARK-34614][SQL] Mode ANSI : Le cast d’une valeur Chaîne en Booléenne déclenche une exception en cas d’erreur d’analyse
- [SPARK-33794][SQL] Mode ANSI : Corrige l’expression NextDay pour qu’elle lève l’exception IllegalArgumentException lors de la réception d’une entrée non valide dans le cadre de l’exécution
Databricks Runtime 8.0 (EoS)
Consultez Databricks Runtime 8.0 (EoS).
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
24 mars 2021
- [SPARK-34681][SQL] Corrige le bogue lié à une jointure hachée aléatoire externe complète lors de la création du côté gauche avec une condition non égale
- [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
- [SPARK-34613][SQL] Corrige la vue ne capturant pas la configuration du conseil de désactivation
9 mars 2021
- [SPARK-34543][SQL] Respect de la configuration
spark.sql.caseSensitive
lors de la résolution des spécifications de partition dansSET LOCATION
version 1 - [SPARK-34392][SQL] Prise en charge de ZoneOffset +h:mm dans DateTimeUtils. getZoneId
- [UI] Corrige le lien href de la visualisation DAG de Spark
- [SPARK-34436][SQL] DPP prend en charge l’expression LIKE ANY/ALL
- [SPARK-34543][SQL] Respect de la configuration
Databricks Runtime 7.6 (EoS)
Consultez Databricks Runtime 7.6 (EoS).
- 11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
- 29 juillet 2021
- [SPARK-32998][BUILD] Ajout de la possibilité de remplacer les référentiels distants par défaut par des référentiels internes uniquement
- 14 juillet 2021
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
- 26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
- 30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- 24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
- 9 mars 2021
- (Azure uniquement) Correction d’un bogue lié à Auto Loader pouvant entraîner une exception NullPointerException lors de l’utilisation de Databricks Runtime 7.6 pour exécuter un ancien flux Auto Loader créé dans Databricks Runtime 7.2
- [UI] Corrige le lien href de la visualisation DAG de Spark
- Le SparkPlan de nœud terminal inconnu n’est pas traité correctement dans SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure le schéma de sortie de
SHOW DATABASES
- [Delta] [8.0, 7.6] Correction d’un bogue de calcul dans la logique de réglage automatique de la taille des fichiers
- Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la prise en charge du type char dans les chemins de code non SQL
- Évite un NPE dans DataFrameReader.schema
- Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- Corrige un bogue de lecture de flux fermé dans Azure Auto Loader
- [SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
- 24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui faisait que Spark renvoyait des résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet sont différentes du schéma Spark
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry
. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser - [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-34260][SQL] Correction de UnresolvedException lors de la création d’une vue temporaire à deux reprises
Databricks Runtime 7.5 (EoS)
Voir Databricks Runtime 7.5 (EoS).
- 26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
- 30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- 24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
- 9 mars 2021
- (Azure uniquement) Correction d’un bogue lié à Auto Loader pouvant entraîner une exception NullPointerException lors de l’utilisation de Databricks Runtime 7.5 pour exécuter un ancien flux Auto Loader créé dans Databricks Runtime 7.2
- [UI] Corrige le lien href de la visualisation DAG de Spark
- Le SparkPlan de nœud terminal inconnu n’est pas traité correctement dans SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure le schéma de sortie de
SHOW DATABASES
- Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la prise en charge du type char dans les chemins de code non SQL
- Évite un NPE dans DataFrameReader.schema
- Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- Corrige un bogue de lecture de flux fermé dans Azure Auto Loader
- 24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui faisait que Spark renvoyait des résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet sont différentes du schéma Spark
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry
. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser - [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-34260][SQL] Correction de UnresolvedException lors de la création d’une vue temporaire à deux reprises
- 4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows
. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Introduction de vérifications du temps d’écriture dans le client Hive pour empêcher l’endommagement des métadonnées dans le metastore Hive pour les tables Delta
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
- 20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond)
- Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- 12 janvier 2021
- Mise à niveau du Kit de développement logiciel (SDK) Stockage Azure de la version 2.3.8 à la version 2.3.9
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33480][SQL] Mise à jour du message d’erreur de la vérification de la longueur d’insertion des tables char/varchar
Databricks Runtime 7.3 LTS (EoS)
Voir Databricks Runtime 7.3 LTS (EoS).
10 septembre 2023
- Divers correctifs de bogues.
30 août 2023
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- [SPARK-43413][SQL] Correction de la sous-requête
IN
de la possibilité de valeurs nulles deListQuery
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-43413][SQL] Correction de la sous-requête
2 juin 2023
- Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
17 mai 2023
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Mises à jour de sécurité du système d’exploitation
11 avril 2023
- [SPARK-42967][CORE] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
- Divers correctifs de bogues.
29 mars 2023
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- Divers correctifs de bogues.
Février 28, 2023
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Mises à jour de sécurité du système d’exploitation
31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
18 janvier 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Divers correctifs de bogues.
15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
1er novembre 2022
- [SPARK-38542][SQL] UnsafeHashedRelation doit sérialiser numKeys
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Divers correctifs de bogues.
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
6 septembre 2022
- [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
24 août 2022
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
9 août 2022
- Mises à jour de sécurité du système d’exploitation
27 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
13 juillet 2022
- [SPARK-32680][SQL] Ne pas prétraiter CTAS V2 avec une requête non résolue
- Désactivation de l’utilisation par le chargeur automatique des API cloud natives pour dresser la liste des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
2 juin 2022
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
6 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
14 mars 2022
- Suppression des classes vulnérables du jar de log4j 1.2.17
- Divers correctifs de bogues.
23 février 2022
- [SPARK-37859][SQL] Ne vérifie pas les métadonnées pendant la comparaison des schémas
8 février 2022
- Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
- Mises à jour de sécurité du système d’exploitation
1er février 2022
- Mises à jour de sécurité du système d’exploitation
26 janvier 2022
- Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
19 janvier 2022
- Le canal Conda par défaut est supprimé de la version 7.3 ML LTS
- Mises à jour de sécurité du système d’exploitation
7 décembre 2021
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for scheme
ou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfiguration
n’entrent pas en vigueur dans les requêtes.
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Mises à jour de sécurité du système d’exploitation
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
- [SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnected
pour éviterexecutorsconnected
afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
29 juillet 2021
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
- [SPARK-34508][BUILD] Ignore
HiveExternalCatalogVersionsSuite
si le réseau est en panne
14 juillet 2021
- Introduction du format
database.schema.table
pour le connecteur Azure Synapse - Ajout d’une prise en charge pour fournir le format
databaseName.schemaName.tableName
comme table cible au lieu de seulementschemaName.tableName
outableName
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
- Introduction du format
15 juin 2021
- Corrige un bogue
NoSuchElementException
dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs - Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
- Corrige un bogue
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-35045][SQL] Ajoute une option interne pour contrôler la mémoire tampon d’entrée dans univocity
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
- [SPARK-33118][SQL] CREATE TEMPORARY TABLE échoue avec la localisation
9 mars 2021
- Le pilote Azure Blob File System mis à jour pour Azure Data Lake Storage Gen2 est désormais activé par défaut. Il apporte plusieurs améliorations en matière de stabilité
- Correction du séparateur de chemin sous Windows pour
databricks-connect get-jar-dir
- [UI] Corrige le lien href de la visualisation DAG de Spark
- [DBCONNECT] Ajout de la prise en charge de FlatMapCoGroupsInPandas dans Databricks Connect 7.3
- Restaure le schéma de sortie de
SHOW DATABASES
- [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui faisait que Spark renvoyait des résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet sont différentes du schéma Spark
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry
. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser - [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-33579][UI] Correction de la page blanche de l’exécuteur derrière un proxy
- [SPARK-20044][UI] Prise en charge de l’interface utilisateur Spark derrière le proxy inverse frontal à l’aide d’un préfixe de chemin d’accès
- [SPARK-33277][PYSPARK][SQL] Utilise ContextAwareIterator pour arrêter la consommation après la fin de la tâche
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows
. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond)
- Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33592][ML][PYTHON] Les paramètres du validateur ML de Pyspark dans estimatorParamMaps peuvent être perdus après enregistrement et rechargement
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-33587][CORE] Tuer l’exécuteur en cas d’erreurs irrécupérables imbriquées
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33316][SQL] Prise en charge du schéma Avro pouvant accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique ne pouvant pas accepter la valeur Null dans l’écriture Avro
- Les travaux Spark lancés à l’aide de Databricks Connecter peuvent se bloquer indéfiniment avec
Executor$TaskRunner.$anonfun$copySessionState
dans la trace de l’exécuteur - Mises à jour de sécurité du système d’exploitation
1 décembre 2020
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
5 novembre 2020
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne
UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie lorsque le lecteur Avro lit les octets MAGIC
- Ajout de la prise en charge du privilège USAGE
- Amélioration des performances pour la vérification des privilèges dans le contrôle d’accès aux tables
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- Vous pouvez lire et écrire à partir de DBFS à l’aide du montage FUSE au niveau de /dbfs/ lorsque vous êtes sur un cluster à forte concurrence et dont le passage des informations d’identification est activé. Les montages ordinaires sont pris en charge, mais les montages nécessitant des informations d’identification directes ne le sont pas encore
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- [SPARK-32585][SQL] Prise en charge de l’énumération scala dans ScalaReflection
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-32718][SQL] Suppression des mots clés inutiles pour les unités d’intervalle
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration
spark.shuffle.io.decoder.consolidateThreshold
. Définissez la valeur de configuration surLong.MAX_VALUE
pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêchejava.lang.IndexOutOfBoundsException
dans les cas particuliers
25 avril 2023
- Mises à jour de sécurité du système d’exploitation
11 avril 2023
- Divers correctifs de bogues.
29 mars 2023
- Divers correctifs de bogues.
14 mars 2023
- Mises à jour de sécurité du système d’exploitation
Février 28, 2023
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Mises à jour de sécurité du système d’exploitation
31 janvier 2023
- Divers correctifs de bogues.
18 janvier 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
1er novembre 2022
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 24 août 2022
- Mises à jour de sécurité du système d’exploitation
- 9 août 2022
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- 2 juin 2022
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 6 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 14 mars 2022
- Divers correctifs de bogues.
- 23 février 2022
- Divers correctifs de bogues.
- 8 février 2022
- Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
- Mises à jour de sécurité du système d’exploitation
- 1er février 2022
- Mises à jour de sécurité du système d’exploitation
- 19 janvier 2022
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
- 30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- 12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- 8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- Mises à jour de sécurité du système d’exploitation
- 1 décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- 3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- 13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 6.4 Support étendu (EoS)
Voir Databricks Runtime 6.4 (EoS) et Databricks Runtime 6.4 Support étendu (EoS).
5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
2 juin 2022
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Mises à jour de sécurité du système d’exploitation
19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
6 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
14 mars 2022
- Suppression des classes vulnérables du jar de log4j 1.2.17
- Divers correctifs de bogues.
23 février 2022
- Divers correctifs de bogues.
8 février 2022
- Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
- Mises à jour de sécurité du système d’exploitation
1er février 2022
- Mises à jour de sécurité du système d’exploitation
26 janvier 2022
- Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
19 janvier 2022
- Mises à jour de sécurité du système d’exploitation
8 décembre 2021
- Mises à jour de sécurité du système d’exploitation
22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
15 juin 2021
- [SPARK-35576][SQL] Suppression des informations sensibles dans le résultat de la commande Set
7 juin 2021
- Ajout d’une nouvelle configuration appelée
spark.sql.maven.additionalRemoteRepositories
, une configuration de chaîne délimitée par des virgules du miroir Maven distant supplémentaire facultatif. La valeur esthttps://maven-central.storage-download.googleapis.com/maven2/
par défaut
- Ajout d’une nouvelle configuration appelée
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
9 mars 2021
- Portage de HADOOP-17215 au pilote Azure Blob File System (prise en charge du remplacement conditionnel)
- Correction du séparateur de chemin sous Windows pour
databricks-connect get-jar-dir
- Ajout de la prise en charge des versions 2.3.5, 2.3.6 et 2.3.7 du metastore Hive
- La flèche « totalResultsCollected » a été signalée de manière incorrecte après le déversement
24 février 2021
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry
. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
- Introduction d’une nouvelle configuration
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows
. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [Runtime 6.4 ML GPU] Nous avons précédemment installé une version incorrecte (2.7.8-1+cuda11.1) de NCCL. Cette version la corrige en 2.4.8-1+cuda10.0 qui est compatible avec CUDA 10.0
- Mises à jour de sécurité du système d’exploitation
1 décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable
3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
24 septembre 2020
- Correction d’une limitation précédente où la connexion directe sur un cluster standard restreignait toujours l’utilisation de l’implémentation du système de fichiers. Désormais, les utilisateurs peuvent accéder aux systèmes de fichiers locaux sans aucune restriction.
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength
. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength)
. Il peut être défini en utilisant.option("maxbinlength", n)
, où 0 < n <= 8000 - Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation
7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1
) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
10 mars 2020
- La mise à l’échelle automatique optimisée est désormais utilisée par défaut sur les clusters interactifs du plan de sécurité.
- Le connecteur Snowflake (
spark-snowflake_2.11
) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbc
est mis à jour vers la version 3.12.0
Databricks Runtime 5.5 LTS (EoS)
Voir Databricks Runtime 5.5 LTS (EoS) et Databricks Runtime 5.5 Support étendu (EoS).
8 décembre 2021
- Mises à jour de sécurité du système d’exploitation
22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
25 août 2021
- Passage à une version antérieure de certains packages Python précédemment mis à niveau dans la version 5.5 ML Support étendu afin de maintenir une meilleure parité avec la version 5.5 ML LTS (désormais déconseillée). Voir [_]/release-notes/runtime/5.5xml.md) pour connaître les différences mises à jour entre les deux versions
15 juin 2021
- [SPARK-35576][SQL] Suppression des informations sensibles dans le résultat de la commande Set
7 juin 2021
- Ajout d’une nouvelle configuration appelée
spark.sql.maven.additionalRemoteRepositories
, une configuration de chaîne délimitée par des virgules du miroir Maven distant supplémentaire facultatif. La valeur esthttps://maven-central.storage-download.googleapis.com/maven2/
par défaut
- Ajout d’une nouvelle configuration appelée
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
9 mars 2021
- Portage de HADOOP-17215 au pilote Azure Blob File System (prise en charge du remplacement conditionnel)
24 février 2021
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry
. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
- Introduction d’une nouvelle configuration
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- Correctif pour [HADOOP-17130]
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- Mises à jour de sécurité du système d’exploitation
1 décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable
29 octobre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
24 septembre 2020
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength
. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength)
. Il peut être défini en utilisant.option("maxbinlength", n)
, où 0 < n <= 8000
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
3 août 2020
- Mises à jour de sécurité du système d’exploitation
7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1
) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
25 mars 2020
- Le connecteur Snowflake (
spark-snowflake_2.11
) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbc
est mis à jour vers la version 3.12.0
- Le connecteur Snowflake (
10 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
spark.databricks.driver.disableScalaOutput
surtrue
. Par défaut, la valeur de l’indicateur estfalse
. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données qui sont écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
- La version de R a involontairement été mise à niveau de la version 3.6.0 vers la version 3.6.1. Nous l’avons rétablie à la version 3.6.0.
5 novembre 2019
- Mise à jour de Java de la version 1.8.0_212 vers la version 1.8.0_222
23 octobre 2019
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la version 2.6.10 du pilote ODBC Apache Spark de Simba)
- Correction d’un problème concernant l’utilisation de la commande
Optimize
avec des clusters dont la liste de contrôle d’accès des tables est activée. - Correction d’un problème où les bibliothèques
pyspark.ml
échouaient en raison d’une erreur UDF Scala interdite sur les clusters dont la liste de contrôle d’accès des tables et le passage des informations d’identification sont activés - Les méthodes SerDe et SerDeUtil ont été ajoutées à une liste d’autorisation pour le passage des informations d’identification
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
24 septembre 2019
- Amélioration de la stabilité de l’enregistreur Parquet
- Correction du problème où la requête Thrift annulée avant qu’elle ne commence à s’exécuter peut rester bloquée à l’état DÉMARRÉ
10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- [SPARK-27992][SPARK-28881] Permet à Python de se joindre au thread de connexion pour propager les erreurs
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- Amélioration de la suppression des informations d’identification
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642] Masque les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
27 août 2019
- [SPARK-20906][SQL] Autorise le schéma spécifié par l’utilisateur dans l’API to_avro avec le registre de schémas
- [SPARK-27838][SQL] Prise en charge d’un schéma Avro ne pouvant pas accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique pouvant accepter la valeur Null sans enregistrement Null
- Amélioration apportée au voyage dans le temps Delta Lake
- Correction d’un problème concernant certaines expressions
transform
- Prend en charge les variables de diffusion lorsque l’isolement des processus est activé
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28260] Ajout de l’état FERMÉ à ExecutionState
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
- [SPARK-28355][CORE][PYTHON] Utilise la configuration Spark pour le seuil auquel l’UDF est compressée par diffusion
Databricks Light 2.4 Support étendu
Voir Databricks Light 2.4 (EoS) et Databricks Light 2.4 Support étendu (EoS).
Databricks Runtime 7.4 (EoS)
Consultez Databricks Runtime 7.4 (EoS).
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-35045][SQL] Ajoute une option interne pour contrôler la mémoire tampon d’entrée dans univocity et une configuration pour la taille de la mémoire tampon d’entrée CSV
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
9 mars 2021
- Le pilote Azure Blob File System mis à jour pour Azure Data Lake Storage Gen2 est désormais activé par défaut. Il apporte plusieurs améliorations en matière de stabilité
- [ES-67926][UI] Corrige le lien href de la visualisation DAG de Spark
- [ES-65064] Restaure le schéma de sortie de
SHOW DATABASES
- [SC-70522][SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- [SC-35081] Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SC-70640] Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- [SC-70220][SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui faisait que Spark renvoyait des résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet sont différentes du schéma Spark
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry
. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser - [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-33579][UI] Correction de la page blanche de l’exécuteur derrière un proxy
- [SPARK-20044][UI] Prise en charge de l’interface utilisateur Spark derrière le proxy inverse frontal à l’aide d’un préfixe de chemin d’accès
- [SPARK-33277][PYSPARK][SQL] Utilise ContextAwareIterator pour arrêter la consommation après la fin de la tâche
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows
. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond)
- Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-33587][CORE] Tuer l’exécuteur en cas d’erreurs irrécupérables imbriquées
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33316][SQL] Prise en charge du schéma Avro pouvant accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique ne pouvant pas accepter la valeur Null dans l’écriture Avro
- Mises à jour de sécurité du système d’exploitation
1 décembre 2020
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-33272][SQL] Nettoie le mappage des attributs dans QueryPlan.transformUpWithNewOutput
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
Databricks Runtime 7.2 (EoS)
Consultez Databricks Runtime 7.2 (EoS).
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows
. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond)
- Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33404][SQL] Correction des résultats incorrects dans l’expression
date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- Mises à jour de sécurité du système d’exploitation
1 décembre 2020
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration
spark.shuffle.io.decoder.consolidateThreshold
. Définissez la valeur de configuration surLong.MAX_VALUE
pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêchejava.lang.IndexOutOfBoundsException
dans les cas particuliers
24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength
. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength)
. Il peut être défini en utilisant.option("maxbinlength", n)
, où 0 < n <= 8000
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
Databricks Runtime 7.1 (EoS)
Consultez Databricks Runtime 7.1 (EoS).
4 février 2021
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond)
- Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- Les travaux Spark lancés à l’aide de Databricks Connecter peuvent se bloquer indéfiniment avec
Executor$TaskRunner.$anonfun$copySessionState
dans la trace de l’exécuteur - Mises à jour de sécurité du système d’exploitation
1 décembre 2020
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration
spark.shuffle.io.decoder.consolidateThreshold
. Définissez la valeur de configuration surLong.MAX_VALUE
pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêchejava.lang.IndexOutOfBoundsException
dans les cas particuliers
24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength
. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength)
. Il peut être défini en utilisant.option("maxbinlength", n)
, où 0 < n <= 8000
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
25 août 2020
- [SPARK-32159][SQL] Correction de l’intégration entre
Aggregator[Array[_], _, _]
etUnresolvedMapObjects
- [SPARK-32559][SQL] Correction de la logique de découpage dans
UTF8String.toInt/toLong
, qui ne gérait pas correctement les caractères autres qu’ASCII - [SPARK-32543][R] Supprime l’utilisation de
arrow::as_tibble
dans SparkR - [SPARK-32091][CORE] Ignore l’erreur de dépassement de délai lors de la suppression de blocs sur l’exécuteur perdu
- Correction d’un problème concernant le connecteur Azure Synapse avec les informations d’identification MSI
- Correction de la résolution des attributs ambigus dans l’auto-fusion
- [SPARK-32159][SQL] Correction de l’intégration entre
18 août 2020
- [SPARK-32594][SQL] Correction de la sérialisation des dates insérées dans les tables Hive
- [SPARK-32237][SQL] Résout le conseil dans une expression de table commune
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- [SPARK-32467][UI] Évite d’encoder deux fois l’URL lors d’une redirection HTTPS
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight doit uniquement réécrire les attributs des nœuds ancêtres du plan en conflit
- [SPARK-32234][SQL] Les commandes SQL Spark échouent lors de la sélection des tables ORC
3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
Databricks Runtime 7.0 (EoS)
Consultez Databricks Runtime 7.0.
4 février 2021
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond)
- Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33404][SQL] Correction des résultats incorrects dans l’expression
date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- Mises à jour de sécurité du système d’exploitation
1 décembre 2020
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration
spark.shuffle.io.decoder.consolidateThreshold
. Définissez la valeur de configuration surLong.MAX_VALUE
pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêchejava.lang.IndexOutOfBoundsException
dans les cas particuliers
24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength
. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength)
. Il peut être défini en utilisant.option("maxbinlength", n)
, où 0 < n <= 8000
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
25 août 2020
- [SPARK-32159][SQL] Correction de l’intégration entre
Aggregator[Array[_], _, _]
etUnresolvedMapObjects
- [SPARK-32559][SQL] Correction de la logique de découpage dans
UTF8String.toInt/toLong
, qui ne gérait pas correctement les caractères autres qu’ASCII - [SPARK-32543][R] Supprime l’utilisation de
arrow::as_tibble
dans SparkR - [SPARK-32091][CORE] Ignore l’erreur de dépassement de délai lors de la suppression de blocs sur l’exécuteur perdu
- Correction d’un problème concernant le connecteur Azure Synapse avec les informations d’identification MSI
- Correction de la résolution des attributs ambigus dans l’auto-fusion
- [SPARK-32159][SQL] Correction de l’intégration entre
18 août 2020
- [SPARK-32594][SQL] Correction de la sérialisation des dates insérées dans les tables Hive
- [SPARK-32237][SQL] Résout le conseil dans une expression de table commune
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- [SPARK-32467][UI] Évite d’encoder deux fois l’URL lors d’une redirection HTTPS
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight doit uniquement réécrire les attributs des nœuds ancêtres du plan en conflit
- [SPARK-32234][SQL] Les commandes SQL Spark échouent lors de la sélection des tables ORC
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
Databricks Runtime 6.6 (EoS)
Consultez Databricks Runtime 6.6 (EoS).
1 décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable
3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
24 septembre 2020
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength
. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength)
. Il peut être défini en utilisant.option("maxbinlength", n)
, où 0 < n <= 8000 - Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
- [SPARK-31967][UI] Rétablit la version 4.21.0 de vis.js pour corriger la régression du temps de chargement de l’interface utilisateur Travaux
3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 6.5 (EoS)
Consultez Databricks Runtime 6.5 (EoS).
- 24 septembre 2020
- Correction d’une limitation précédente où la connexion directe sur un cluster standard restreignait toujours l’utilisation de l’implémentation du système de fichiers. Désormais, les utilisateurs peuvent accéder aux systèmes de fichiers locaux sans aucune restriction.
- Mises à jour de sécurité du système d’exploitation
- 8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength
. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength)
. Il peut être défini en utilisant.option("maxbinlength", n)
, où 0 < n <= 8000 - Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
- 25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
- 18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
- 11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
- 3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation
- 7 juillet 2020
- Mise à jour de Java de la version 1.8.0_242 vers la version 1.8.0_252
- 21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
Databricks Runtime 6.3 (EoS)
Consultez Databricks Runtime 6.3 (EoS).
- 7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
- 21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
- 7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1
) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
- 10 mars 2020
- Le connecteur Snowflake (
spark-snowflake_2.11
) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbc
est mis à jour vers la version 3.12.0
- Le connecteur Snowflake (
- 18 février 2020
- Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
- 11 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- [SPARK-30447][SQL] Problème constant de possibilité de valeur NULL dans la propagation
- [SPARK-28152][SQL] Ajouter une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
- Ajout de la fonction overwrite à une liste d’autorisation afin que l’élément « MLModels étend MLWriter » puisse appeler la fonction
Databricks Runtime 6.2 (EoS)
Consultez Databricks Runtime 6.2 (EoS).
- 21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
- 7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1
) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
- 25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
spark.databricks.driver.disableScalaOutput
surtrue
. Par défaut, la valeur de l’indicateur estfalse
. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données qui sont écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
- 10 mars 2020
- Le connecteur Snowflake (
spark-snowflake_2.11
) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbc
est mis à jour vers la version 3.12.0
- Le connecteur Snowflake (
- 18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
- 28 janvier 2020
- Ajout de la fonction overwrite de ML Model Writers pour les clusters activés pour le passage des informations d’identification, afin que la sauvegarde des modèles puisse utiliser le mode de remplacement sur les clusters avec passage des informations d’identification
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
- 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
- 10 décembre 2019
- [SPARK-29904][SQL] Analyse des timestamps avec une précision de l’ordre de la microseconde par des sources de données JSON/CSV
Databricks Runtime 6.1 (EoS)
Consultez Databricks Runtime 6.1 (EoS).
- 7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1
) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
- 25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
spark.databricks.driver.disableScalaOutput
surtrue
. Par défaut, la valeur de l’indicateur estfalse
. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données qui sont écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
- 10 mars 2020
- Le connecteur Snowflake (
spark-snowflake_2.11
) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbc
est mis à jour vers la version 3.12.0
- Le connecteur Snowflake (
- 18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
- 28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
- 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
- 7 novembre 2019
- [SPARK-29743][SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
- Secrets référencés à partir des propriétés de configuration et des variables d’environnement de Spark dans la Préversion publique. Voir Utiliser un secret dans une propriété de configuration ou une variable d’environnement Spark.
- 5 novembre 2019
- Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant
//
dans son chemin - [SPARK-29081] Remplace les appels à SerializationUtils.clone sur les propriétés par une implémentation plus rapide
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
- (6.1 ML) La bibliothèque mkl version 2019.4 a été installée par inadvertance. Nous l’avons rétablie à la version 2019.3 de mkl pour qu’elle corresponde à Anaconda Distribution 2019.03
- Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant
Databricks Runtime 6.0 (EoS)
Consultez Databricks Runtime 6.0 (EoS).
- 25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
spark.databricks.driver.disableScalaOutput
surtrue
. Par défaut, la valeur de l’indicateur estfalse
. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données qui sont écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
- 18 février 2020
- Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
- 11 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- 28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
- 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
- 19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
- 5 novembre 2019
dbutils.tensorboard.start()
prend désormais en charge TensorBoard 2.0 (s’il est installé manuellement).- Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant
//
dans son chemin - [SPARK-29081] Remplace les appels à SerializationUtils.clone sur les propriétés par une implémentation plus rapide
- 23 octobre 2019
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
- 8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la version 2.6.10 du pilote ODBC Apache Spark de Simba)
- Correction d’un problème concernant l’utilisation de la commande
Optimize
avec des clusters dont la liste de contrôle d’accès des tables est activée. - Correction d’un problème où les bibliothèques
pyspark.ml
échouaient en raison d’une erreur UDF Scala interdite sur les clusters dont la liste de contrôle d’accès des tables et le passage des informations d’identification sont activés - Les méthodes SerDe/SerDeUtil ont été ajoutées à une liste d’autorisation pour le passage des informations d’identification
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
- Correction du problème où les informations d’identification de l’utilisateur n’étaient pas transférées aux travaux créés par
dbutils.notebook.run()
Databricks Runtime 5.4 ML (EoS)
Consultez Databricks Runtime 5.4 pour ML (EoS).
- 18 juin 2019
- Amélioration de la gestion des exécutions actives de MLflow dans l’intégration de Hyperopt
- Amélioration des messages dans Hyperopt
- Mise à jour du package
Marchkdown
de la version 3.1 vers la version 3.1.1
Databricks Runtime 5.4 (EoS)
Consultez Databricks Runtime 5.4 (EoS).
- 19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
- 8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
- 10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642] Masque les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
- 27 août 2019
- Correction d’un problème concernant certaines expressions
transform
- Correction d’un problème concernant certaines expressions
- 13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
- 30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
- 2 juillet 2019
- Mise à jour de snappy-java de la version 1.1.7.1 vers la version 1.1.7.3
- 18 juin 2019
- Amélioration de la gestion des exécutions actives de MLflow dans l’intégration de MLlib
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
Databricks Runtime 5.3 (EoS)
Consultez Databricks Runtime 5.3 (EoS).
- 7 novembre 2019
- [SPARK-29743][SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
- 8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
- 10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642] Masque les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
- 27 août 2019
- Correction d’un problème concernant certaines expressions
transform
- Correction d’un problème concernant certaines expressions
- 13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
- 30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
- 18 juin 2019
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
- 28 mai 2019
- Amélioration de la stabilité de Delta
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
- Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
- 7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage Gen2
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage Gen2
- Correction d’un bogue concernant les listes de contrôle d’accès des tables
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- S’assure que la mise en cache n’est pas désactivée lorsque les listes de contrôle d’accès des tables sont activées
- [SPARK-27494][SS] Les clés/valeurs NULL ne fonctionnent pas dans une source Kafka v2
- [SPARK-27446][R] Utilise la configuration Spark existante si elle est disponible
- [SPARK-27454][SPARK-27454][ML][SQL] Échec de la source de données d’images Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][SQL] Correction de DecimalType lors de la création de filtres orc
- [SPARK-27338][CORE] Correction d’un blocage entre UnsafeExternalSorter et TaskMemoryManager
Databricks Runtime 5.2 (EoS)
Consultez Databricks Runtime 5.2 (EoS).
- 10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642] Masque les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
- 27 août 2019
- Correction d’un problème concernant certaines expressions
transform
- Correction d’un problème concernant certaines expressions
- 13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
- 30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
- 2 juillet 2019
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
- 18 juin 2019
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
- 28 mai 2019
- Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
- 7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage Gen2
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage Gen2
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- S’assure que la mise en cache n’est pas désactivée lorsque les listes de contrôle d’accès des tables sont activées
- [SPARK-27494][SS] Les clés/valeurs NULL ne fonctionnent pas dans une source Kafka v2
- [SPARK-27454][SPARK-27454][ML][SQL] Échec de la source de données d’images Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][SQL] Correction de DecimalType lors de la création de filtres orc
- [SPARK-27338][CORE] Correction d’un blocage entre UnsafeExternalSorter et TaskMemoryManager
- 26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- [SPARK-26665][CORE] Correction d’un bogue qui fait que BlockTransferService.fetchBlockSync peut se bloquer indéfiniment
- [SPARK-27134][SQL] La fonction array_distinct ne fonctionne pas correctement avec des colonnes contenant un tableau de tableau
- [SPARK-24669][SQL] Invalide les tables en cas de DROP DATABASE CASCADE
- [SPARK-26572][SQL] Correction de l’évaluation des résultats de l’agrégat de codegen
- Correction d’un bogue touchant certaines UDF Python
- 26 février 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
- [SPARK-26887][PYTHON] Crée datetime.date directement au lieu de créer datetime64 comme donnée intermédiaire
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Correction d’un bogue touchant PySpark
- Exclut les fichiers cachés lors de la génération de HadoopRDD
- Correction d’un bogue dans Delta qui causait des problèmes de sérialisation
- 12 février 2019
- Correction d’un problème concernant l’utilisation de Delta avec des points de montage Azure ADLS Gen2
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabled
est défini sur true)
- 30 janvier 2019
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
- [SPARK-26706][SQL] Correction de
illegalNumericPrecedence
pour ByteType - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Les sources de données CSV/JSON doivent éviter les chemins d’accès de globbing lors de l’inférence du schéma
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème concernant l’installation de bibliothèques egg avec des clusters dont la liste de contrôle d’accès des tables est activée
Databricks Runtime 5.1 (EoS)
Consultez Databricks Runtime 5.1 (EoS).
- 13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
- 30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
- 2 juillet 2019
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
- 18 juin 2019
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
- 28 mai 2019
- Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
- 7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage Gen2
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage Gen2
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- [SPARK-27494][SS] Les clés/valeurs NULL ne fonctionnent pas dans une source Kafka v2
- [SPARK-27454][SPARK-27454][ML][SQL] Échec de la source de données d’images Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][SQL] Correction de DecimalType lors de la création de filtres orc
- [SPARK-27338][CORE] Correction d’un blocage entre UnsafeExternalSorter et TaskMemoryManager
- 26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- Correction d’un bogue touchant certaines UDF Python
- 26 février 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Exclut les fichiers cachés lors de la génération de HadoopRDD
- 12 février 2019
- Correction d’un problème concernant l’installation de bibliothèques egg avec des clusters dont la liste de contrôle d’accès des tables est activée
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
- [SPARK-26706][SQL] Correction de
illegalNumericPrecedence
pour ByteType - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabled
est défini sur true)
- 30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()
avec UDT à renvoyer une réponse incorrecte dans certains cas - Correction d’un problème concernant l’installation de répertoires wheelhouse
- [SPARK-26267] Nouvelle tentative lors de la détection de décalages incorrects provenant de Kafka
- Correction d’un bogue concernant plusieurs sources de flux de fichiers dans une requête de streaming
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
- Correction d’un problème pouvant amener
- 8 janvier 2019
- Correction du problème à l’origine de l’erreur
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
- [SPARK-26352] La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie
- [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Amélioration de la stabilité de Delta Lake
- Delta Lake est activé
- Correction du problème qui provoquait l’échec de l’accès à Azure Data Lake Storage Gen2 lorsque le transfert direct des informations d’identification de Microsoft Entra ID est activé pour Azure Data Lake Storage Gen1.
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
- Correction du problème à l’origine de l’erreur
Databricks Runtime 5.0 (EoS)
Consultez Databricks Runtime 5.0 (EoS).
- 18 juin 2019
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- 7 mai 2019
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- [SPARK-27494][SS] Les clés/valeurs NULL ne fonctionnent pas dans une source Kafka v2
- [SPARK-27454][SPARK-27454][ML][SQL] Échec de la source de données d’images Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][SQL] Correction de DecimalType lors de la création de filtres orc
- [SPARK-27338][CORE] Correction d’un blocage entre UnsafeExternalSorter et TaskMemoryManager
- 26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- Correction d’un bogue touchant certaines UDF Python
- 12 mars 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
- 26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Exclut les fichiers cachés lors de la génération de HadoopRDD
- 12 février 2019
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
- [SPARK-26706][SQL] Correction de
illegalNumericPrecedence
pour ByteType - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabled
est défini sur true)
- 30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()
avec UDT à renvoyer une réponse incorrecte dans certains cas - [SPARK-26267] Nouvelle tentative lors de la détection de décalages incorrects provenant de Kafka
- Correction d’un bogue concernant plusieurs sources de flux de fichiers dans une requête de streaming
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
- Correction d’un problème pouvant amener
- 8 janvier 2019
- Correction du problème à l’origine de l’erreur
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
- [SPARK-26352] La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie
- [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Amélioration de la stabilité de Delta Lake
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
- Correction du problème à l’origine de l’erreur
- 18 décembre 2018
- [SPARK-26293] Exception de cast lors de la présence d’une UDF Python dans une sous-requête
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
- 6 décembre 2018
- Correction d’un problème qui provoquait un résultat de requête incorrect lors de l’utilisation d’orderBy, suivi immédiatement de groupBy avec la clé group-by comme partie de début de la clé sort-by
- Mise à niveau du connecteur Snowflake pour Spark de la version 2.4.9.2-spark_2.4_pre_release vers la version 2.4.10
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
est activé - Correction d’un problème touchant certaines requêtes d’auto-union
- Correction d’un bogue avec le serveur thrift où les sessions sont parfois divulguées lorsqu’elles sont annulées
- [SPARK-26307] Correction de CTAS lors de l’instruction INSERT d’une table partitionnée en utilisant Hive SerDe
- [SPARK-26147] Les UDF Python dans les conditions de jointure échouent même en utilisant les colonnes d’un seul côté de la jointure
- [SPARK-26211] Correction de InSet pour les binaires et struct et array avec Null
- [SPARK-26181] La méthode
hasMinMaxStats
deColumnStatsMap
n’est pas correcte - Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- 20 novembre 2018
- Correction d’un problème qui rendait impossible l’utilisation d’un notebook après l’annulation d’une requête de streaming
- Correction d’un problème touchant certaines requêtes qui utilisent des fonctions de fenêtre
- Correction d’un problème touchant un flux provenant de Delta avec plusieurs modifications de schéma
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
Databricks Runtime 4.3 (EoS)
Voir Databricks Runtime 4.3 (EoS).
9 avril 2019
- [SPARK-26665][CORE] Correction d’un bogue pouvant entraîner le blocage permanent de BlockTransferService.fetchBlockSync
- [SPARK-24669][SQL] Invalide les tables en cas de DROP DATABASE CASCADE
12 mars 2019
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue touchant Delta
26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
12 février 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Exclusion des fichiers cachés lors de la génération de HadoopRDD
- Correction de la conversion du filtre Parquet pour le prédicat IN lorsque sa valeur est vide
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabled
est défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()
avec UDT à renvoyer une réponse incorrecte dans certains cas - Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
- Correction d’un problème pouvant amener
8 janvier 2019
- Correction du problème à l’origine de l’erreur
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
- Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
- [SPARK-26352] La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie
- [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
- Correction du problème à l’origine de l’erreur
18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307] Correction de CTAS lors de l’instruction INSERT d’une table partitionnée en utilisant Hive SerDe
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
est activé - [SPARK-26181] La méthode
hasMinMaxStats
deColumnStatsMap
n’est pas correcte - Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème de performances dans l’analyseur de requêtes
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- [SPARK-25387] Correction d’un bogue NPE causé par une entrée CSV incorrecte
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
- Correction d’un problème concernant le nettoyage des objets temporaires dans le connecteur Synapse Analytics
- [SPARK-25816] Correction de la résolution des attributs dans les extracteurs imbriqués
16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de
SHOW CREATE TABLE
sur les tables Delta - Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant la sortie de l’exécution de
25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableException
dans la source de données Avro
11 septembre 2018
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
failOnDataLoss=false
- [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
- Amélioration de la stabilité du moteur d’exécution
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
28 Août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- [SPARK-25142] Ajout de messages d’erreur lorsque le Worker Python ne pouvait pas ouvrir de socket dans
_load_from_socket
23 août 2018
- [SPARK-23935] mapEntry lève l’exception
org.codehaus.commons.compiler.CompileException
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-25051][SQL] FixNullability ne doit pas s’arrêter sur AnalysisBarrier
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-25096] Assouplissement de la possibilité d’accepter la valeur Null si le cast est forcé à accepter la valeur Null
- Diminution du nombre de threads par défaut utilisés par la commande Delta Lake Optimize, ce qui réduit la surcharge de mémoire et accélère la validation des données
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- Correction de la révision du gestionnaire de secrets lorsque la commande réussit partiellement
- [SPARK-23935] mapEntry lève l’exception
Databricks Runtime 4.2 (EoS)
Consultez Databricks Runtime 4.2 (EoS).
26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
12 février 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Exclusion des fichiers cachés lors de la génération de HadoopRDD
- Correction de la conversion du filtre Parquet pour le prédicat IN lorsque sa valeur est vide
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabled
est défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()
avec UDT à renvoyer une réponse incorrecte dans certains cas
- Correction d’un problème pouvant amener
8 janvier 2019
- Correction du problème à l’origine de l’erreur
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
- Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
- [SPARK-26352] La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie
- [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
- Correction du problème à l’origine de l’erreur
18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307] Correction de CTAS lors de l’instruction INSERT d’une table partitionnée en utilisant Hive SerDe
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
est activé - [SPARK-26181] La méthode
hasMinMaxStats
deColumnStatsMap
n’est pas correcte - Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème de performances dans l’analyseur de requêtes
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de
SHOW CREATE TABLE
sur les tables Delta - Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant la sortie de l’exécution de
25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableException
dans la source de données Avro
11 septembre 2018
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
failOnDataLoss=false
- [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
28 Août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
23 août 2018
- Correction de l’erreur NoClassDefError pour l’instantané Delta
- [SPARK-23935] mapEntry lève l’exception
org.codehaus.commons.compiler.CompileException
- [SPARK-24957][SQL] La moyenne avec décimale suivie d’une agrégation renvoie un résultat incorrect. Les résultats incorrects de AVERAGE peuvent être renvoyés. Le CAST ajouté dans l’opérateur Average sera contourné si le résultat de Divide est du même type que celui vers lequel il est casté.
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-24934][SQL] Ajoute explicitement sur une liste d’autorisation les types pris en charge dans les limites supérieures/inférieures pour le nettoyage des partitions en mémoire. Lorsque des types de données complexes sont utilisés dans des filtres de requête sur des données en cache, Spark renvoie toujours un jeu de résultats vide. Le nettoyage basé sur les statistiques en mémoire génère des résultats incorrects, car la valeur Null est définie comme limites supérieure/inférieure pour les types complexes. La correction consiste à ne pas utiliser le nettoyage basé sur les statistiques en mémoire pour les types complexes
- Correction de la révision du gestionnaire de secrets lorsque la commande réussit partiellement
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
2 août 2018
- Ajout de l’API writeStream.table en Python
- Correction d’un problème touchant les points de contrôle Delta
- [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- Correction d’un problème qui pouvait amener la commande
mergeInto
à produire des résultats incorrects - Amélioration de la stabilité lors de l’accès à Azure Data Lake Storage Gen1
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
- [SPARK-24878][SQL] Correction de la fonction inverse pour le type de tableau de type primitif contenant la valeur Null.
11 juillet 2018
- Correction d’un bogue dans l’exécution des requêtes qui faisait que les agrégations sur des colonnes décimales avec des précisions différentes renvoyaient des résultats incorrects dans certains cas
- Correction d’un bogue
NullPointerException
qui était lancé lors d’opérations d’agrégation avancées comme le regroupement d’ensembles
Databricks Runtime 4.1 ML (EoS)
Consultez Databricks Runtime 4.1 ML (EoS).
- 31 juillet 2018
- Ajout d’Azure Synapse Analytics à ML Runtime 4.1
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue (
java.lang.NoClassDefFoundError
) touchant Delta Lake - Amélioration de la gestion des erreurs dans Delta Lake
- Correction d’un bogue qui entraînait la collecte de statistiques incorrectes relatives au saut de données pour les colonnes de chaîne de 32 caractères ou plus
Databricks Runtime 4.1 (EoS)
Consultez Databricks Runtime 4.1 (EoS).
8 janvier 2019
- [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307] Correction de CTAS lors de l’instruction INSERT d’une table partitionnée en utilisant Hive SerDe
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
est activé - Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de
SHOW CREATE TABLE
sur les tables Delta - Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant la sortie de l’exécution de
25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableException
dans la source de données Avro
11 septembre 2018
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
failOnDataLoss=false
- [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
28 Août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
23 août 2018
- Correction de l’erreur NoClassDefError pour l’instantané Delta
- [SPARK-24957][SQL] La moyenne avec décimale suivie d’une agrégation renvoie un résultat incorrect. Les résultats incorrects de AVERAGE peuvent être renvoyés. Le CAST ajouté dans l’opérateur Average sera contourné si le résultat de Divide est du même type que celui vers lequel il est casté.
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-24934][SQL] Ajoute explicitement sur une liste d’autorisation les types pris en charge dans les limites supérieures/inférieures pour le nettoyage des partitions en mémoire. Lorsque des types de données complexes sont utilisés dans des filtres de requête sur des données en cache, Spark renvoie toujours un jeu de résultats vide. Le nettoyage basé sur les statistiques en mémoire génère des résultats incorrects, car la valeur Null est définie comme limites supérieure/inférieure pour les types complexes. La correction consiste à ne pas utiliser le nettoyage basé sur les statistiques en mémoire pour les types complexes
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- Correction de la rédaction du gestionnaire de secrets lorsque la commande réussit partiellement
2 août 2018
- [SPARK-24613][SQL] Le cache avec UDF n’a pas pu être mis en correspondance avec les caches dépendants suivants. Enveloppe le plan logique dans un élément AnalysisBarrier pour la compilation du plan d’exécution dans CacheManager, afin d’éviter que le plan soit à nouveau analysé. Il s’agit également d’une régression de Spark 2.3
- Correction d’un problème de connecteur Synapse Analytics touchant la conversion du fuseau horaire pour l’écriture de données DateType
- Correction d’un problème touchant les points de contrôle Delta
- Correction d’un problème qui pouvait amener la commande
mergeInto
à produire des résultats incorrects - [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
11 juillet 2018
- Correction d’un bogue dans l’exécution des requêtes qui faisait que les agrégations sur des colonnes décimales avec des précisions différentes renvoyaient des résultats incorrects dans certains cas
- Correction d’un bogue
NullPointerException
qui était lancé lors d’opérations d’agrégation avancées comme le regroupement d’ensembles
28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue (
java.lang.NoClassDefFoundError
) touchant Delta Lake - Amélioration de la gestion des erreurs dans Delta Lake
17 mai 2018
- Correction d’un bogue qui entraînait la collecte de statistiques incorrectes relatives au saut de données pour les colonnes de chaîne de 32 caractères ou plus
Databricks Runtime 4.0 (EoS)
Consultez Databricks Runtime 4.0 (EoS).
6 novembre 2018
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
16 octobre 2018
- Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant l’opération
25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableException
dans la source de données Avro
11 septembre 2018
- La réduction du filtre doit gérer correctement la valeur Null
28 Août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
23 août 2018
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- Correction de la rédaction du gestionnaire de secrets lorsque la commande réussit partiellement
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
2 août 2018
- [SPARK-24452] Évite tout dépassement possible dans int add ou multiple
- [SPARK-24588] La jointure en continu doit nécessiter HashClusteredPartitioning des enfants
- Correction d’un problème qui pouvait amener la commande
mergeInto
à produire des résultats incorrects - [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake
17 mai 2018
- Correction de bogues pour la gestion des secrets Databricks
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
24 avril 2018
- Mise à niveau du Kit de développement logiciel (SDK) Azure Data Lake Store de la version 2.0.11 vers la version 2.2.8 pour améliorer la stabilité de l’accès à Azure Data Lake Store
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque
spark.databricks.io.hive.fastwriter.enabled
a la valeurfalse
- Correction d’un problème qui faisait échouer la sérialisation des tâches
- Amélioration de la stabilité de Delta Lake
14 mars 2018
- Empêche les mises à jour inutiles des métadonnées lors de l’écriture dans Delta Lake
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
Databricks Runtime 3.5 LTS (EoS)
Consultez Databricks Runtime 3.5 LTS (EoS).
7 novembre 2019
- [SPARK-29743][SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
10 septembre 2019
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
9 avril 2019
- [SPARK-26665][CORE] Correction d’un bogue pouvant entraîner le blocage permanent de BlockTransferService.fetchBlockSync
12 février 2019
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabled
est défini sur true)
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()
avec UDT à renvoyer une réponse incorrecte dans certains cas
- Correction d’un problème pouvant amener
18 décembre 2018
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
est activé - Correction d’un problème touchant certaines requêtes d’auto-union
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
20 novembre 2018
- [SPARK-25816] Correction de la résolution des attributs dans les extracteurs imbriqués
6 novembre 2018
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
16 octobre 2018
- Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant l’opération
25 septembre 2018
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableException
dans la source de données Avro
11 septembre 2018
- La réduction du filtre doit gérer correctement la valeur Null
28 Août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
23 août 2018
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake
17 mai 2018
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
- Correction d’un bogue touchant certaines agrégations dans les requêtes de streaming
24 avril 2018
- Mise à niveau du Kit de développement logiciel (SDK) Azure Data Lake Store de la version 2.0.11 vers la version 2.2.8 pour améliorer la stabilité de l’accès à Azure Data Lake Store
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque
spark.databricks.io.hive.fastwriter.enabled
a la valeurfalse
- Correction d’un problème qui faisait échouer la sérialisation des tâches
09 mars 2018
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
1er mars 2018
- Amélioration de l’efficacité de la gestion des flux dont l’arrêt peut prendre beaucoup de temps
- Correction d’un problème concernant l’autocomplétion en Python
- Application des correctifs de sécurité Ubuntu
- Correction d’un problème touchant certaines requêtes qui utilisent des UDF Python et des fonctions de fenêtre
- Correction d’un problème concernant l’utilisation des UDF sur un cluster dont le contrôle d’accès aux tables est activé
29 janvier 2018
- Correction d’un problème concernant la manipulation de tables stockées dans Stockage Blob Azure
- Correction de l’agrégation après l’opération dropDuplicates sur un DataFrame vide
Databricks Runtime 3.4 (EoS)
Consultez Databricks Runtime 3.4 LTS (EoS).
7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake
17 mai 2018
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
24 avril 2018
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque
spark.databricks.io.hive.fastwriter.enabled
a la valeurfalse
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque
09 mars 2018
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
13 décembre 2017
- Correction d’un problème concernant les UDF en Scala
- Correction d’un problème concernant l’utilisation d’un index de saut de données sur les tables de sources de données stockées sous des chemins non DBFS
7 décembre 2017
- Amélioration de la stabilité de la lecture aléatoire
Versions non prises en charge de Databricks Runtime
Pour les notes de publication d’origine, suivez le lien situé sous le sous-titre.