Поделиться через


Обновления Databricks Runtime в рамках обслуживания

В этой статье перечислены обновления обслуживания для поддерживаемых версий среды выполнения Databricks. Чтобы добавить техническое обслуживание update в существующий кластер, перезапустите кластер. Обновления обслуживания для неподдерживаемых версий среды выполнения Databricks см. в разделе "Обновления обслуживания" для Databricks Runtime (архивно).

Примечание.

Выпуски являются поэтапными. Учетная запись Azure Databricks может не update через несколько дней после начальной даты выпуска.

Заметки о выпуске Databricks Runtime

Обновления обслуживания по выпуску:

Databricks Runtime 16.0

См. Databricks Runtime 16.0.

  • 10 декабря 2024 г.
    • (Критические изменения) В Databricks Runtime 15.4 и более поздних версиях обработка регулярных выражений в Photon обновляется, чтобы соответствовать поведению обработки регулярных выражений Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как split() и regexp_extract(), приняли некоторые регулярные выражения, отклоненные средством синтаксического анализа Spark. Чтобы обеспечить согласованность с Apache Spark, запросы Photon теперь завершаются ошибкой для регулярных выражений, которые Spark считает недопустимыми. Из-за этого изменения могут возникнуть ошибки, если код Spark содержит недопустимые регулярные выражения. Например, выражение split(str_col, '{'), содержащее несоответствующую фигурную скобку и ранее принятую Фотоном, теперь завершается с ошибкой. Чтобы исправить это выражение, можно экранировать символ фигурной скобки: split(str_col, '\\{'). Поведение фотона и Spark также отличается для некоторых регулярных выражений, соответствующих символам, отличным от ASCII. Это также обновляется так, чтобы Фотон соответствовал поведению Apache Spark.
    • В этом выпуске теперь можно запросить функцию vector_search с помощью query_text для ввода текста или query_vector для внедрения входных данных.
    • Теперь можно set время ожидания запросов Spark Connect с помощью свойства конфигурации Spark spark.databricks.execution.timeout. Для записных книжек, работающих на бессерверных вычислениях, значение по умолчанию — 9000 (секунды). Задания, выполняемые на бессерверных вычислениях и общих кластерах, не имеют тайм-аута, если свойство конфигурации не установлено как set. Выполнение, которое длится дольше указанного времени ожидания, приводит к ошибке QUERY_EXECUTION_TIMEOUT_EXCEEDED.
    • [SPARK-49843][SQL] Исправление изменения комментария для char/varchar columns
    • [SPARK-49924][SQL] Сохранить containsNull после замены ArrayCompact
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-48780][SQL] Сделать ошибки в NamedParametersSupport обобщенными для обработки функций и процедур
    • [SPARK-49876][CONNECT] Get избавиться от глобальных блокировок в службе Spark Connect
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • [SPARK-49615] исправление ошибки: проверка columnschema машинного обучения соответствует конфигурации Spark spark.sql.caseSensitive
    • [SPARK-48782][SQL] Добавьте поддержку выполнения процедур в catalogs
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в поток-поток join (исправление для повышения точности)
    • Возврат "[SPARK-49002][SQL] Последовательно обрабатывают недопустимые расположения в WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY
    • [SPARK-50028][CONNECT] Заменить глобальные блокировки в прослушивателе сервера Spark Connect мелкозернистыми блокировками
    • [SPARK-49615] [ML] Сделайте набор данных всех преобразователей функций машинного обучения schema проверки, соответствующий конфигурации spark.sql.caseSensitive.
    • [SPARK-50124][SQL] LIMIT/OFFSET должны сохранять порядок данных
    • Обновления системы безопасности операционной системы.

Databricks Runtime 15.4

См. раздел Databricks Runtime 15.4 LTS.

  • 26 ноября 2024 г.
    • В этом выпуске теперь можно запросить функцию vector_search с помощью query_text для ввода текста или query_vector для внедрения входных данных.
    • Теперь можно set время ожидания запросов Spark Connect с помощью свойства конфигурации Spark spark.databricks.execution.timeout. Для записных книжек, работающих на бессерверных вычислениях, значение по умолчанию — 9000 (секунды). Задания, выполняемые на бессерверных вычислительных и общих кластерах, не имеют ограничения по времени, если свойство конфигурации setне установлено. Выполнение, которое длится дольше указанного времени ожидания, приводит к ошибке QUERY_EXECUTION_TIMEOUT_EXCEEDED.
    • [SPARK-50322][SQL] Исправить параметризованный identifier во вложенном запросе
    • [SPARK-49615] [ML] Сделайте набор данных всех преобразователей функций машинного обучения schema проверки, соответствующий конфигурации spark.sql.caseSensitive.
    • [SPARK-50124][SQL] LIMIT/OFFSET должны сохранять порядок данных
    • Обновления системы безопасности операционной системы.
  • 5 ноября 2024 г.
    • (Кардинальные изменения) В версии Databricks Runtime 15.4 и выше обновлена обработка регулярных выражений в Photon для приведения в соответствие с поведением обработки регулярных выражений в Apache Spark. Ранее функции регулярного выражения, выполняемые Photon, такие как split() и regexp_extract(), приняли некоторые регулярные выражения, отклоненные средством синтаксического анализа Spark. Чтобы обеспечить согласованность с Apache Spark, запросы Photon теперь завершаются ошибкой для регулярных выражений, которые Spark считает недопустимыми. Из-за этого изменения могут возникнуть ошибки, если код Spark содержит недопустимые регулярные выражения. Например, выражение split(str_col, '{'), содержащее несоответствующую фигурную скобку и ранее принятое Фотоном, теперь приводит к ошибке. Чтобы исправить это выражение, можно экранировать символ фигурной скобки: split(str_col, '\\{'). Поведение фотона и Spark также отличается для некоторых регулярных выражений, соответствующих символам, отличным от ASCII. Это также обновляется так, чтобы Фотон соответствовал поведению Apache Spark.
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-49867][SQL] Улучшение сообщения об ошибке при выходе индекса из пределов при вызове GetColumnByOrdinal
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в межпотоковой обработке join (исправление корректности)
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
    • [SPARK-49443][SQL][PYTHON] Реализация выражения to_variant_object и создание выражений schema_of_variant печати OBJECT для объектов Variant
    • [SPARK-49615] Исправление ошибки: валидация columnschema для машинного обучения соответствует конфигурации Spark spark.sql.caseSensitive.
  • 22 октября 2024 г.
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-49867][SQL] Улучшение сообщения об ошибке при выходе индекса из пределов при вызове GetColumnByOrdinal
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [SPARK-49829] Пересмотреть оптимизацию добавления входных данных в хранилище состояний для потоков join (исправление для обеспечения корректности)
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
    • [SPARK-49443][SQL][PYTHON] Реализация выражения to_variant_object и создание выражений schema_of_variant печати OBJECT для объектов Variant
    • [SPARK-49615] исправление ошибки: проверка columnschema машинного обучения соответствует spark.sql.caseSensitiveконфигурации Spark.
  • 10 октября 2024 г.
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema при обрезке GetArrayStructFields
    • [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
    • [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
    • [SPARK-49460][SQL] Дальнейшие действия. Исправление потенциального риска NPE
  • 25 сентября 2024 г.
    • [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
    • [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
    • [SPARK-49017]оператор Insert завершается сбоем при использовании нескольких parameters
    • [SPARK-49451] Разрешить повторяющиеся ключи в parse_json.
    • Прочие исправления ошибок.
  • 17 сентября 2024 г.
    • [SPARK-48463][ML] Сделать так, чтобы Binarizer, Bucketizer, Vector Сборщик, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer и Interactor поддерживали вложенные входные данные columns
    • [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
    • [SPARK-49526][CONNECT][HOTFIX-15.4.2] Поддержка путей в стиле Windows в ArtifactManager
    • Повторное изменение "[SPARK-48482][PYTHON] dropDuplicates и dropDuplicatesWIthinWatermark должно принимать args переменной длины".
    • [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
    • [SPARK-49366][CONNECT] Рассматривать узел объединения как лист в разрешении column DataFrame
    • [SPARK-49018][SQL] Исправление approx_count_distinct неправильной работы с параметрами сортировки
    • [SPARK-49460][SQL] RemovecleanupResource() из EmptyRelationExec
    • [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
    • [SPARK-49336][CONNECT] Limit уровень вложенности при усечении сообщения protobuf
  • 29 августа 2024 г.
    • Выходные данные из инструкции SHOW CREATE TABLE теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках column см. статью «Фильтрация конфиденциальных table данных с помощью фильтров строк и масок column».
    • При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
    • [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
    • [SPARK-49074][SQL] Исправление варианта с помощью df.cache()
    • [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
    • [SPARK-48955][SQL] Включение изменений ArrayCompact в версии 15.4
    • [SPARK-48937][SQL] Добавление поддержки сортировки для строковых выражений StringToMap
    • [SPARK-48929] Исправление внутренней ошибки и очистка контекста исключения средства синтаксического анализа
    • [SPARK-49125][SQL] Разрешить повторяющиеся имена column при записи CSV
    • [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
    • [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
    • [SPARK-48981] Исправление метода simpleString StringType в pyspark для параметров сортировки
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
    • [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
    • [SPARK-48725][SQL] Интеграция CollationAwareUTF8String.lowerCaseCodePoints в строковые выражения
    • [SPARK-48978][SQL] Реализация быстрого пути ASCII в поддержке сортировки для UTF8_LCASE
    • [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
    • [SPARK-49146][SS] Переместить ошибки утверждения, связанные с отсутствием watermark в потоковых запросах в режиме добавления, в систему обработки ошибок
    • [SPARK-48977][SQL] Optimize строковый поиск под сопоставлением UTF8_LCASE
    • [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
    • [SPARK-48463] Реализовать поддержку вложенных входных данных в StringIndexer columns
    • [SPARK-48954] try_mod() заменяет try_remainder()
    • Обновления системы безопасности операционной системы.

Databricks Runtime 15.3

См. раздел Databricks Runtime 15.3.

  • 26 ноября 2024 г.
    • В этом выпуске теперь можно запросить функцию vector_search с помощью query_text для ввода текста или query_vector для внедрения входных данных.
    • Обновления системы безопасности операционной системы.
  • 5 ноября 2024 г.
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • [SPARK-49867][SQL] Улучшение сообщения об ошибке при выходе индекса из пределов при вызове GetColumnByOrdinal
    • [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
    • [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в поток-поток join (исправление правильности)
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
    • Обновления системы безопасности операционной системы.
  • 22 октября 2024 г.
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • [SPARK-49867][SQL] Улучшение сообщения об ошибке при выходе индекса из пределов при вызове GetColumnByOrdinal
    • [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
    • [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в контексте потока к потоку join (исправление для обеспечения корректности)
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
    • Обновления системы безопасности операционной системы.
  • 10 октября 2024 г.
    • [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema при обрезке GetArrayStructFields
    • [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
    • Обновления системы безопасности операционной системы.
  • 25 сентября 2024 г.
    • [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
    • [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
    • [SPARK-48719][SQL] Исправлена ошибка RegrSlope вычисления и RegrIntercept когда первый параметр имеет значение NULL
    • Обновления системы безопасности операционной системы.
  • 17 сентября 2024 г.
    • [SPARK-49336][CONNECT] Limit уровня вложенности при усечении сообщения protobuf
    • [SPARK-49526][CONNECT][15.3.5] Поддержка путей в стиле Windows в ArtifactManager
    • [SPARK-49366][CONNECT] Рассматривать узел объединения как листовой в разрешении column датафрейма
    • [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
    • [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
    • Обновления системы безопасности операционной системы.
  • 29 августа 2024 г.
    • [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
    • [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
    • [SPARK-48862][PYTHON][CONNECT] Избегайте вызова _proto_to_string , если уровень INFO не включен
    • [SPARK-49146][SS] Переместить ошибки утверждения, связанные с отсутствием watermark в потоковых запросах в режиме добавления, в систему обработки ошибок
  • 14 августа 2024 г.
    • [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
    • [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
    • [SPARK-48954] try_mod() заменяет try_remainder()
    • [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
    • [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
    • [SPARK-48740][SQL] Перехват отсутствующих ошибок спецификации window
  • 1 августа 2024 г.
    • [Критическое изменение] В Databricks Runtime 15.3 и выше вызов любой определяемой пользователем функции Python (UDF), определяемой пользователем статистической функции (UDAF) или определяемой пользователем функции table (UDTF), которая использует тип VARIANT в качестве аргумента или возвращаемого значения вызывает исключение. Это изменение делается для предотвращения проблем, которые могут возникнуть из-за недопустимого значения, возвращаемого одним из этих функций. Дополнительные сведения о типе VARIANT см. в статье об использовании VARIANTs для хранения полуструктурированных данных.
    • В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. parametersподдерживаемые конфигурации Spark.
    • При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
    • Результаты выполнения инструкции SHOW CREATE TABLE теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или в потоковой обработке table. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках column см. в статье "Фильтрация конфиденциальных данных table с помощью фильтров строк и маски column".
    • [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
    • [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
    • [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
    • [SPARK-48713][SQL] Добавление проверки диапазона индекса для unsafeRow.pointTo, если baseObject является массивом байтов
    • [SPARK-48834][SQL] Отключение вариантных входных и выходных данных для скалярных определяемых пользователем python, определяемых пользователем пользователем, UDTFs, UDAFs во время компиляции запросов
    • [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
    • [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
    • [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
    • [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
    • [SPARK-49054][SQL] Column значение по умолчанию должно поддерживать функции current_*
    • [SPARK-48653][PYTHON] Исправление недопустимых ссылок на класс ошибок источника данных Python
    • [SPARK-48463] Сделать StringIndexer, поддерживающим вложенные входные данные columns
    • [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
    • [SPARK-48873][SQL] Используйте unsafeRow в средство синтаксического анализа JSON.
    • Обновления системы безопасности операционной системы.
  • 11 июля 2024 г.
    • (Изменение поведения) Фреймы данных, кэшированные для источников Delta table, теперь считаются недействительными, если исходный table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте .checkpoint() для сохранения состояния table в течение всего времени существования кадра данных.
    • Драйвер Snowflake JDBC обновлен до версии 3.16.1.
    • Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
    • Чтобы игнорировать недопустимые секции при чтении данных, файловых источников данных, таких как Parquet, ORC, CSV или JSON, можно set параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
    • [SPARK-48100][SQL] Исправление проблем с пропуском вложенных полей структуры, не выбранных в schema
    • [SPARK-47463][SQL] Использование версии 2Predicate для упаковки выражения с типом возвращаемого логического значения
    • [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
    • [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
    • [SPARK-48286] Исправление анализа column с существующим условным выражением — добавление ошибки, видимой пользователю
    • [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
    • Возврат "[SPARK-47406][SQL] Обработка TIMESTAMP и DATETIME в MYSQLDialect"
    • [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
    • [SPARK-48503][14.3-15.3][SQL] Исправлены недопустимые скалярные вложенные запросы с группировкой по неэквивалентным columns, неправильно разрешённые.
    • [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
    • [SPARK-48252][SQL] Update CommonExpressionRef при необходимости
    • [SPARK-48273][master][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
    • [SPARK-48566][PYTHON] Исправление ошибки: wherepartition индексы неправильно, если UDTF analyze() использует как select, так и partitionColumns
    • [SPARK-48556][SQL] Исправлено неверное сообщение об ошибке, указывающее на UNSUPPORTED_GROUPING_EXPRESSION
    • Обновления системы безопасности операционной системы.

Databricks Runtime 15.2

См. раздел Databricks Runtime 15.2.

  • 26 ноября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 5 ноября 2024 г.
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
    • [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоковом обработке join (исправление ошибок)
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
    • Обновления системы безопасности операционной системы.
  • 22 октября 2024 г.
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • [SPARK-48843][15.3,15.2] Предотвращение бесконечного цикла с помощью BindParameters
    • [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоковом режиме join (исправление корректности)
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
    • Обновления системы безопасности операционной системы.
  • 10 октября 2024 г.
    • [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema при отсечении GetArrayStructFields
    • [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
    • Обновления системы безопасности операционной системы.
  • 25 сентября 2024 г.
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • [SPARK-48719][SQL] Исправлена ошибка вычисления RegrSlope и RegrIntercept, когда первый параметр имеет значение NULL
    • [SPARK-49458][CONNECT][PYTHON] Укажите идентификатор сеанса на стороне сервера с помощью ReattachExecute
    • [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
    • [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
    • Обновления системы безопасности операционной системы.
  • 17 сентября 2024 г.
    • [SPARK-49336][CONNECT] Limit уровень вложенности при усечении сообщения protobuf
    • [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
    • [SPARK-49366][CONNECT] Рассматривать узел объединения как конечный в разрешении column кадра данных
    • [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
    • [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
    • Обновления системы безопасности операционной системы.
  • 29 августа 2024 г.
    • [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
    • [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
    • [SPARK-48862][PYTHON][CONNECT] Избегайте вызова _proto_to_string , если уровень INFO не включен
    • [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
    • [SPARK-49146][SS] Переместить ошибки утверждения, связанные с отсутствием watermark в запросах потоковой передачи в режиме добавления, в систему обработки ошибок.
  • 14 августа 2024 г.
    • [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
    • [SPARK-48050][SS] Логический план журнала при запуске запроса
    • [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
    • [SPARK-48740][SQL] Раннее обнаружение ошибки отсутствующей спецификации window
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
    • [SPARK-49047][PYTHON][CONNECT] Усечение сообщения для ведения журнала
  • 1 августа 2024 г.
    • В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. поддерживаемые конфигурации Spark parameters.
    • При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
    • Выходные данные из инструкции SHOW CREATE TABLE теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Чтобы узнать о фильтрах строк и масках column, см. статью "Фильтрация конфиденциальных данных table с использованием фильтров строк и масок column".
    • [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
    • [SPARK-48047][SQL] Уменьшение нагрузки на память пустых тегов TreeNode
    • [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
    • [SPARK-48873][SQL] Используйте unsafeRow в средство синтаксического анализа JSON.
    • [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
    • [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
    • [SPARK-48713][SQL] Добавление проверки диапазона индекса для unsafeRow.pointTo, если baseObject является массивом байтов
    • [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
    • [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
    • [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
    • [SPARK-48463] Сделать StringIndexer с поддержкой вложенных входных данных columns
    • Обновления системы безопасности операционной системы.
  • 11 июля 2024 г.
    • (изменение поведения) DataFrame, кэшированные для источников Delta table, становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют кэшированные результаты. Используйте .checkpoint() для сохранения состояния table в течение всего времени существования кадра данных.
    • Драйвер Snowflake JDBC обновлен до версии 3.16.1.
    • Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
    • В бессерверных записных книжках и заданиях режим SQL ANSI будет включен по умолчанию и поддерживает короткие имена.
    • Чтобы игнорировать недопустимые секции при чтении данных, файловых источников данных, таких как Parquet, ORC, CSV или JSON, можно set параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
    • [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
    • [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
    • [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в schema
    • [SPARK-48286] Исправление анализа column с использованием оператора EXISTS по умолчанию — добавление пользовательской ошибки
    • [SPARK-48294][SQL] Обработка нижнего регистра в вложенныхTypeMissingElementTypeError
    • [SPARK-48556][SQL] Исправлено неверное сообщение об ошибке, указывающее на UNSUPPORTED_GROUPING_EXPRESSION
    • [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
    • [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группированием по неэквивалентным columns, которые были неправильно разрешены.
    • [SPARK-48252][SQL] Update CommonExpressionRef при необходимости
    • [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
    • [SPARK-48566][PYTHON] Исправление ошибки: индексы wherepartition неправильно работают, если UDTF analyze() использует как select, так и partitionColumns.
    • [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
    • [SPARK-47463][SQL] Использование версии 2Predicate для упаковки выражения с типом возвращаемого логического значения
    • [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
    • [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
    • Обновления системы безопасности операционной системы.
  • 17 июня 2024 г.
    • applyInPandasWithState() доступен в общих кластерах.
    • Исправлена ошибка, where оптимизации ранжированияwindow с помощью Photon TopK неправильно обработаны секции со структурами.
    • Исправлена ошибка в функции try_divide() во входных данных where, содержащих десятичные разряды, что приводило к неожиданным исключениям.
    • [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
    • [SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих __repr__ методов для SQLExpression
    • [SPARK-48014][SQL] Измените ошибку makeFromJava в EvaluatePython на ошибку с пользователем
    • [SPARK-48016][SQL] Исправлена ошибка в функции try_divide при использовании десятичных разрядов
    • [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
    • [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
    • [SPARK-48056][CONNECT][PYTHON] Повторный запуск плана, если возникает ошибка SESSION_NOT_FOUND, и не было получено частичного ответа
    • [SPARK-48172][SQL] Устранение проблем с устранением проблем в серверном порте JDBCDialects до версии 15.2
    • [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
    • [SPARK-48288] Добавление типа исходных данных для выражения приведения соединителя
    • [SPARK-48310][PYTHON][CONNECT] Кэшированные свойства должны возвращать копии
    • [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
    • [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
    • Возврат "[SPARK-47406][SQL] Обработка TIMESTAMP и DATETIME в MYSQLDialect"
    • [SPARK-47994][SQL] Исправлена ошибка с помощью фильтра CASE WHEN column push down in SQLServer
    • [SPARK-47764][CORE][SQL] Очистка зависимостей перетасовки на основе ShuffleCleanupMode
    • [SPARK-47921][CONNECT] Исправление создания ExecuteJobTag в ExecuteHolder
    • [SPARK-48010][SQL] Избегайте повторных вызовов conf.resolver в resolveExpression
    • [SPARK-48146][SQL] Исправлена агрегатная функция в дочернем утверждении выражения
    • [SPARK-48180][SQL] Улучшение сообщения об ошибке при вызове UDTF с аргументом TABLE при отсутствии круглых скобок вокруг нескольких выражений PARTITION/ORDER BY
    • Обновления системы безопасности операционной системы.

Databricks Runtime 14.3

См. раздел Databricks Runtime 14.3 LTS.

  • 26 ноября 2024 г.
    • [SPARK-49615] [ML] Сделайте набор данных всех преобразователей функций машинного обучения schema проверки, соответствующий конфигурации spark.sql.caseSensitive.
    • Обновления системы безопасности операционной системы.
  • 5 ноября 2024 г.
    • [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
    • [SPARK-49829] Пересмотреть оптимизацию добавления входных данных в хранилище состояний в потоковом режиме поток-поток join (исправление правильности)
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Класс классify Error для ошибки пользовательской функции приемника Foreach
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • Обновления системы безопасности операционной системы.
  • 22 октября 2024 г.
    • [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
    • [SPARK-49863][SQL] Исправление нормализации значенийNumbers для сохранения допустимости значений NULL вложенных структур
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • [SPARK-46632][SQL] Исправлена ликвидация вложенных выражений, если эквивалентные тернарные выражения имеют разные дочерние элементы
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Класс классify Error для ошибки пользовательской функции приемника Foreach
    • [SPARK-49829] Пересмотреть оптимизацию при добавлении входных данных в хранилище состояний в потоковом-поточном режиме join (исправление правильности)
    • Обновления системы безопасности операционной системы.
  • 10 октября 2024 г.
    • [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr не должна изменять поля schema при обрезке GetArrayStructFields
    • [SPARK-496888][CONNECT] Исправлена гонка данных между прерыванием и планом выполнения
  • 25 сентября 2024 г.
    • [SPARK-48810][CONNECT] API остановки сеанса () должен быть идемпотентным и не завершается ошибкой, если сеанс уже закрыт сервером
    • [SPARK-48719][SQL] Исправлена ошибка вычисления regrS...
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
    • [SPARK-49492][CONNECT] Повторная попытка выполнить попытку неактивного заполнителя
    • Обновления системы безопасности операционной системы.
  • 17 сентября 2024 г.
    • [SPARK-49336][CONNECT] Limit уровень вложенности при усечении сообщения protobuf
    • [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
    • [SPARK-48463][ML] Сделать Binarizer, Bucketizer, VectorAssembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor поддерживающими вложенные входные данные columns
    • [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
    • [SPARK-49409][CONNECT] Настройка значения по умолчанию CONNECT_SESSION_PLAN_CACHE_SIZE
    • [SPARK-49366][CONNECT] Рассматривать узел объединения как лист в резолюции column кадра данных
  • 29 августа 2024 г.
    • [SPARK-49146][SS] Переместить ошибки проверок, связанные с отсутствием watermark в потоковых запросах в режиме добавления, в обработчик ошибок
    • [SPARK-48862][PYTHON][CONNECT] Избегайте вызова _proto_to_string , если уровень INFO не включен
    • [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
  • 14 августа 2024 г.
    • [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
    • [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
    • [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
    • [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
    • [SPARK-48934][SS] Типы даты и времени Python преобразуются неправильно для настройки времени ожидания в applyInPandasWithState
  • 1 августа 2024 г.
    • Этот выпуск включает исправление ошибок для ColumnVector и ColumnarArray классов в интерфейсе Java Spark. До этого исправления мог возникнуть ArrayIndexOutOfBoundsException или могли возвращаться неверные данные, если экземпляр одного из этих классов содержал nullvalues.
    • В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. поддерживаемые конфигурации Spark parameters.
    • При вычислении, настроенном в режиме общего доступа, пакет Kafka считывает и записывает теперь те же ограничения, что и для структурированной потоковой передачи. См. ограничения потоковой передачи и требования к режиму общего доступа Unity Catalog.
    • Выходные данные из инструкции SHOW CREATE TABLE теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Для получения информации о фильтрах строк и масках column см. статью , как фильтровать конфиденциальные table данные с помощью фильтров строк и масок column.
    • [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
    • [SPARK-48889][SS] testStream для выгрузки хранилищ состояний перед завершением
    • [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
    • [SPARK-48047][SQL] Уменьшение нагрузки на память пустых тегов TreeNode
    • [SPARK-48544][SQL] Уменьшение давления памяти пустых наборов BitSet в TreeNode
    • [SPARK-46957][CORE] Перенос перенесенных файлов перетасовки должен иметь возможность очистки от исполнителя
    • [SPARK-48463] Сделать StringIndexer, поддерживающий вложенные входные данные columns
    • [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
    • [SPARK-47713][SQL][CONNECT] Исправлена ошибка самостоятельногоjoin
    • Обновления системы безопасности операционной системы.
  • 11 июля 2024 г.
    • (изменение поведения) DataFrames, кэшированные для источников Delta table, теперь признаются недействительными, если источник table перезаписывается. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте .checkpoint() для сохранения состояния table в течение всего времени существования кадра данных.
    • Драйвер Snowflake JDBC обновлен до версии 3.16.1.
    • Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
    • В бессерверных вычислительных ресурсах для записных книжек и заданий режим ANSI SQL включен по умолчанию. См. поддерживаемые parametersконфигурации Spark.
    • Чтобы игнорировать недопустимые секции при чтении данных, файловых источников данных, таких как Parquet, ORC, CSV или JSON, можно set параметру источника данных ignoreInvalidPartitionPaths значение true. Например: spark.read.format("parquet"). option("ignoreInvalidPartitionPaths", "true").load(...). Можно также использовать конфигурацию SQL spark.sql.files.ignoreInvalidPartitionPaths. Однако параметр источника данных имеет приоритет над конфигурацией SQL. Этот параметр имеет значение false по умолчанию.
    • [SPARK-48648][PYTHON][CONNECT] Правильное определение потока SparkConnectClient.tags
    • [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
    • [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
    • [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
    • [SPARK-48503][SQL] Исправлены недопустимые скалярные вложенные запросы с группировкой по неэквивалентным columns, которые были неправильно разрешены
    • [SPARK-48100][SQL] Устранение проблем при пропуске вложенных структурных полей, которые не были выбраны в schema
    • [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
    • [SPARK-48252][SQL] Update CommonExpressionRef при необходимости
    • [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
    • [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
    • Обновления системы безопасности операционной системы.
  • 17 июня 2024 г.
    • applyInPandasWithState() доступен в общих кластерах.
    • Исправлена ошибка, where оптимизации ранжированияwindow с помощью Photon TopK неправильно обработаны секции со структурами.
    • [SPARK-48310][PYTHON][CONNECT] Кэшированные свойства должны возвращать копии
    • [SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих __repr__ методов для SQLExpression
    • [SPARK-48294][SQL] Обработка нижнего регистра в вложенныхTypeMissingElementTypeError
    • Обновления системы безопасности операционной системы.
  • 21 мая 2024 г.
    • (изменение поведения) dbutils.widgets.getAll() теперь поддерживается для get всех мини-приложений values в записной книжке.
    • Исправлена ошибка в функции try_divide() where входных данных, содержащих десятичные разряды, привели к непредвиденным исключениям.
    • [SPARK-48056][CONNECT][PYTHON] Повторный запуск плана, если возникает ошибка SESSION_NOT_FOUND, и не было получено частичного ответа
    • [SPARK-48146][SQL] Исправлена агрегатная функция в дочернем утверждении выражения
    • [SPARK-47986][CONNECT][PYTHON] Не удается создать новый сеанс при закрытии сеанса по умолчанию сервером
    • [SPARK-48180][SQL] Улучшение сообщения об ошибке при вызове UDTF c TABLE аргументом, когда забыты круглые скобки вокруг нескольких PARTITION/ORDER BY выражений.
    • [SPARK-48016][SQL] Исправлена ошибка в функции try_divide при использовании десятичных разрядов
    • [SPARK-48197][SQL] Избегайте ошибки утверждения для недопустимой лямбда-функции
    • [SPARK-47994][SQL] Исправлена ошибка с помощью фильтра CASE WHEN column push down in SQLServer
    • [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
    • [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
    • Обновления системы безопасности операционной системы.
  • 9 мая 2024 г.
    • (Изменение поведения) applyInPandas и mapInPandas типы UDF теперь поддерживаются в вычислительном режиме общего доступа с databricks Runtime 14.3 и более поздних версий.
    • [SPARK-47739][SQL] Регистрация типа логического avro
    • [SPARK-47941] [SS] [Подключение] Распространение ошибок инициализации рабочей роли ForeachBatch пользователям для PySpark
    • [SPARK-48010][SQL] Избегайте повторных вызовов conf.resolver в resolveExpression
    • [SPARK-48044][PYTHON][CONNECT] Тайник DataFrame.isStreaming
    • [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
    • [SPARK-47543][CONNECT][PYTHON] Вывод дикта как Mapype из Кадра данных Pandas, чтобы разрешить создание кадра данных
    • [SPARK-47819][CONNECT][Cherry-pick-14.3] Используйте асинхронный обратный вызов для очистки выполнения
    • [SPARK-47764][CORE][SQL] Очистка зависимостей перетасовки на основе ShuffleCleanupMode
    • [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
    • [SPARK-47839][SQL] Исправлена статистическая ошибка в RewriteWithExpression
    • [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
    • [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
    • [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2024 г.
    • [SPARK-47543][CONNECT][PYTHON] dict Вывод из MapType кадра данных Pandas для разрешения создания кадра данных
    • [SPARK-47694][CONNECT] Настройка максимального размера сообщения на стороне клиента
    • [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Проверьте имя column с кэшированной schema
    • [SPARK-47862][PYTHON][CONNECT]Исправление создания файлов proto
    • Возврат "[SPARK-47543][CONNECT][PYTHON] Вывод dict из MapType кадра данных Pandas, чтобы разрешить создание кадра данных"
    • [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
    • [SPARK-47812][CONNECT] Поддержка сериализации SparkSession для рабочей роли ForEachBatch
    • [SPARK-47818][CONNECT][Cherry-pick-14.3] Введите кэш планов в SparkConnectPlanner для повышения производительности запросов анализа
    • [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite сбой с недопустимым планом
    • Обновления системы безопасности операционной системы.
  • 11 апреля 2024 г.
    • (Изменение поведения) Чтобы обеспечить согласованное поведение в разных типах вычислений, определяемые пользователем PySpark в общих кластерах, теперь соответствуют поведению определяемых пользователем удостовериться в отсутствии изоляции и назначенных кластерах. Этот update включает следующие изменения, которые могут нарушить существующий код:
      • Определяемые пользователем функции с типом возврата string больше не выполняют неявное преобразованиеstringvalues в stringvalues. Ранее определяемые пользователем элементы с возвращаемым типом str упаковывают возвращаемое значение с str() функцией независимо от фактического типа данных возвращаемого значения.
      • Определяемые пользователем функции с timestamp возвращаемыми типами больше неявно применяют преобразование к timestamptimezone.
      • Конфигурации spark.databricks.sql.externalUDF.* кластера Spark больше не применяются к пользовательским файлам PySpark в общих кластерах.
      • Конфигурация spark.databricks.safespark.externalUDF.plan.limit кластера Spark больше не влияет на определяемые пользователем функции PySpark, удаляя ограничение общедоступной предварительной версии 5 определяемых пользователем пользователей для pySpark.
      • Конфигурация spark.databricks.safespark.sandbox.size.default.mib кластера Spark больше не применяется к определяемой пользователем функции PySpark в общих кластерах. Вместо этого используется доступная память в системе. Чтобы limit память пользовательских функций PySpark, используйте spark.databricks.pyspark.udf.isolation.memoryLimit с минимальным значением 100m.
    • Теперь тип данных TimestampNTZ поддерживается как кластеризация column с кластериванием жидкости. См. раздел Использование кластеризации жидкости для delta tables.
    • [SPARK-47511][SQL] Канонизация с помощью выражений путем повторного назначения идентификаторов
    • [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
    • [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
    • [SPARK-47638][PS][CONNECT] Пропустить проверку имени column в PS
    • Обновления системы безопасности операционной системы.
  • 14 марта 2024 г.
    • [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
    • [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
    • [SPARK-47145][SQL] Передайте tableidentifier в exec проверки источника данных строк для стратегии V2.
    • [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC в explain выходные данные
    • [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
    • [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
    • [SPARK-47121][CORE] Избегайте отклоненийExecutionExceptions во время завершения работы StandaloneSchedulerBackend
    • Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
    • [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
    • [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier должен содержать другие выражения в дереве выражений
    • [SPARK-47129][CONNECT][SQL] Правильное подключение ResolveRelations к кэшу
    • [SPARK-47241][SQL] Устранение проблем с порядком правил для ExtractGenerator
    • [SPARK-47035][SS][CONNECT] Протокол для прослушивателя на стороне клиента
    • Обновления системы безопасности операционной системы.
  • 29 февраля 2024 г.
    • Исправлена проблема, where использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика метрики numSourceRows сообщает о двойном правильном количестве строк.
    • Для создания schema с определенным расположением теперь требуется, чтобы у пользователя были привилегии SELECT и МОДИФИКАЦИЯ на любой файл.
    • [SPARK-47071][SQL] Встроенное выражение с выражением, если оно содержит специальное выражение
    • [SPARK-47059][SQL] Присоединить контекст ошибки для команды ALTER COLUMN v1
    • [SPARK-46993][SQL] Исправление свертывания констант для переменных сеанса
    • Обновления системы безопасности операционной системы.
  • 3 января 2024 г.
    • [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
    • [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
    • [SPARK-46954] XML: оболочка InputStreamReader с помощью bufferedReader.
    • [SPARK-46655] Пропустить перехват контекста запроса в DataFrame методах.
    • [SPARK-44815] Cache df.schema, чтобы избежать дополнительных RPC.
    • [SPARK-46952] XML: Limit размер поврежденной записи.
    • [SPARK-46794]Remove подзапросы из ограничений на LogicalRDD.
    • [SPARK-46736] сохраните пустое поле сообщения в соединителе protobuf.
    • [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
    • [SPARK-46414] Используйте prependBaseUri для отрисовки импорта javascript.
    • [SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования TaskInfo.accumulables().
    • [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
    • [SPARK-46954] XML: Optimizeschema поиск индекса.
    • [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
    • [SPARK-46644] Измените добавление и слияние в SQLMetric для использования isZero.
    • [SPARK-46731] Управление экземпляром поставщика хранилища состояний по источнику данных состояния — читателю.
    • [SPARK-46677] Исправление dataframe["*"] разрешения.
    • [SPARK-46610] Создание table должно вызывать исключение, если значение для ключа в опциях отсутствует.
    • [SPARK-46941] невозможно insertwindow группировать limit узел для вычисления "top-k", если он содержит SizeBasedWindowFunction.
    • [SPARK-45433] исправление schema CSV/JSON, если метки времени не соответствуют заданной метке времени.
    • [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
    • [SPARK-46227] Backport to 14.3.
    • [SPARK-46822] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc.
    • Обновления системы безопасности операционной системы.

Databricks Runtime 14.1

См. раздел Databricks Runtime 14.1.

  • 26 ноября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 5 ноября 2024 г.
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
  • 22 октября 2024 г.
    • [SPARK-49782][SQL] Правило ResolveDataFrameDropColumns разрешает неразрешенныйAttribute с дочерними выходными данными
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
  • 10 октября 2024 г.
    • [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Классify Error class for FlatMapGroupsWithState user function error
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr не должно изменять поля schema при обрезке GetArrayStructFields
    • Обновления системы безопасности операционной системы.
  • 25 сентября 2024 г.
    • [SPARK-49628][SQL] ConstantFolding должен копировать выражение с отслеживанием состояния перед вычислением
    • [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
    • [SPARK-48719][SQL] Исправлена ошибка вычисления regrS...
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
    • Обновления системы безопасности операционной системы.
  • 17 сентября 2024 г.
    • [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
    • Обновления системы безопасности операционной системы.
  • 29 августа 2024 г.
    • [SPARK-49263][CONNECT] Клиент Python Spark Connect: согласованно обрабатывать логические параметры чтения с кадрами данных
    • [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
  • 14 августа 2024 г.
    • [SPARK-48706][PYTHON] UDF Python в функциях более высокого порядка не должен вызывать внутреннюю ошибку
    • [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
    • [SPARK-48050][SS] Логический план журнала при запуске запроса
  • 1 августа 2024 г.
    • Этот выпуск включает исправление ошибок для ColumnVector и ColumnarArray классов в интерфейсе Java Spark. До этого исправления мог быть вызван ArrayIndexOutOfBoundsException или возвращены неверные данные, когда экземпляр одного из этих классов содержал nullvalues.
    • Выходные данные из инструкции SHOW CREATE TABLE теперь включают любые фильтры строк или маски column, определенные в материализованном представлении или потоковой передаче table. См. SHOW CREATE TABLE. Дополнительные сведения о фильтрах строк и масках column см. в статье Фильтрация конфиденциальных table данных с использованием фильтров строк и масок column.
    • [SPARK-48705][PYTHON] Явное использование worker_main при запуске с pyspark
    • [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
    • Обновления системы безопасности операционной системы.
  • 11 июля 2024 г.
    • (Изменение поведения) DataFrame, кэшированные для источников Delta table, теперь недействительны, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь делают недействительными кэшированные результаты. Используйте .checkpoint() для сохранения состояния table в течение всего времени существования кадра данных.
    • Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
    • [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
    • [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
    • [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
    • [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
    • [SPARK-48503][SQL] Исправлены недопустимые скалярные подзапросы с группировкой по неэквивалентным columns, которые были неправильно разрешены
    • [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
    • [SPARK-48100][SQL] Устранение проблем при пропуске вложенных полей структуры, не выбранных в schema
    • [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
    • Обновления системы безопасности операционной системы.
  • 17 июня 2024 г.
    • Исправлена ошибка where в оптимизации ранжированияwindow, из-за которой Photon TopK неправильно обрабатывал разделы со структурами.
    • [SPARK-48276][PYTHON][CONNECT] Добавление отсутствующих __repr__ методов для SQLExpression
    • [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
    • Обновления системы безопасности операционной системы.
  • 21 мая 2024 г.
    • (изменение поведения) dbutils.widgets.getAll() теперь поддерживается для get всех виджетов values в записной книжке.
    • [SPARK-47994][SQL] Исправлена ошибка с фильтром push down CASE WHEN column в SQLServer
    • [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
    • [SPARK-48173][SQL] CheckAnalysis должен видеть весь план запроса
    • Обновления системы безопасности операционной системы.
  • 9 мая 2024 г.
    • [SPARK-47371] [SQL] XML: игнорировать теги строк, найденные в CDATA
    • [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
    • [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
    • [SPARK-48044][PYTHON][CONNECT] Тайник DataFrame.isStreaming
    • [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2024 г.
    • [SPARK-47704][SQL] Синтаксический анализ JSON завершается ошибкой "java.lang.ClassCastException", если включен параметр spark.sql.json.enablePartialResults
    • [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite сбой с недопустимым планом
    • Обновления системы безопасности операционной системы.
  • 11 апреля 2024 г.
    • [SPARK-47638][PS][CONNECT] Пропустить проверку имени column в PS
    • [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
    • [SPARK-47309][SQL][XML] Добавить модульные тесты для инференции schema
    • [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
    • [SPARK-46990][SQL] Исправлена загрузка пустых файлов Avro, создаваемых центрами событий
    • Обновления системы безопасности операционной системы.
  • 1 апреля 2024 г.
    • [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
    • [SPARK-47218][SQL] XML: игнорировать закомментированные теги строк в xml-токенизаторе
    • [SPARK-47300][SQL] quoteIfNeeded должен процитировать identifier начинается с цифр
    • [SPARK-47368][SQL] Remove проверка конфигурации inferTimestampNTZ в ParquetRowConverter
    • [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
    • [SPARK-47322][PYTHON][CONNECT] Сделать обработку дублирования имен withColumnsRenamedcolumn согласованной с withColumnRenamed
    • [SPARK-47300] Исправление для DecomposerSuite
    • [SPARK-47218] [SQL] XML: изменена схемаOfXml для сбоя в режиме DROPMALFORMED
    • [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
    • Обновления системы безопасности операционной системы.
  • 14 марта 2024 г.
    • [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
    • [SPARK-47145][SQL] Передайте tableidentifier в выполнение сканирования источника данных строк для стратегии V2.
    • [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
    • [SPARK-47129][CONNECT][SQL] Правильное подключение ResolveRelations к кэшу
    • Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
    • [SPARK-47044][SQL] Добавление выполненного запроса для внешних источников данных JDBC в выходные данные explain
    • Обновления системы безопасности операционной системы.
  • 29 февраля 2024 г.
    • Исправлена проблема where: использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщает о двойном количестве строк.
    • Для создания schema с определенным расположением теперь требуется, чтобы пользователь обладал SELECT и привилегиями ИЗМЕНЕНИЯ на ЛЮБОЙ ФАЙЛ.
    • Теперь вы можете получать XML-файлы с помощью автозагрузчика, read_files, COPY INTO, DLT и DBSQL. Поддержка XML-файлов может автоматически выводить и развивать schema, восстанавливать данные с несовпадениями типов, валидировать XML с использованием XSD, поддерживать SQL-выражения, такие как from_xml, schema_of_xml и to_xml. Дополнительные сведения см . в статье о поддержке XML-файла. Если вы ранее использовали внешний пакет spark-xml, ознакомьтесь с инструкциями по миграции.
    • [SPARK-46248][SQL] XML: поддержка параметров ignoreCorruptFiles и ignoreMissingFiles
    • [SPARK-47059][SQL] Присоединить контекст ошибки для команды ALTER COLUMN версии 1
    • [SPARK-46954][SQL] XML: оболочка InputStreamReader с помощью bufferedReader
    • [SPARK-46954][SQL] XML: поиск индекса Optimizeschema
    • [SPARK-46630][SQL] XML: проверка имени XML-элемента при записи
    • Обновления системы безопасности операционной системы.
  • 8 февраля 2024 г.
    • Запросы канала данных изменений (CDF) в Unity Catalog материализованных views не поддерживаются, и попытка запустить запрос CDF с Unity Catalog материализованным представлением возвращает ошибку. Unity Catalog потоковая передача поддерживает tables запросы CDF для неAPPLY CHANGEStables в Databricks Runtime 14.1 и более поздних версиях. Запросы CDF не поддерживаются при потоковой трансляции Unity Catalogtables в Databricks Runtime 14.0 и более ранних версиях.
    • [SPARK-46952] XML: Limit размер поврежденной записи.
    • [SPARK-45182] Игнорировать завершение задачи из старой стадии после повторного выполнения родительского этапа, определяемого контрольной суммой.
    • [SPARK-46794]Remove вложенные запросы из ограничений LogicalRDD.
    • [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
    • [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
    • [SPARK-45582] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи.
    • [SPARK-46930] Добавьте поддержку настраиваемого префикса для полей типа Union в Avro.
    • [SPARK-46941] не удается insertwindowlimit узла для вычислений top-k, если содержит SizeBasedWindowFunction.
    • [SPARK-46396] Вывод метки времени не должен вызывать исключение.
    • [SPARK-46822] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc.
    • [SPARK-45957] Избегайте создания плана выполнения для не исполняемых команд.
    • Обновления системы безопасности операционной системы.
  • 31 января 2024 г.
    • [SPARK-46684] Исправьте coGroup.applyInPandas/Arrow, чтобы правильно передать аргументы.
    • [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
    • [SPARK-45498] Дальнейшие действия. Пропустить завершение задачи из старых попыток этапа.
    • [SPARK-46382] XML: Update документ для ignoreSurroundingSpaces.
    • [SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока существования TaskInfo.accumulables().
    • [SPARK-46382] XML: по умолчанию игнорируется Значение true ДляSurroundingSpaces.
    • [SPARK-46677] Исправление dataframe["*"] разрешения.
    • [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
    • [SPARK-46633] Исправление средства чтения Avro для обработки блоков нулевой длины.
    • [SPARK-45912] Усовершенствование API XSDToSchema: переход на API HDFS для специальных возможностей облачного хранилища.
    • [SPARK-46599] XML: используйте TypeCoercion.findTightestCommonType для проверки совместимости.
    • [SPARK-46382] XML: запись values чередуется между элементами.
    • [SPARK-46769] уточнить интерпретацию, связанную с метками времени schema.
    • [SPARK-46610] Создание table должно вызывать исключение, если значение ключа в параметрах отсутствует.
    • [SPARK-45964]Remove закрытый SQL-метод доступа в XML- и JSON-пакетах под пакетом Catalyst.
    • Откат [SPARK-46769] уточнение вывода, связанного с меткой времени schema.
    • [SPARK-45962]RemovetreatEmptyValuesAsNulls и используйте вместо этого параметр nullValue в XML.
    • [SPARK-46541] Исправить неоднозначную ссылку column в self join.
    • Обновления системы безопасности операционной системы.
  • 17 января 2024 г.
    • Узел shuffle плана explain, возвращаемого запросом Photon, обновляется, чтобы добавить флаг causedBroadcastJoinBuildOOM=true при возникновении ошибки недостатка памяти во время перетасовки, которая является частью широковещательной операции join.
    • Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
    • [SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в ALSModel.transform.
    • [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
    • [SPARK-46484] Чтобы resolveOperators вспомогательные функции сохраняли идентификатор плана.
    • [SPARK-46153] XML: добавление поддержки TimestampNTZType.
    • [SPARK-46152] XML: Добавить поддержку DecimalType в интерпретацию XML-schema.
    • [SPARK-46145] spark.catalog.listTables не вызывает исключение, если table или представление не найдено.
    • [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
    • [SPARK-46394] Исправление spark.catalog.listDatabases() для устранения проблем с схемами, содержащими специальные символы, когда spark.sql.legacy.keepCommandOutputSchemaset в true.
    • [SPARK-46337] Сохраните CTESubstitutionPLAN_ID_TAG.
    • [SPARK-46466] Векторное средство чтения parquet никогда не должно делать перебазу для метки времени ntz.
    • [SPARK-46587] XML: исправлено преобразование большого целочисленного числа XSD.
    • [SPARK-45814] Сделайте стрелкуConverters.createEmptyArrowBatch вызов close(), чтобы избежать утечки памяти.
    • [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
    • [SPARK-46602] распространять allowExisting при создании представления, когда представлениеtable не существует.
    • [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
    • [SPARK-46355] XML: закройте InputStreamReader при завершении чтения.
    • [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
    • [SPARK-46261]DataFrame.withColumnsRenamed должен хранить упорядочение диктовки или карты.
    • [SPARK-46056] Исправление векторного вектора Parquet чтения NPE с значением по умолчанию byteArrayDecimalType.
    • [SPARK-46260]DataFrame.withColumnsRenamed должен соблюдать порядок диктовки.
    • [SPARK-46250] Deflake test_parity_listener.
    • [SPARK-46370] Исправлена ошибка при запросе из table после изменения параметров column по умолчанию.
    • [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
    • [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
  • 14 декабря 2023 г.
    • Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих из клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
    • [SPARK-45509] исправление df column ссылочного поведения для Spark Connect.
    • [SPARK-45844] Реализуйте нечувствительность регистра для XML.
    • [SPARK-46141] Измените значение по умолчанию для spark.sql.legacy.ctePrecedencePolicy на CORRECTED.
    • [SPARK-46028] Сделать Column.__getitem__ принимать входные данные column.
    • [SPARK-46255] Поддержка сложного типа —> преобразование строк.
    • [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
    • [SPARK-45433] Исправить schema CSV/JSON, когда метки времени не соответствуют указанному формату метки времени.
    • [SPARK-45316] Добавить новые parametersignoreCorruptFiles/ignoreMissingFiles в HadoopRDD и NewHadoopRDD.
    • [SPARK-45852] Грациозно справиться с ошибкой рекурсии во время ведения журнала.
    • [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
    • Обновления системы безопасности операционной системы.
  • 29 ноября 2023 г.
    • Установите новый пакет, pyarrow-hotfix чтобы устранить уязвимость PyArrow RCE.
    • Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки.
    • При приеме данных CSV с помощью автозагрузчика или потоковой передачи tablesбольшие CSV-файлы теперь могут быть разделены и обрабатываться параллельно как во время инференции schema, так и при обработке данных.
    • [SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки validateSchemaOutput и validateExprIdUniqueness.
    • [SPARK-45620] API, связанные с UDF Python, теперь используют верблюдьи Регистр.
    • [SPARK-44790] Добавлена to_xml реализация и привязки для Python, Spark Connect и SQL.
    • [SPARK-45770] исправлена проблема с column при помощи DataFrameDropColumns для Dataframe.drop.
    • [SPARK-45859] Сделал объекты UDF ленивым ml.functions .
    • [SPARK-45730] Улучшенные ограничения времени для ReloadingX509TrustManagerSuite.
    • [SPARK-44784] Сделал SBT тестирования герметично.
    • Обновления системы безопасности операционной системы.
  • 10 ноября 2023 г.
    • [SPARK-45545]SparkTransportConf наследуется SSLOptions при создании.
    • [SPARK-45250] Добавлена поддержка профиля ресурсов на уровне стадии для кластеров yarn при отключении динамического выделения.
    • [SPARK-44753] Добавлен модуль чтения и записи XML-кадра данных для PySpark SQL.
    • [SPARK-45396] Добавлена запись документа для PySpark.ml.connect модуля.
    • [SPARK-45584] Исправлен сбой выполнения вложенных запросов.TakeOrderedAndProjectExec
    • [SPARK-45541] Добавлен SSLFactory.
    • [SPARK-45577] исправлены UserDefinedPythonTableFunctionAnalyzeRunner для передачи сложенных values из именованных аргументов.
    • [SPARK-45562] Сделал "rowTag" обязательным параметром.
    • [SPARK-45427] Добавлены параметры SSL RPC в SSLOptions и SparkTransportConf.
    • [SPARK-43380] Исправлено замедление чтения Avro.
    • [SPARK-45430]FramelessOffsetWindowFunction больше не завершается ошибкой, когда IGNORE NULLS и offset > rowCount.
    • [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
    • [SPARK-45386] Исправлена проблема, whereStorageLevel.NONE неправильно возвращает значение 0.
    • [SPARK-44219] Добавлены проверки проверки на правило для перезаписи оптимизации.
    • [SPARK-45543] Исправлена проблема whereInferWindowGroupLimit вызвала проблему, если другие функции window не имели того же window кадра, что и функции ранжирования.
    • Обновления системы безопасности операционной системы.
  • 27 сентября 2023 г.
    • [SPARK-44823] Обновлено black до версии 23.9.1 и исправлена ошибка.
    • [SPARK-45339] PySpark теперь регистрирует ошибки, которые он повторяет.
    • Возврат [SPARK-42946] Редактированные конфиденциальные данные, вложенные в подстановки переменных.
    • [SPARK-44551] Измененные примечания для sync с OSS.
    • [SPARK-45360] Построитель сеансов Spark поддерживает инициализацию из SPARK_REMOTE.
    • [SPARK-45279] Присоединено plan_id ко всем логическим планам.
    • [SPARK-45425] Сопоставлено TINYINT с ShortTypeMsSqlServerDialect.
    • [SPARK-45419] Удалена запись карты версий файлов больших версий, чтобы избежать повторного использования rocksdb идентификаторов файлов sst.
    • [SPARK-45488] Добавлена поддержка значения в rowTag элементе.
    • [SPARK-42205] Удалено ведение журнала Accumulables событий запуска в Task/StageJsonProtocol журналах событий.
    • [SPARK-45426] Добавлена поддержка ReloadingX509TrustManager.
    • [SPARK-45256]DurationWriter завершается ошибкой при записи больше values, чем начальная емкость.
    • [SPARK-43380] Исправлены Avro проблемы с преобразованием типов данных без регрессии производительности.
    • [SPARK-45182] Добавлена поддержка отката этапа перетасовки карты, поэтому все задачи этапа можно получить, когда выходные данные этапа не определены.
    • [SPARK-45399] Добавлены параметры XML с помощью newOption.
    • Обновления системы безопасности операционной системы.

Databricks Runtime 13.3 LTS

См. раздел Databricks Runtime 13.3 LTS.

  • 26 ноября 2024 г.
    • [SPARK-49615] [ML] Сделайте набор данных всех преобразователей функций машинного обучения schema проверки, соответствующий конфигурации spark.sql.caseSensitive.
    • Обновления системы безопасности операционной системы.
  • 5 ноября 2024 г.
    • [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
    • [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Класс классify Error для ошибки пользовательской функции приемника Foreach
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • Обновления системы безопасности операционной системы.
  • 22 октября 2024 г.
    • [SPARK-48843] Предотвращение бесконечного цикла с помощью BindParameters
    • [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Класс классify Error для ошибки пользовательской функции приемника Foreach
    • [SPARK-49905] Используйте выделенный ShuffleOrigin для оператора с отслеживанием состояния, чтобы предотвратить изменение перетасовки из AQE
    • Обновления системы безопасности операционной системы.
  • 10 октября 2024 г.
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr не должна изменять поля schema при обрезке GetArrayStructFields
  • 25 сентября 2024 г.
    • [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
    • [SPARK-48719][SQL] Исправлена ошибка вычисления RegrSlope и RegrIntercept, когда первый параметр имеет значение NULL
    • [SPARK-43242][CORE] Исправление вызов "Непредвиденный тип BlockId" при диагностике повреждения смешения
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • Обновления системы безопасности операционной системы.
  • 17 сентября 2024 г.
    • [SPARK-49526][CONNECT] Поддержка путей в стиле Windows в ArtifactManager
    • [SPARK-48463][ML] Сделать Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor, которые поддерживают вложенные входные columns
    • Обновления системы безопасности операционной системы.
  • 29 августа 2024 г.
  • 14 августа 2024 г.
    • [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
    • [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
  • 1 августа 2024 г.
    • Этот выпуск включает исправление ошибок для ColumnVector и ColumnarArray классов в интерфейсе Java Spark. До этого исправления могла произойти ошибка ArrayIndexOutOfBoundsException или были возвращены неверные данные, когда экземпляр одного из этих классов содержал nullvalues.
    • [SPARK-47202][PYTHON] Исправление критических дат и времени ввода с помощью tzinfo
    • [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
    • [SPARK-48463] Реализация поддержки вложенных входных данных в StringIndexer columns
    • Обновления системы безопасности операционной системы.
  • 11 июля 2024 г.
    • (изменение поведения) DataFrame, кэшированные для источников Delta table, теперь аннулированы, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь аннулируют закэшированные результаты. Используйте .checkpoint() для сохранения состояния table в течение всего времени существования кадра данных.
    • Этот выпуск содержит исправление проблемы, которая не позволила правильно отображать вкладку среды пользовательского интерфейса Spark при запуске в службах контейнеров Databricks.
    • [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
    • [SPARK-48292][CORE] Возврат [SPARK-39195][SQL] OutputCommitCoordinator Spark должен прервать этап, когда зафиксированный файл не соответствует состоянию задачи
    • [SPARK-48503][SQL] Исправление неверных скалярных подзапросов при группировке по неэквивалентным columns, которые были неправильно разрешены
    • [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
    • [SPARK-48475][PYTHON] Optimize _get_jvm_function в PySpark.
    • [SPARK-48273][SQL] Исправление последней перезаписи PlanWithUnresolvedIdentifier
    • [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
    • Обновления системы безопасности операционной системы.
  • 17 июня 2024 г.
    • [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
    • Обновления системы безопасности операционной системы.
  • 21 мая 2024 г.
    • (изменение поведения) dbutils.widgets.getAll() теперь поддерживается для get всех виджетов values в ноутбуке.
    • [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
    • [SPARK-47994][SQL] Исправлена ошибка с помощью фильтра CASE WHEN column push down in SQLServer
    • Обновления системы безопасности операционной системы.
  • 9 мая 2024 г.
    • [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
    • [SPARK-46822][SQL] Уважение spark.sql.legacy.charVarcharAsString при приведение типа jdbc к типу катализатора в jdbc
    • [SPARK-47895]Группа [SQL] по всем должна быть идемпотентной
    • [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
    • [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2024 г.
    • [SPARK-44653][SQL] Нетривиальные объединения кадра данных не должны прерывать кэширование
    • Прочие исправления ошибок.
  • 11 апреля 2024 г.
    • [SPARK-47509][SQL] Блокировать выражения вложенных запросов в лямбда-функциях и функциях более высокого порядка
    • Обновления системы безопасности операционной системы.
  • 1 апреля 2024 г.
    • [SPARK-47385] Исправьте кодировщики кортежей с помощью входных данных Option.
    • [SPARK-38708][SQL] Обновление клиента хранилища метаданных Hive до версии 3.1.3 для Hive 3.1
    • [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
    • [SPARK-47368][SQL] Remove проверка конфигурации inferTimestampNTZ в ParquetRowConverter
    • [SPARK-44252][SS] Определите новый класс ошибок и примените для случая where состояние загрузки из DFS завершается сбоем.
    • [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
    • [SPARK-47300][SQL] quoteIfNeeded должен процитировать identifier начинается с цифр
    • [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
    • [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
    • Обновления системы безопасности операционной системы.
  • 14 марта 2024 г.
    • [SPARK-47145][SQL] Передайте tableidentifier в exec сканирования источника данных строковых данных для стратегии V2.
    • [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
    • [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
    • [SPARK-47044][SQL] Добавить выполненный запрос для внешних источников данных JDBC в explain выходные данные
    • [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
    • Обновления системы безопасности операционной системы.
  • 29 февраля 2024 г.
    • Исправлена ошибка where, из-за которой использование локальной коллекции в качестве источника в команде MERGE могло привести к тому, что метрика numSourceRows сообщала о двойном количестве строк по сравнению с корректным.
    • Для создания schema в определённом месте теперь требуется, чтобы у пользователя были привилегии SELECT и ИЗМЕНЕНИЕ на ЛЮБОЙ ФАЙЛ.
    • Обновления системы безопасности операционной системы.
  • 8 февраля 2024 г.
    • Запросы веб-канала изменений (CDF) в Unity Catalog материализованные views не поддерживаются, и попытка запустить запрос CDF с Catalog материализованным представлением возвращает ошибку. Поддержка потоковой передачи Catalog в Unity tables для запросов CDF по несоответствиюAPPLY CHANGEStables в Databricks Runtime 14.1 и более поздних версий. Запросы CDF не поддерживаются с помощью Unity Catalog потоковой передачи tables в Databricks Runtime 14.0 и более ранних версий.
    • [SPARK-46794]Remove вложенные запросы из ограничений LogicalRDD.
    • [SPARK-46933] Добавьте метрику времени выполнения запроса в соединители, использующие JDBCRDD.
    • [SPARK-45582] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи.
    • [SPARK-46396] Вывод метки времени не должен вызывать исключение.
    • [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
    • [SPARK-46941] невозможно insertwindow сгруппировать limit узел для вычисления top-k, если он содержит SizeBasedWindowFunction.
    • Обновления системы безопасности операционной системы.
  • 31 января 2024 г.
    • [SPARK-46610] Создание table должно вызывать исключение, если значение ключа в параметрах отсутствует.
    • [SPARK-46383] Сокращение использования кучи драйверов путем уменьшения срока действия taskInfo.accumulables().
    • [SPARK-46600] Переместите общий код между SqlConf и SqlApiConf в SqlApiConfHelper.
    • [SPARK-46676] dropDuplicatesWithinWatermark не должен завершать ошибку канонизации плана.
    • [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
    • Обновления системы безопасности операционной системы.
  • 17 января 2024 г.
    • Узел shuffle плана explain, возвращаемого запросом Photon, обновляется для добавления флага causedBroadcastJoinBuildOOM=true при возникновении ошибки нехватки памяти во время перетасовки, являющейся частью широковещательной передачи join.
    • Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
    • [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
    • [SPARK-46173] Пропуск вызова trimAll во время синтаксического анализа даты.
    • [SPARK-46370] Исправлена ошибка при выполнении запроса из table после изменения column настроек по умолчанию.
    • [SPARK-46370] Исправление ошибки при запросе из table после изменения значений column по умолчанию.
    • [SPARK-46370] Исправлена ошибка при запросе из table после изменения значений column по умолчанию.
    • [SPARK-46609] Избегайте экспоненциального взрыва в PartitioningPreservingUnaryExecNode.
    • [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
    • [SPARK-46602] распространение allowExisting в представлении при наличии представления илиtable.
    • [SPARK-46249] Требовать блокировку экземпляра для получения метрик RocksDB, чтобы предотвратить гонку с фоновыми операциями.
    • [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
    • [SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в ALSModel.transform.
    • [SPARK-46478] Вернуть SPARK-43049 для использования oracle varchar(255) для строки.
    • [SPARK-46250] Deflake test_parity_listener.
    • [SPARK-46394] Исправить spark.catalog.listDatabases() проблемы со схемами со специальными символами при spark.sql.legacy.keepCommandOutputSchemaset значение true.
    • [SPARK-46056] Исправление векторного вектора Parquet чтения NPE с значением по умолчанию byteArrayDecimalType.
    • [SPARK-46145] spark.catalog.listTables не вызывает исключение, если table или представление не найдено.
    • [SPARK-46466] Векторное средство чтения parquet никогда не должно делать перебазу для метки времени ntz.
  • 14 декабря 2023 г.
    • Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих из клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
    • [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
    • [SPARK-44582] Пропустить итератор на SMJ, если он был очищен.
    • [SPARK-45433] Исправить schema интерпретацию CSV/JSON, если метки времени не соответствуют указанному timestampFormat.
    • [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
    • Обновления системы безопасности операционной системы.
  • 29 ноября 2023 г.
    • Установите новый пакет, pyarrow-hotfix чтобы устранить уязвимость PyArrow RCE.
    • Соединитель Spark-snowflake обновляется до версии 2.12.0.
    • [SPARK-44846] Удалены сложные выражения группировки после RemoveRedundantAggregates.
    • [SPARK-45544] Встроенная поддержка SSL в TransportContext.
    • [SPARK-45892] Проверка плана оптимизатора рефакторинга для развязки validateSchemaOutput и validateExprIdUniqueness.
    • [SPARK-45730] Улучшенные ограничения времени для ReloadingX509TrustManagerSuite.
    • [SPARK-45859] Сделал объекты UDF ленивым ml.functions .
    • Обновления системы безопасности операционной системы.
  • 10 ноября 2023 г.
    • Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
    • Измененные запросы веб-канала данных в Unity Catalog потоковой передачи tables и материализованные views для отображения сообщений об ошибках.
    • [SPARK-45545]SparkTransportConf наследуется SSLOptions при создании.
    • [SPARK-45584] Исправлен сбой выполнения вложенных запросов.TakeOrderedAndProjectExec
    • [SPARK-45427] Добавлены параметры SSL RPC в SSLOptions и SparkTransportConf.
    • [SPARK-45541] Добавлен.SSLFactory
    • [SPARK-45430]FramelessOffsetWindowFunction больше не завершается ошибкой, когда IGNORE NULLS и offset > rowCount.
    • [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
    • [SPARK-44219] Добавлены дополнительные проверки для каждого правила для перезаписи оптимизации.
    • [SPARK-45543] Исправлена проблема whereInferWindowGroupLimit вызвала проблему, если другие функции window не имели того же window кадра, что и функции ранжирования.
    • Обновления системы безопасности операционной системы.
  • 23 октября 2023 г.
    • [SPARK-45256] Исправлена проблема, whereDurationWriter не удалось выполнить при записи больше values, чем начальная емкость.
    • [SPARK-45419] Избегайте повторного использования rocksdb sst файлов в другом rocksdb экземпляре, удалив записи карты версий файлов более крупных версий.
    • [SPARK-45426] Добавлена поддержка ReloadingX509TrustManager.
    • Прочие исправления.
  • 13 октября 2023 г.
    • Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
    • Функция array_insert основана на 1 для положительных и отрицательных индексов, в то время как раньше она была основана на 0 для отрицательных индексов. Теперь он вставляет новый элемент в конец входных массивов для индекса -1. Чтобы restore вернуть предыдущее поведение, используйте setspark.sql.legacy.negativeIndexInArrayInsert с true.
    • Исправлена проблема, которая мешала игнорированию поврежденных файлов при включенной настройке ignoreCorruptFiles во время обработки CSV с помощью автозагрузчика в режиме schema.
    • Возврат [SPARK-42946].
    • [SPARK-42205] Обновлен протокол JSON для remove логирования аккумулейтивов в событиях начала задачи или этапа.
    • [SPARK-45178] Резервное выполнение одного пакета для Trigger.AvailableNow неподдерживаемых источников, а не с помощью оболочки.
    • [SPARK-45316] Добавление новых parametersignoreCorruptFiles и ignoreMissingFiles в HadoopRDD и NewHadoopRDD.
    • [SPARK-44740] исправленные метаданные values для артефактов.
    • [SPARK-45360] Инициализированная конфигурация построителя сеансов Spark из SPARK_REMOTE.
    • [SPARK-44551] Измененные примечания для sync с использованием OSS.
    • [SPARK-45346] В Parquet schema теперь учитывается чувствительность к регистру при объединении флагов schema.
    • [SPARK-44658]ShuffleStatus.getMapStatus теперь возвращается None вместо Some(null).
    • [SPARK-44840] Сделано array_insert() 1 на основе отрицательных индексов.
  • 14 сентября 2023 г.
    • [SPARK-44873] Добавлена поддержка alter view с вложенными columns в клиенте Hive.
    • [SPARK-44878] Отключены строгие limit для RocksDB менеджера записи, чтобы избежать исключения вставки при завершении кеша.
  • 30 августа 2023 г.
    • Команда dbutils cp (dbutils.fs.cp) оптимизирована для ускорения копирования. Благодаря этому улучшению операции копирования могут занять до 100 меньше времени в зависимости от размера файла. Эта функция доступна во всех облаках и файловых системах, доступных в Databricks, в том числе для подключений Unity CatalogVolumes и DBFS.
    • [SPARK-44455] Идентификаторы кавычек с обратными знаками в SHOW CREATE TABLE результате.
    • [SPARK-44763] Исправлена проблема, показывающая строку как двойную в двоичном арифметике с интервалом.
    • [SPARK-44871] Исправлено percentile_disc поведение.
    • [SPARK-44714] Упрощение ограничения разрешения LCA относительно запросов.
    • [SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации taskThread .
    • [SPARK-44505] Добавлен переопределение для поддержки columnar в scan for DSv2.
    • [SPARK-44479] Исправлено преобразование protobuf из пустого типа структуры.
    • [SPARK-44718] Сопоставление ColumnVector конфигурации в режиме памяти по умолчанию со OffHeapMemoryMode значением конфигурации.
    • [SPARK-42941] Добавлена поддержка StreamingQueryListener в Python.
    • [SPARK-44558] Экспорт уровня журнала Spark Connect PySpark.
    • [SPARK-44464] исправлено applyInPandasWithStatePythonRunner для вывода строк, имеющих NULL в качестве первого значения column.
    • [SPARK-44643] Исправлено Row.__repr__ , когда поле является пустой строкой.
    • Обновления системы безопасности операционной системы.

Databricks Runtime 12.2 LTS

См. раздел Databricks Runtime 12.2 LTS.

  • 26 ноября 2024 г.
    • Прочие исправления ошибок.
  • 10 октября 2024 г.
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr не должен изменять поля schema во время обрезки GetArrayStructFields
  • 25 сентября 2024 г.
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пуст table путем расширения RewriteDistinctAggregates
    • [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
    • Прочие исправления ошибок.
  • 17 сентября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 29 августа 2024 г.
    • Прочие исправления ошибок.
  • 14 августа 2024 г.
    • [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
    • [SPARK-49056][SQL] ErrorClassesJsonReader не может правильно обрабатывать значение NULL
    • [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
    • [SPARK-48463][ML] Реализовать поддержку вложенных входных данных в StringIndexer columns
    • Обновления системы безопасности операционной системы.
  • 1 августа 2024 г.
  • 1 августа 2024 г.
    • Чтобы применить необходимые исправления безопасности, версия Python в Databricks Runtime 12.2 LTS обновляется с 3.9.5 до 3.9.19.
  • 11 июля 2024 г.
    • (изменение поведения) DataFrame, кэшированные к источникам Delta table, становятся недействительными, если источник table перезаписан. Это изменение означает, что все изменения состояния Delta tables теперь делают кэшированные результаты недействительными. Используйте .checkpoint() для сохранения состояния table в течение всего времени существования кадра данных.
    • [SPARK-48481][SQL][SS] Не применяйте OptimizeOneRowPlan к потоковому набору данных
    • [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
    • [SPARK-42741][SQL] Не распаковывать приведение в двоичном сравнении, если литерал имеет значение NULL
    • [SPARK-48445][SQL] Не встраивайте пользовательские функции с дорогими дочерними объектами
    • [SPARK-48503][SQL] Исправление недопустимых скалярных подзапросов с группировкой по неэквивалентным columns, которые были неправильно разрешены
    • [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
    • Обновления системы безопасности операционной системы.
  • 17 июня 2024 г.
    • [SPARK-48277] Улучшение сообщения об ошибке для ErrorClassesJsonReader.getErrorMessage
    • Прочие исправления ошибок.
  • 21 мая 2024 г.
    • [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
    • Обновления системы безопасности операционной системы.
  • 9 мая 2024 г.
    • [SPARK-44251][SQL] Set nullable правильно обрабатывается на коалесцированных join ключах в полном внешнем объединении с использованием join
    • [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
    • [SPARK-47956][SQL] Проверка работоспособности для неразрешенной ссылки на LCA
    • [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2024 г.
    • Обновления системы безопасности операционной системы.
  • 11 апреля 2024 г.
    • Обновления системы безопасности операционной системы.
  • 1 апреля 2024 г.
    • [SPARK-47305][SQL] Исправление PruneFilters, чтобы пометить флаг isStreaming LocalRelation правильно, когда план содержит пакетную и потоковую передачу.
    • [SPARK-44252][SS] Определите новый класс ошибок и примените для случая where состояние загрузки из DFS завершается сбоем.
    • [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
    • [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
    • Обновления системы безопасности операционной системы.
  • 14 марта 2024 г.
    • [SPARK-47176][SQL] Функция вспомогательного средства ResolveAllExpressionsUpWithPruning
    • Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
    • [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
    • [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
    • Обновления системы безопасности операционной системы.
  • 29 февраля 2024 г.
    • Исправлена проблема where: использование локальной коллекции в качестве источника в команде MERGE могло приводить к тому, что метрика numSourceRows сообщала о двойном количестве строк.
    • Для создания schema с определенным расположением теперь требуется, чтобы у пользователя были привилегии SELECT и ИЗМЕНЕНИЕ на ЛЮБОЙ ФАЙЛ.
    • [SPARK-45582][SS] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи
    • Обновления системы безопасности операционной системы.
  • 13 февраля 2024 г.
    • [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
    • [SPARK-46794]Remove подзапросы из ограничений LogicalRDD.
    • Обновления системы безопасности операционной системы.
  • 31 января 2024 г.
    • [SPARK-46763] Исправлена ошибка утверждения в ReplaceDeduplicateWithAggregate для повторяющихся атрибутов.
    • Обновления системы безопасности операционной системы.
  • 25 декабря 2023 г.
    • Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
    • [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
    • [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
    • [SPARK-46394] Исправление spark.catalog.listDatabases() проблемы со схемами со специальными символами при spark.sql.legacy.keepCommandOutputSchemaset значение true.
    • [SPARK-46417] Не завершайте ошибку при вызове hive.getTable и throwException имеет значение false.
    • [SPARK-43067] Исправьте расположение файла ресурсов класса ошибок в соединителе Kafka.
    • [SPARK-46249] Требовать блокировку экземпляра для получения метрик RocksDB, чтобы предотвратить гонку с фоновыми операциями.
    • [SPARK-46602] распространение allowExisting при создании представления, когда представление/table не существует.
    • [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
    • [SPARK-46145] spark.catalog.listTables не выбрасывает исключение, если table или представление не найдено.
    • [SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в ALSModel.transform.
    • [SPARK-42852] Повторное изменение именованного имениLambdaVariable из ЭквивалентаExpressions.
  • 14 декабря 2023 г.
    • Исправлена проблема с where экранированными символами подчеркивания в операциях getColumns, которые исходят от клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
    • [SPARK-44582] Пропустить итератор на SMJ, если он был очищен.
    • [SPARK-45920] группа по порядковой номеру должна быть идемпотентной.
    • [SPARK-45655] Разрешить недетерминированные выражения внутри AggregateFunctions в CollectMetrics.
    • Обновления системы безопасности операционной системы.
  • 29 ноября 2023 г.
    • Установите новый пакет, pyarrow-hotfix чтобы устранить уязвимость PyArrow RCE.
    • Исправлена проблема, при которой экранированные символы подчеркивания where в операциях getColumns, исходящих от клиентов JDBC или ODBC, были неправильно интерпретированы как подстановочные знаки.
    • [SPARK-42205] Удалены журналы, доступные для ведения журнала, в Stage событиях запуска и Task запуска.
    • [SPARK-44846] Удалены сложные выражения группировки после RemoveRedundantAggregates.
    • [SPARK-43718] Исправлена возможность null для ключей в USING соединениях.
    • [SPARK-45544] Встроенная поддержка SSL в TransportContext.
    • [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображает неудачные запросы.
    • [SPARK-45730] Улучшенные ограничения времени для ReloadingX509TrustManagerSuite.
    • [SPARK-45859] Сделал объекты UDF ленивым ml.functions .
    • Обновления системы безопасности операционной системы.
  • 14 ноября 2023 г.
    • Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
    • [SPARK-45545]SparkTransportConf наследуется SSLOptions при создании.
    • [SPARK-45427] Добавлены параметры SSL RPC в SSLOptions и SparkTransportConf.
    • [SPARK-45584] Исправлен сбой выполнения вложенных запросов.TakeOrderedAndProjectExec
    • [SPARK-45541] Добавлен.SSLFactory
    • [SPARK-45430]FramelessOffsetWindowFunction больше не завершается ошибкой, когда IGNORE NULLS и offset > rowCount.
    • [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
    • Обновления системы безопасности операционной системы.
  • 24 октября 2023 г.
    • [SPARK-45426] Добавлена поддержка ReloadingX509TrustManager.
    • Прочие исправления.
  • 13 октября 2023 г.
    • Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
    • [SPARK-42553] Убедитесь, что по крайней мере один единица времени после интервала.
    • [SPARK-45346] Parquet schema вывод учитывает флаг конфиденциальности регистра при слиянии schema.
    • [SPARK-45178] Резервное выполнение одного пакета для Trigger.AvailableNow неподдерживаемых источников, а не с помощью оболочки.
    • [SPARK-45084]StateOperatorProgress для использования точного, подходящего количества перестановок partition.
  • 12 сентября 2023 г.
    • [SPARK-44873] Добавлена поддержка alter view с вложенными columns в клиенте Hive.
    • [SPARK-44718] Сопоставление ColumnVector конфигурации в режиме памяти по умолчанию со OffHeapMemoryMode значением конфигурации.
    • [SPARK-43799] Добавлен двоичный параметр дескриптора в API PySpark Protobuf .
    • Прочие исправления.
  • 30 августа 2023 г.
    • [SPARK-44485] Оптимизировано TreeNode.generateTreeString.
    • [SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации taskThread .
    • [SPARK-44871][11.3-13.0] Исправлено percentile_disc поведение.
    • [SPARK-44714] Упрощенное ограничение разрешения LCA относительно запросов.
    • Обновления системы безопасности операционной системы.
  • 15 августа 2023 г.
    • [SPARK-44504] задача обслуживания очищает загруженные providers при ошибке остановки.
    • [SPARK-44464] Исправлено applyInPandasWithStatePythonRunner, чтобы выводить строки, которые имеют Null в качестве первого значения column.
    • Обновления системы безопасности операционной системы.
  • 29 июля 2023 г.
    • Исправлена проблема, wheredbutils.fs.ls() возвращалась INVALID_PARAMETER_VALUE.LOCATION_OVERLAP при вызове пути расположения хранилища, который столкнулся с другим внешним или управляемым расположением хранилища.
    • [SPARK-44199]CacheManager больше не обновляет ненужные fileIndex .
    • Обновления системы безопасности операционной системы.
  • 24 июля 2023 г.
    • [SPARK-44337] Исправлена проблема where любой set поля для Any.getDefaultInstance вызвали ошибки синтаксического анализа.
    • [SPARK-44136] Исправлена проблема, whereStateManagerget материализована в исполнителе вместо драйвера в FlatMapGroupsWithStateExec.
    • Обновления системы безопасности операционной системы.
  • 23 июня 2023 г.
    • Обновления системы безопасности операционной системы.
  • 15 июня 2023 г.
    • Фотонализовано approx_count_distinct.
    • Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
    • [SPARK-43779]ParseToDate теперь загружается EvalMode в основной поток.
    • [SPARK-43156][SPARK-43098] Проверка ошибки расширенного скалярного подзаверждения с decorrelateInnerQuery отключенным.
    • Обновления системы безопасности операционной системы.
  • 2 июня 2023 г.
    • Средство синтаксического анализа JSON в failOnUnknownFields режиме удаляет запись в DROPMALFORMED режиме и завершается сбоем непосредственно в режиме FAILFAST .
    • Повышение производительности добавочных обновлений с помощью SHALLOW CLONE Айсберга и Parquet.
    • Исправлена проблема в автозагрузчике where: различные форматы исходных файлов были несогласованы, когда предоставленные schema не включали выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов, у которых отсутствует columns в предполагаемом partitionschema.
    • [SPARK-43404] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
    • [SPARK-43413][11.3-13.0] Исправлена IN возможность nullquery ListQuery .
    • [SPARK-43522] Исправлено создание имени структуры column с индексом массива.
    • [SPARK-43541] распространять все Project теги при разрешении выражений и при наличии отсутствующих columns.
    • [SPARK-43527] Исправлено catalog.listCatalogs в PySpark.
    • [SPARK-43123] метаданные внутреннего поля больше не просачиваются в catalogs.
    • [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.
    • [SPARK-42444]DataFrame.drop теперь обрабатывает повторяющиеся columns правильно.
    • [SPARK-42937]PlanSubqueries теперь задает InSubqueryExec#shouldBroadcast значение true.
    • [SPARK-43286] обновленный режим aes_encrypt CBC до generate случайных IV.
    • [SPARK-43378] Правильно закрывайте объекты потока в deserializeFromChunkedBuffer.
  • 17 мая 2023 г.
    • Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
    • Если файл Avro считывался только с параметром failOnUnknownFields или с автозагрузчиком в режиме эволюции failOnNewColumnsschema, columns с различными типами данных будут считываться как null вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этот rescuedDataColumn параметр.
    • Автозагрузчик теперь выполняет следующие действия.
      • Правильно считывает и больше не спасаетIntegerShort, и Byte типы, если предоставлен один из этих типов данных, но файл Avro предлагает один из других двух типов.
      • Запрещает чтение типов интервалов в виде типов меток даты или времени, чтобы избежать повреждения дат.
      • Запрещает Decimal чтение типов с более низкой точностью.
    • [SPARK-43172] Предоставляет узел и маркер из клиента Spark connect.
    • [SPARK-43293]__qualified_access_only игнорируется в обычной columns.
    • [SPARK-43098] Исправлена ошибка правильности COUNT при группировке скалярных вложенных запросов по предложению.
    • [SPARK-43085] поддержка назначения columnDEFAULT для имен table нескольких частей.
    • [SPARK-43190]ListQuery.childOutput теперь согласуется со вторичными выходными данными.
    • [SPARK-43192] Удалена проверка charset агента пользователя.
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2023 г.
    • Если файл Parquet считывался только с параметром failOnUnknownFields или с автозагрузчиком в режиме эволюции failOnNewColumnsschema, columns, которые имели разные типы данных, будут считываться как null вместо того, чтобы вызвать ошибку, указывающую, что файл не может быть прочитан. Теперь эти операции чтения завершаются ошибкой и рекомендуют пользователям использовать этот rescuedDataColumn параметр.
    • Автоматический загрузчик теперь правильно считывает и больше не спасаетIntegerShort, и Byte типы, если предоставлен один из этих типов данных. Файл Parquet предлагает один из двух других типов. Когда ранее были включены спасенные данные column, несоответствие типа данных привело к тому, что columns сохранялись, даже несмотря на то, что они были доступны для чтения.
    • [SPARK-43009] Параметризованный sql() с Any константами
    • [SPARK-42406] Завершение рекурсивных полей Protobuf путем удаления поля
    • [SPARK-43038] Поддержка режима CBC по aes_encrypt()/aes_decrypt()
    • [SPARK-42971] Изменение на печатьworkdir, если appDirs значение NULL при событии рабочего дескриптора WorkDirCleanup
    • [SPARK-43018] Исправлена ошибка для команд INSERT с литералом метки времени
    • Обновления системы безопасности операционной системы.
  • 11 апреля 2023 г.
    • Поддержка устаревших форматов источников данных в команде SYNC .
    • Исправлена проблема в поведении %autoreload в записных книжках за пределами репозитория.
    • Исправлена проблема where: автозагрузчик schema может войти в бесконечный цикл ошибок при обнаружении нового column в schema вложенного объекта JSON.
    • [SPARK-42928] Выполняет resolvePersistentFunction синхронизацию.
    • [SPARK-42936] Устраняет проблему LCan, когда предложение может быть разрешено непосредственно его дочерним агрегатом.
    • [SPARK-42967] Исправления SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
    • Обновления системы безопасности операционной системы.
  • 29 марта 2023 г.
    • Databricks SQL теперь поддерживает указание values по умолчанию для columns Delta Lake tablesлибо во время создания table, либо после этого. Последующие команды INSERT, UPDATE, DELETEи MERGE могут ссылаться на любое значение columnпо умолчанию с помощью явного ключевого слова DEFAULT. Кроме того, если какое-либо назначение INSERT имеет явный list меньше columns, чем целевой table, соответствующие column по умолчанию values заменяются остальными columns (или NULL, если значение по умолчанию не указано).

      Например:

      CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
      INSERT INTO t VALUES (0, DEFAULT);
      INSERT INTO t VALUES (1, DEFAULT);
      SELECT first, second FROM t;
      > 0, 2023-03-28
      1, 2023-03-28z
      
    • Автозагрузчик теперь инициирует по крайней мере одну синхронную очистку журнала RocksDB для потоков Trigger.AvailableNow, чтобы проверить, что контрольная точка может get регулярно очищается для быстрых потоков автозагрузчика. Это может привести к тому, что некоторые потоки будут занять больше времени до завершения работы, но это позволит сэкономить затраты на хранение и улучшить возможности автозагрузчика в будущих запусках.

    • Теперь можно изменить Дельта table, чтобы добавить поддержку функций table с помощью DeltaTable.addFeatureSupport(feature_name).

    • [SPARK-42794] Увеличьте блокировкуAcquireTimeoutMs до 2 минут для получения хранилища состояний RocksDB в службе "Потоковая передача структуры"

    • [SPARK-42521] Добавить NULL для INSERT-операций с пользовательскими списками, содержащими меньше элементов columns, чем в целевых table

    • [SPARK-42702][SPARK-42623] Поддержка параметризованного запроса в вложенных запросах и CTE

    • [SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider

    • [SPARK-42403] JsonProtocol должен обрабатывать строки JSON NULL

  • 8 марта 2023 г.
    • Сообщение об ошибке "Сбой инициализации конфигурации" улучшено, чтобы обеспечить больше контекста для клиента.
    • Изменена терминология добавления функций в Delta table с помощью свойства table. Предпочтительный синтаксис теперь 'delta.feature.featureName'='supported' вместо 'delta.feature.featureName'='enabled'. Для обеспечения обратной совместимости использование 'delta.feature.featureName'='enabled' по-прежнему работает и продолжит работать.
    • Начиная с этого выпуска, можно заменить table дополнительным свойством tabledelta.ignoreProtocolDefaults, чтобы игнорировать конфигурации Spark, связанные с протоколом, которые включают версии чтения и записи по умолчанию и функции table, поддерживаемые по умолчанию.
    • [SPARK-42070] Изменение значения по умолчанию аргумента функции Mask с -1 на NULL
    • [SPARK-41793] Неверный результат для кадров window, определенных условием диапазона для значительных десятичных разрядов
    • [SPARK-42484] Лучшее сообщение об ошибке unsafeRowUtils
    • [SPARK-42516] всегда записывайте настройки часового пояса сеанса при создании views
    • [SPARK-42635] Исправлено выражение TimestampAdd.
    • [SPARK-42622] Отключена подстановка в values
    • [SPARK-42534] исправление предложения DB2Dialect Limit
    • [SPARK-42121] Добавить встроенные функции для значений tableposexplode, posexplode_outer, json_tuple и stack
    • [SPARK-42045] Режим SQL ANSI: Round/Bround должен возвращать ошибку при крошечном/маленьком или значительном переполнении целых чисел
    • Обновления системы безопасности операционной системы.

Databricks Runtime 11.3 LTS

См. раздел Databricks Runtime 11.3 LTS.

  • 26 ноября 2024 г.
    • Прочие исправления ошибок.
  • 10 октября 2024 г.
    • Прочие исправления ошибок.
  • 25 сентября 2024 г.
    • [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • Прочие исправления ошибок.
  • 17 сентября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 29 августа 2024 г.
  • 14 августа 2024 г.
    • [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
    • [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
    • [SPARK-48463][ML] Сделать StringIndexer с поддержкой вложенных входных columns
    • Обновления системы безопасности операционной системы.
  • 1 августа 2024 г.
  • 1 августа 2024 г.
    • Чтобы применить необходимые исправления безопасности, версия Python в Databricks Runtime 11.3 LTS обновляется с 3.9.5 до 3.9.19.
  • 11 июля 2024 г.
    • [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
    • [SPARK-47070] Исправлена недопустимая агрегирование после перезаписи вложенных запросов
    • Обновления системы безопасности операционной системы.
  • 17 июня 2024 г.
    • Обновления системы безопасности операционной системы.
  • 21 мая 2024 г.
    • [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
    • Обновления системы безопасности операционной системы.
  • 9 мая 2024 г.
    • [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
    • [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Set корректно определяется на ключе слияния join в полном внешнем соединении USING join
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2024 г.
    • Обновления системы безопасности операционной системы.
  • 11 апреля 2024 г.
    • Обновления системы безопасности операционной системы.
  • 1 апреля 2024 г.
    • [SPARK-44252][SS] Определите новый класс ошибок и примените для случая where состояние загрузки из DFS завершается сбоем.
    • [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
    • Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
    • [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
    • Обновления системы безопасности операционной системы.
  • 14 марта 2024 г.
    • [SPARK-47167][SQL] Добавление конкретного класса для анонимного отношения JDBC
    • [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
    • Обновления системы безопасности операционной системы.
  • 29 февраля 2024 г.
    • Исправлена проблема (where): использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика numSourceRows сообщает об удвоенном количестве строк.
    • [SPARK-45582][SS] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи
  • 13 февраля 2024 г.
    • [SPARK-46794]Remove вложенные запросы из ограничений LogicalRDD.
    • [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
    • Обновления системы безопасности операционной системы.
  • 31 января 2024 г.
    • Обновления системы безопасности операционной системы.
  • 25 декабря 2023 г.
    • Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
    • [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
    • [SPARK-46602] распространение allowExisting при создании представления, когда представление/table не существует.
    • [SPARK-46394] Исправление spark.catalog.listDatabases() проблемы со схемами со специальными символами при spark.sql.legacy.keepCommandOutputSchemaset значение true.
    • [SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в ALSModel.transform.
    • [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
    • [SPARK-46249] Требовать блокировку экземпляра для получения метрик RocksDB, чтобы предотвратить гонку с фоновыми операциями.
    • [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
  • 14 декабря 2023 г.
    • Исправлена проблема, where экранированных символов подчеркивания в операциях getColumns, исходящих из клиентов JDBC или ODBC, обрабатывались неправильно и интерпретировались как подстановочные знаки.
    • Обновления системы безопасности операционной системы.
  • 29 ноября 2023 г.
    • Установите новый пакет, pyarrow-hotfix чтобы устранить уязвимость PyArrow RCE.
    • Исправлена проблема с where экранированными символами подчеркивания в операциях getColumns, исходящих от клиентов JDBC или ODBC, которые были неправильно интерпретированы как подстановочные знаки.
    • [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображает неудачные запросы.
    • [SPARK-45730] Улучшенные ограничения времени для ReloadingX509TrustManagerSuite.
    • [SPARK-45544] Встроенная поддержка SSL в TransportContext.
    • [SPARK-45859] Сделал объекты UDF ленивым ml.functions .
    • [SPARK-43718] Исправлена возможность null для ключей в USING соединениях.
    • [SPARK-44846] Удалены сложные выражения группировки после RemoveRedundantAggregates.
    • Обновления системы безопасности операционной системы.
  • 14 ноября 2023 г.
    • Partition фильтры в запросах потоковой передачи Delta Lake отправляются вниз до ограничения скорости, чтобы повысить эффективность использования.
    • [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
    • [SPARK-45545]SparkTransportConf наследуется SSLOptions при создании.
    • Возврат [SPARK-33861].
    • [SPARK-45541] Добавлен.SSLFactory
    • [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
    • [SPARK-45584] Исправлен сбой выполнения вложенных запросов.TakeOrderedAndProjectExec
    • [SPARK-45430]FramelessOffsetWindowFunction больше не завершается ошибкой, когда IGNORE NULLS и offset > rowCount.
    • [SPARK-45427] Добавлены параметры SSL RPC в SSLOptions и SparkTransportConf.
    • Обновления системы безопасности операционной системы.
  • 24 октября 2023 г.
    • [SPARK-45426] Добавлена поддержка ReloadingX509TrustManager.
    • Прочие исправления.
  • 13 октября 2023 г.
    • Зависимость Snowflake-jdbc обновлена с 3.13.29 до 3.13.33.
    • [SPARK-45178] Резервное выполнение одного пакета для Trigger.AvailableNow неподдерживаемых источников, а не с помощью оболочки.
    • [SPARK-45084]StateOperatorProgress для использования точного и подходящего partition числа.
    • [SPARK-45346] Parquet schema вывод теперь учитывает флаг с учетом регистра при слиянии schema.
    • Обновления системы безопасности операционной системы.
  • 10 сентября 2023 г.
    • Прочие исправления.
  • 30 августа 2023 г.
    • [SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации taskThread .
    • [SPARK-44871][11.3-13.0] Исправлено percentile_disc поведение.
    • Обновления системы безопасности операционной системы.
  • 15 августа 2023 г.
    • [SPARK-44485] Оптимизировано TreeNode.generateTreeString.
    • [SPARK-44504] задача обслуживания очищает загруженные providers при возникновении ошибки остановки.
    • [SPARK-44464] Исправлено applyInPandasWithStatePythonRunner, чтобы выходные строки имели Null в качестве первого значения column.
    • Обновления системы безопасности операционной системы.
  • 27 июля 2023 г.
    • Исправлена проблема, при которой wheredbutils.fs.ls() возвращалась INVALID_PARAMETER_VALUE.LOCATION_OVERLAP при вызове пути к расположению хранилища, совпадающему с другим внешним или управляемым местоположением хранилища.
    • [SPARK-44199]CacheManager больше не обновляет ненужные fileIndex .
    • Обновления системы безопасности операционной системы.
  • 24 июля 2023 г.
    • [SPARK-44136] Исправлена проблема, из-за которой StateManager может get материализованным в исполнителе, а не драйвером в FlatMapGroupsWithStateExec.
    • Обновления системы безопасности операционной системы.
  • 23 июня 2023 г.
    • Обновления системы безопасности операционной системы.
  • 15 июня 2023 г.
    • Фотонализовано approx_count_distinct.
    • Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
    • [SPARK-43779]ParseToDate теперь загружается EvalMode в основной поток.
    • [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
    • [SPARK-43156][SPARK-43098] Расширенный скалярный тест количества decorrelateInnerQuery ошибок с отключенным.
    • [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
    • Обновления системы безопасности операционной системы.
  • 2 июня 2023 г.
    • Средство синтаксического анализа JSON в failOnUnknownFields режиме удаляет запись в DROPMALFORMED режиме и завершается сбоем непосредственно в режиме FAILFAST .
    • Повышение производительности добавочных обновлений с помощью SHALLOW CLONE Айсберга и Parquet.
    • Исправлена проблема в автозагрузчике where, различные форматы исходных файлов были несогласованы, когда предоставленные schema не содержали выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов, в которых отсутствует columns, в интерпретации partitionschema.
    • [SPARK-43404]Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
    • [SPARK-43527] Исправлено catalog.listCatalogs в PySpark.
    • [SPARK-43413][11.3-13.0] Исправлена IN возможность nullquery ListQuery .
    • [SPARK-43340] Исправлено отсутствие поля трассировки стека в журналах событий.

Databricks Runtime 10.4 LTS

См. Databricks Runtime 10.4 LTS.

  • 26 ноября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 5 ноября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 22 октября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 10 октября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 25 сентября 2024 г.
    • [SPARK-46601] [CORE] Исправлена ошибка журнала в handleStatusMessage
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • Обновления системы безопасности операционной системы.
  • 17 сентября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 29 августа 2024 г.
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
  • 14 августа 2024 г.
    • [SPARK-48597][SQL] Введение маркера для свойства IsStreaming в текстовом представлении логического плана
    • [SPARK-48941][SPARK-48970] Исправление средства записи машинного обучения и средства чтения
    • [SPARK-48463][ML] Сделать StringIndexer поддерживающим вложенные входные данные columns
  • 1 августа 2024 г.
    • [SPARK-48896][SPARK-48909][SPARK-48883] Исправления средства записи машинного обучения backport spark
    • Обновления системы безопасности операционной системы.
  • 11 июля 2024 г.
    • [SPARK-48383][SS] Создание более эффективной ошибки для несовпадений секций в параметре startOffset в Kafka
    • Обновления системы безопасности операционной системы.
  • 17 июня 2024 г.
    • Обновления системы безопасности операционной системы.
  • 21 мая 2024 г.
    • [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
    • Обновления системы безопасности операционной системы.
  • 9 мая 2024 г.
    • [SPARK-48018][SS] Исправление null groupId, вызывающее ошибку param при вызове KafkaException.couldNotReadOffsetRange
    • [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Set правильно Set на объединенном join ключе в полной внешней среде USING join
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2024 г.
    • Обновления системы безопасности операционной системы.
  • 11 апреля 2024 г.
    • Обновления системы безопасности операционной системы.
  • 1 апреля 2024 г.
    • [SPARK-47135][SS] Реализация классов ошибок для исключений потери данных Kafka
    • [SPARK-44252][SS] Определите новый класс ошибок и примените для случая where состояние загрузки из DFS завершается сбоем.
    • [SPARK-47200][SS] Класс ошибок для ошибки пользовательской функции приемника пакетной службы Foreach
    • Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
    • Обновления системы безопасности операционной системы.
  • 14 марта 2024 г.
    • [SPARK-47125][SQL] Возвращает значение NULL, если Univocity никогда не активирует синтаксический анализ
    • Обновления системы безопасности операционной системы.
  • 29 февраля 2024 г.
    • Была исправлена проблема where, при которой использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика numSourceRows будет ошибочно сообщать о двойном количестве строк.
    • [SPARK-45582][SS] Убедитесь, что экземпляр хранилища не используется после вызова фиксации в режиме потоковой передачи потоковой передачи
    • Обновления системы безопасности операционной системы.
  • 13 февраля 2024 г.
    • [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
    • Обновления системы безопасности операционной системы.
  • 31 января 2024 г.
    • Обновления системы безопасности операционной системы.
  • 25 декабря 2023 г.
    • Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
    • [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
    • [SPARK-46538] Исправлена неоднозначная проблема со ссылкой column в ALSModel.transform.
    • [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
    • [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
  • 14 декабря 2023 г.
    • Обновления системы безопасности операционной системы.
  • 29 ноября 2023 г.
    • Установите новый пакет, pyarrow-hotfix чтобы устранить уязвимость PyArrow RCE.
    • [SPARK-45544] Встроенная поддержка SSL в TransportContext.
    • [SPARK-45859] Сделал объекты UDF ленивым ml.functions .
    • [SPARK-43718] Исправлена возможность null для ключей в USING соединениях.
    • [SPARK-45730] Улучшенные ограничения времени для ReloadingX509TrustManagerSuite.
    • [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
    • [SPARK-44846] Удалены сложные выражения группировки после RemoveRedundantAggregates.
    • Обновления системы безопасности операционной системы.
  • 14 ноября 2023 г.
    • [SPARK-45541] Добавлен.SSLFactory
    • [SPARK-45545]SparkTransportConf наследуется SSLOptions при создании.
    • [SPARK-45427] Добавлены параметры SSL RPC в SSLOptions и SparkTransportConf.
    • [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
    • [SPARK-45584] Исправлен сбой выполнения вложенных запросов.TakeOrderedAndProjectExec
    • Возврат [SPARK-33861].
    • Обновления системы безопасности операционной системы.
  • 24 октября 2023 г.
    • [SPARK-45426] Добавлена поддержка ReloadingX509TrustManager.
    • Обновления системы безопасности операционной системы.
  • 13 октября 2023 г.
    • [SPARK-45084]StateOperatorProgress чтобы использовать точное, оптимальное partition число.
    • [SPARK-45178] Резервное выполнение одного пакета для Trigger.AvailableNow неподдерживаемых источников, а не с помощью оболочки.
    • Обновления системы безопасности операционной системы.
  • 10 сентября 2023 г.
    • Прочие исправления.
  • 30 августа 2023 г.
    • [SPARK-44818] Исправлена гонка за ожидающие прерывания задачи, выданные до инициализации taskThread .
    • Обновления системы безопасности операционной системы.
  • 15 августа 2023 г.
    • [SPARK-44504] задача обслуживания очищает загруженные providers при возникновении ошибки остановки.
    • [SPARK-43973] Структурированный пользовательский интерфейс потоковой передачи теперь отображается неправильно.
    • Обновления системы безопасности операционной системы.
  • 23 июня 2023 г.
    • Обновления системы безопасности операционной системы.
  • 15 июня 2023 г.
    • Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
    • [SPARK-43098] Исправлена ошибка COUNT правильности, если скалярный вложенный запрос содержит группу по предложению
    • [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery
    • [SPARK-43156][SPARK-43098] Расширенный тест скалярного подзапроса с decorrelateInnerQuery отключенным.
    • Обновления системы безопасности операционной системы.
  • 2 июня 2023 г.
    • Средство синтаксического анализа JSON в failOnUnknownFields режиме удаляет запись в DROPMALFORMED режиме и завершается сбоем непосредственно в режиме FAILFAST .
    • Исправлена проблема в синтаксическом анализе данных JSON, чтобы предотвратить UnknownFieldException.
    • Исправлена проблема в автозагрузчике where; различные форматы исходных файлов были несогласованы, если предоставленные schema не включали выведенные разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов, в которых отсутствует columns в выведенной partitionschema.
    • [SPARK-43404] Пропустите повторное использовать SST-файл для той же версии хранилища состояний RocksDB, чтобы избежать ошибки несоответствия идентификаторов.
    • [SPARK-43413] Исправлена IN возможность nullquery ListQuery .
    • Обновления системы безопасности операционной системы.
  • 17 мая 2023 г.
    • Теперь сканирование Parquet обеспечивает надежную защиту от OOM при сканировании исключительно структурированных файлов путем динамической настройки размера пакета. Метаданные файлов анализируются для предварительного уменьшения размера пакета и снова снижаются при повторных попытках задачи в качестве окончательной сетки безопасности.
    • [SPARK-41520] Разделение AND_OR шаблона дерева для разделения и ANDразделенияOR.
    • [SPARK-43190]ListQuery.childOutput теперь согласуется со вторичными выходными данными.
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2023 г.
    • [SPARK-42928] Сделайте resolvePersistentFunction синхронизированным.
    • Обновления системы безопасности операционной системы.
  • 11 апреля 2023 г.
    • Исправлена проблема, при которой эволюция автозагрузчика whereschema может войти в бесконечный цикл сбоя при обнаружении нового column в schema вложенного JSON-объекта.
    • [SPARK-42937]PlanSubqueries теперь задает InSubqueryExec#shouldBroadcast значение true.
    • [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
  • 29 марта 2023 г.
    • [SPARK-42668] Перехват исключения при попытке закрыть сжатый поток в HDFSStateStoreProvider
    • [SPARK-42635] Исправление ...
    • Обновления системы безопасности операционной системы.
  • 14 марта 2023 г.
    • [SPARK-41162] Исправление анти- и полуцепиjoin для само-join с агрегациями
    • [SPARK-33206] Исправление вычисления веса кэша кэша индексов с перетасовками для небольших файлов индексов
    • [SPARK-42484] Улучшено сообщение об ошибке UnsafeRowUtils
    • Прочие исправления.
  • 28 февраля 2023 г.
    • Создана поддержка column для формата даты гггг-ММ-дд. Это изменение поддерживает partition обрезку для гггг-ММ-дд в виде date_format в созданных columns.
    • Теперь пользователи могут читать и записывать Delta tables, требуя Reader версии 3 и Writer версии 7, используя Databricks Runtime 9.1 LTS или более поздней версии. Для достижения успеха, возможности table, перечисленные в протоколе tables, должны поддерживаться текущей версией Databricks Runtime.
    • Создана поддержка для формата даты гггг-ММ-дд column. Это изменение поддерживает partition обрезку для гггг-ММ-дд в виде date_format в созданных columns.
    • Обновления системы безопасности операционной системы.
  • 16 февраля 2023 г.
    • [SPARK-30220] Включение вложенных запросов "Существует" или "В" за пределами узла фильтра
    • Обновления системы безопасности операционной системы.
  • 31 января 2023 г.
    • Table типы JDBC tables теперь внешние по умолчанию.
  • 18 января 2023 г.
    • Соединитель Azure Synapse возвращает более описательное сообщение об ошибке, если имя column содержит недопустимые символы, такие как пробелы или точки с запятой. В таких случаях будет возвращено следующее сообщение: Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
    • [SPARK-38277] Очистка пакета записи после фиксации хранилища состояний RocksDB
    • [SPARK-41199] Исправлена проблема с метриками при совместном использовании источника потоковой передачи DSv1 и источника потоковой передачи DSv2.
    • [SPARK-41198] Исправление метрик в потоковом запросе having источник потоковой передачи CTE и DSv1.
    • [SPARK-41339] Закройте и повторно создайте пакет записи RocksDB вместо простой очистки.
    • [SPARK-41732] Применение обрезки на основе дерева для правила SessionWindowing.
    • Обновления системы безопасности операционной системы.
  • 29 ноября 2022 г.
    • Пользователи могут настроить поведение ведущих и конечных пробелов при записи данных с помощью соединителя Redshift. Добавлены следующие параметры для управления обработкой пробелов:
      • csvignoreleadingwhitespace, когда set до true, удаляется начальный пробел из values при записи, когда tempformat находится в set до CSV или CSV GZIP. Пробелы сохраняются, когда конфигурация от set до false. Значение по умолчанию — true.
      • csvignoretrailingwhitespace, когда set равно true, удаляет конечный пробел из values во время записи, если tempformat соответствует set или CSV либо CSV GZIP. Пробелы сохраняются, когда конфигурация от set до false. Значение по умолчанию — true.
    • Исправлена проблема с синтаксическим разбором JSON в Автозагрузчике, когда все columns оставались в виде строк (cloudFiles.inferColumnTypes не были set или set для false), и JSON содержал вложенные объекты.
    • Обновления системы безопасности операционной системы.
  • 15 ноября 2022 г.
    • Обновление Apache commons-text до версии 1.10.0.
    • [SPARK-40646] синтаксический анализ JSON для структур, карт и массивов был исправлен, поэтому, если часть записи не соответствует schema, остальная часть записи по-прежнему может быть правильно проанализирована, а не возвращать значения NULL. Чтобы выбрать улучшенное поведение, setspark.sql.json.enablePartialResultstrue. Флаг отключен по умолчанию, чтобы сохранить исходное поведение.
    • [SPARK-40292] Исправить имена column в функции arrays_zip при обращении к массивам из вложенных структур
    • Обновления системы безопасности операционной системы.
  • 1 ноября 2022 г.
    • Исправлена проблема, where, если table Delta column с именем _change_type, но веб-канал изменений отключен в этом table, данные в этом column неправильно заполняют значение NULL values при запуске MERGE.
    • Исправлена проблема с автозагрузчиком where: этот файл можно дублировать в одном микро-пакете, когда включен allowOverwrites.
    • [SPARK-40697] Добавление заполнения на стороне чтения для покрытия внешних файлов данных
    • [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
    • Обновления системы безопасности операционной системы.
  • 18 октября 2022 г.
    • Обновления системы безопасности операционной системы.
  • 5 октября 2022 г.
    • [SPARK-40468] исправить обрезку column в CSV, когда выбрано _corrupt_record.
    • Обновления системы безопасности операционной системы.
  • 22 сентября 2022 г.
    • Пользователи могут использовать set spark.conf.set(spark.databricks.io.listKeysWithPrefix.azure.enabled, true) для повторной активации встроенного списка для Auto Loader на ADLS Gen2. Встроенное описание было ранее отключено из-за проблем с производительностью, но может быть вызвано увеличением затрат на хранение для клиентов.
    • [SPARK-40315] Добавление hashCode() для литерала ArrayBasedMapData
    • [SPARK-40213] Поддержка преобразования значений ASCII для символов Latin-1
    • [SPARK-40380] Исправление константного свертывания InvokeLike, чтобы избежать несериализируемых литерала, внедренных в план
    • [SPARK-38404] Улучшение разрешения CTE, когда вложенный CTE ссылается на внешний CTE
    • [SPARK-40089] Исправление сортировки для некоторых десятичных типов
    • [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
  • 6 сентября 2022 г.
    • [SPARK-40235] Используйте прерванную блокировку вместо синхронизированной в Executor.updateDependencies().
    • [SPARK-40218] GROUPING SETS должен сохранять структуру columnsгруппировки.
    • [SPARK-39976] ArrayIntersect должен правильно обрабатывать значение NULL в левом выражении.
    • [SPARK-40053] Добавление в динамические случаи отмены, для которых требуется assume среда выполнения Python.
    • [SPARK-35542] Исправление: Контейнеризатор создан для нескольких columns с разделением parameters SplitsArray, inputCols и outputCols нельзя загрузить после сохранения.
    • [SPARK-40079] Добавьте проверку ввода Imputer InputCols для пустого регистра ввода.
  • 24 августа 2022 г.
    • [SPARK-39983] Не кэшируйте несериализированные отношения вещания на драйвере.
    • [SPARK-39775] Отключить проверку values по умолчанию при анализе схем Avro.
    • [SPARK-39962] Применение проекции при пустых атрибутах группы
    • [SPARK-37643] Если charVarcharAsString имеет значение true, для запроса предиката типа char следует пропустить правило rpadding.
    • Обновления системы безопасности операционной системы.
  • 9 августа 2022 г.
    • [SPARK-39847] Исправьте состояние гонки в RocksDBLoader.loadLibrary(), если вызывающий поток прерван
    • [SPARK-39731] Исправлена проблема в источниках данных CSV и JSON при синтаксическом анализе дат в формате yyMMddd с политикой синтаксического анализа времени CORRECTED.
    • Обновления системы безопасности операционной системы.
  • 27 июля 2022 г.
    • [SPARK-39625] Добавьте Dataset.as(StructType).
    • [SPARK-39689]Поддержка 2-chars lineSep в источнике данных CSV.
    • [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded должно быть потокобезопасно.
    • [SPARK-39570] Встроенный table должен поддерживать выражения с псевдонимом.
    • [SPARK-39702] Уменьшите затраты на память TransportCipher$EncryptedMessage с помощью общей байтеRawChannel.
    • [SPARK-39575] добавить ByteBuffer#rewind послеget ByteBuffer# в AvroDeserializer.
    • [SPARK-39476] Отключить Unwrap cast optimize при приведении из Long в Float/Double или из Integer в Float.
    • [SPARK-38868] Не распространяйте исключения из предиката фильтра при оптимизации внешних соединений.
    • Обновления системы безопасности операционной системы.
  • 20 июля 2022 г.
    • Результаты операции Delta MERGE согласованы, если источник не детерминирован.
    • [SPARK-39355] Single column использует кавычки для создания НеразрешенногоАтрибута.
    • [SPARK-39548] CreateView Command с запросом предложения window нажмите неправильную проблему window определения.
    • [SPARK-39419] Исправление ArraySort для создания исключения при возврате значения NULL.
    • Отключено использование встроенных облачных API-интерфейсов автозагрузчика для перечисления каталогов в Azure.
    • Обновления системы безопасности операционной системы.
  • 5 июля 2022 г.
    • [SPARK-39376] Скрытие повторяющихся columns в расширении подзадач из NATURAL/USING JOIN
    • Обновления системы безопасности операционной системы.
  • 15 июня 2022 г.
    • [SPARK-39283] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator.
    • [SPARK-39285] Spark не должен проверять имена полей при чтении файлов.
    • [SPARK-34096] улучшить производительность для nth_value с пропуском значений NULL над offsetwindow.
    • [SPARK-36718] Исправлена isExtractOnly проверка в CollapseProject.
  • 2 июня 2022 г.
    • [SPARK-39093] Избегайте ошибки компиляции кодегена при делении интервалов в месяц или интервалов в день по целочисленным.
    • [SPARK-38990] Избегайте nullPointerException при оценке формата date_trunc/усечения в качестве привязанной ссылки.
    • Обновления системы безопасности операционной системы.
  • 18 мая 2022 г.
    • Устраняет потенциальную утечку встроенной памяти в автозагрузчике.
    • [SPARK-38918] Вложенное column обрезание должно отфильтровать атрибуты, которые не относятся к текущему отношения.
    • [SPARK-37593] Уменьшите размер страницы по умолчанию, LONG_ARRAY_OFFSET, если используется G1GC и ON_HEAP.
    • [SPARK-39084] Исправление df.rdd.isEmpty() с помощью TaskContext для остановки итератора при завершении задачи.
    • [SPARK-32268] Добавьте ColumnPruning в injectBloomFilter.
    • [SPARK-38974] Фильтр зарегистрированных функций с заданным именем базы данных в функциях list.
    • [SPARK-38931] Создайте корневой каталог dfs для RocksDBFileManager с неизвестным количеством ключей на 1-й контрольной точке.
    • Обновления системы безопасности операционной системы.
  • 19 апреля 2022 г.
    • Пакет SDK AWS для Java обновлен с версии 1.11.655 до версии 1.12.1899.
    • Исправлена проблема, из-за которой библиотеки с областью записной книжки не работали в заданиях пакетной потоковой передачи.
    • [SPARK-38616] Отслеживание текста sql-запроса в Приложении Catalyst TreeNode
    • Обновления системы безопасности операционной системы.
  • 6 апреля 2022 г.
    • Следующие функции SQL Spark теперь доступны в этом выпуске:
      • timestampadd() и dateadd(): добавьте длительность времени в указанное единицу в выражение метки времени.
      • timestampdiff() и datediff(): вычислите разницу времени между двумя выражениями меток в заданной единице.
    • Parquet-MR обновлен до версии 1.12.2.
    • Улучшена поддержка комплексных схем в файлах Parquet
    • [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack.
    • [SPARK-38509][SPARK-38481] Вишни выбрать три timestmapadd/diff изменения.
    • [SPARK-38523] Исправление, ссылающееся на поврежденную запись column из CSV.
    • [SPARK-38237] Разрешить ClusteredDistribution требовать полные ключи кластеризации.
    • [SPARK-38437] Сериализация даты и времени из источника данных.
    • [SPARK-38180] Разрешить безопасные выражения приведения в коррелированных предикатых равенства.
    • [SPARK-38155] Запретить отдельные агрегаты в боковом вложенных запросах с неподдерживаемые предикаты.
    • Обновления системы безопасности операционной системы.

Databricks Runtime 9.1 LTS

См. Databricks Runtime 9.1 LTS.

  • 26 ноября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 5 ноября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 22 октября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 10 октября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 25 сентября 2024 г.
    • [SPARK-49000][SQL] Исправление "select count(distinct 1) from t" where t пустой table путем расширения RewriteDistinctAggregates
    • Обновления системы безопасности операционной системы.
  • 6 сентября 2024 г.
    • Обновления системы безопасности операционной системы.
  • 29 августа 2024 г.
    • [SPARK-49065][SQL] Повторное масштабирование в устаревших модулях форматирования или синтаксических анализаторах должно поддерживать часовые пояса, отличные от JVM по умолчанию.
  • 14 августа 2024 г.
  • 1 августа 2024 г.
    • Обновления системы безопасности операционной системы.
  • 11 июля 2024 г.
    • Обновления системы безопасности операционной системы.
  • 17 июня 2024 г.
    • Обновления системы безопасности операционной системы.
  • 21 мая 2024 г.
    • [SPARK-48105][SS] Исправление состояния гонки между выгрузками и моментальными снимками хранилища состояний
    • Обновления системы безопасности операционной системы.
  • 9 мая 2024 г.
    • [SPARK-47973][CORE] Сайт вызова журнала в SparkContext.stop() и более поздних версиях в SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Set правильная допустимость нулевых значений на коалесцированном join ключе в полном внешнем объединении USING join
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2024 г.
    • Прочие исправления ошибок.
  • 11 апреля 2024 г.
    • Обновления системы безопасности операционной системы.
  • 1 апреля 2024 г.
    • Возврат "[SPARK-46861][CORE] Избегайте взаимоблокировки в DAGScheduler"
    • Обновления системы безопасности операционной системы.
  • 14 марта 2024 г.
    • Обновления системы безопасности операционной системы.
  • 29 февраля 2024 г.
    • Исправлена проблема where: использование локальной коллекции в качестве источника в команде MERGE может привести к тому, что метрика numSourceRows сообщает удвоенное количество строк.
    • Обновления системы безопасности операционной системы.
  • 13 февраля 2024 г.
    • [SPARK-46861] Избегайте взаимоблокировки в DAGScheduler.
    • Обновления системы безопасности операционной системы.
  • 31 января 2024 г.
    • Обновления системы безопасности операционной системы.
  • 25 декабря 2023 г.
    • Чтобы избежать повышенной задержки при обмене данными по протоколу TLSv1.3, этот выпуск обслуживания включает исправление для установки JDK 8, чтобы устранить ошибку JDK-8293562.
    • [SPARK-46058] Добавьте отдельный флаг для privateKeyPassword.
    • [SPARK-39440] Добавьте конфигурацию для отключения временной шкалы событий.
    • [SPARK-46132] Поддержка пароля ключа для ключей JKS для ПРОТОКОЛА SSL RPC.
  • 14 декабря 2023 г.
    • Обновления системы безопасности операционной системы.
  • 29 ноября 2023 г.
    • Установите новый пакет, pyarrow-hotfix чтобы устранить уязвимость PyArrow RCE.
    • [SPARK-45859] Сделал объекты UDF ленивым ml.functions .
    • [SPARK-45544] Встроенная поддержка SSL в TransportContext.
    • [SPARK-45730] Улучшенные ограничения времени для ReloadingX509TrustManagerSuite.
    • Обновления системы безопасности операционной системы.
  • 14 ноября 2023 г.
    • [SPARK-45545]SparkTransportConf наследуется SSLOptions при создании.
    • [SPARK-45429] Добавлены вспомогательные классы для обмена данными SSL RPC.
    • [SPARK-45427] Добавлены параметры SSL RPC в SSLOptions и SparkTransportConf.
    • [SPARK-45584] Исправлен сбой выполнения вложенных запросов.TakeOrderedAndProjectExec
    • [SPARK-45541] Добавлен.SSLFactory
    • [SPARK-42205] Удалены сведения о ведении журнала в событиях запуска этапов и задач.
    • Обновления системы безопасности операционной системы.
  • 24 октября 2023 г.
    • [SPARK-45426] Добавлена поддержка ReloadingX509TrustManager.
    • Обновления системы безопасности операционной системы.
  • 13 октября 2023 г.
    • Обновления системы безопасности операционной системы.
  • 10 сентября 2023 г.
    • Прочие исправления.
  • 30 августа 2023 г.
    • Обновления системы безопасности операционной системы.
  • 15 августа 2023 г.
    • Обновления системы безопасности операционной системы.
  • 23 июня 2023 г.
    • Библиотека Snowflake-jdbc обновляется до версии 3.13.29, чтобы устранить проблему безопасности.
    • Обновления системы безопасности операционной системы.
  • 15 июня 2023 г.
    • [SPARK-43098] Исправьте ошибку COUNT правильности, если скалярный вложенный запрос содержит группу по предложению.
    • [SPARK-43156][SPARK-43098] Расширение скалярного теста количества ошибок счетчика ошибок с decorrelateInnerQuery отключенным.
    • [SPARK-40862] Поддержка не агрегированных вложенных запросов в RewriteCorrelatedScalarSubquery.
    • Обновления системы безопасности операционной системы.
  • 2 июня 2023 г.
    • Средство синтаксического анализа JSON в failOnUnknownFields режиме удаляет запись в DROPMALFORMED режиме и завершается сбоем непосредственно в режиме FAILFAST .
    • Исправлена проблема в синтаксическом анализе данных JSON, чтобы предотвратить UnknownFieldException.
    • Исправлена проблема в Автозагрузчике where: различные форматы исходных файлов были несогласованы, если предоставленные schema не включали предполагаемые разделы. Эта проблема может привести к непредвиденным сбоям при чтении файлов, если в предполагаемом partitionschemaотсутствует columns.
    • [SPARK-37520]startswith() Добавление функций и endswith() строковых функций
    • [SPARK-43413] Исправлена IN возможность nullquery ListQuery .
    • Обновления системы безопасности операционной системы.
  • 17 мая 2023 г.
    • Обновления системы безопасности операционной системы.
  • 25 апреля 2023 г.
    • Обновления системы безопасности операционной системы.
  • 11 апреля 2023 г.
    • Исправлена проблема, where эволюция автозагрузчика schema может перейти в бесконечный цикл сбоя при обнаружении нового column в schema вложенного объекта JSON.
    • [SPARK-42967] Исправление SparkListenerTaskStart.stageAttemptId при запуске задачи после отмены этапа.
  • 29 марта 2023 г.
    • Обновления системы безопасности операционной системы.
  • 14 марта 2023 г.
    • [SPARK-42484] Улучшено сообщение об ошибке для UnsafeRowUtils.
    • Прочие исправления.
  • 28 февраля 2023 г.
    • Теперь пользователи могут читать и записывать конкретные Delta tables, требующие версии Reader 3 и версии Writer 7, используя Databricks Runtime 9.1 LTS или более позднюю версию. Чтобы достичь успеха, функции table, перечисленные в протоколе tables, должны поддерживаться текущей версией Databricks Runtime.
    • Обновления системы безопасности операционной системы.
  • 16 февраля 2023 г.
    • Обновления системы безопасности операционной системы.
  • 31 января 2023 г.
    • Table типы JDBC tables теперь внешние по умолчанию.
  • 18 января 2023 г.
    • Обновления системы безопасности операционной системы.
  • 29 ноября 2022 г.
    • Исправлена проблема синтаксического анализа JSON в автозагрузчике, когда все columns оставались в виде строк (cloudFiles.inferColumnTypes не был set или set для false) и JSON содержал вложенные объекты.
    • Обновления системы безопасности операционной системы.
  • 15 ноября 2022 г.
    • Обновление Apache commons-text до версии 1.10.0.
    • Обновления системы безопасности операционной системы.
    • Прочие исправления.
  • 1 ноября 2022 г.
    • Исправлена проблема, where, если table Delta column с именем _change_type, но веб-канал изменений отключен в этом table, данные в этом column неправильно заполняют значение NULL values при запуске MERGE.
    • Исправлена проблема с автозагрузчиком where, файл может быть дублирован в одном микропакете, при включении allowOverwrites.
    • [SPARK-40596] Заполнение объекта ExecutorDecommission сообщениями в ExecutorDecommissionInfo
    • Обновления системы безопасности операционной системы.
  • 18 октября 2022 г.
    • Обновления системы безопасности операционной системы.
  • 5 октября 2022 г.
    • Прочие исправления.
    • Обновления системы безопасности операционной системы.
  • 22 сентября 2022 г.
    • Пользователи могут set spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") для повторного включения встроенного перечисления для автозагрузчика на ADLS Gen2. Встроенное описание было ранее отключено из-за проблем с производительностью, но может быть вызвано увеличением затрат на хранение для клиентов.
    • [SPARK-40315] Добавление hashCode() для литерала ArrayBasedMapData
    • [SPARK-40089] Исправление сортировки для некоторых десятичных типов
    • [SPARK-39887] RemoveRedundantAliases должен сохранять псевдонимы, которые делают выходные данные узлов проекции уникальными
  • 6 сентября 2022 г.
    • [SPARK-40235] Используйте прерванную блокировку вместо синхронизированной в Executor.updateDependencies()
    • [SPARK-35542] Исправление: контейнеризатор, созданный для нескольких columns с разделением parameters SplitsArray, inputCols и outputCols невозможно загрузить после сохранения.
    • [SPARK-40079] Добавление проверки ввода Imputer InputCols для пустого регистра ввода
  • 24 августа 2022 г.
    • [SPARK-39666] Использование unsafeProjection.create для уважения spark.sql.codegen.factoryMode в ExpressionEncoder
    • [SPARK-39962] Применение проекции при пустых атрибутах группы
    • Обновления системы безопасности операционной системы.
  • 9 августа 2022 г.
    • Обновления системы безопасности операционной системы.
  • 27 июля 2022 г.
    • Результаты операции Delta MERGE согласованы, если источник не детерминирован.
    • [SPARK-39689] Поддержка 2-chars в источнике lineSep данных CSV
    • [SPARK-39575] Добавлено ByteBuffer#rewind после ByteBuffer#get этого в AvroDeserializer.
    • [SPARK-37392] Исправлена ошибка производительности для оптимизатора катализатора.
    • Обновления системы безопасности операционной системы.
  • 13 июля 2022 г.
    • [SPARK-39419]ArraySort создает исключение, когда средство сравнения возвращает значение NULL.
    • Отключено использование встроенных облачных API-интерфейсов автозагрузчика для перечисления каталогов в Azure.
    • Обновления системы безопасности операционной системы.
  • 5 июля 2022 г.
    • Обновления системы безопасности операционной системы.
    • Прочие исправления.
  • 15 июня 2022 г.
    • [SPARK-39283] Исправлена взаимоблокировка между TaskMemoryManager и UnsafeExternalSorter.SpillableIterator.
  • 2 июня 2022 г.
    • [SPARK-34554]copy() Реализуйте метод в ColumnarMap.
    • Обновления системы безопасности операционной системы.
  • 18 мая 2022 г.
    • Исправлена потенциальная утечка встроенной памяти в автозагрузчике.
    • Версия пакета SDK AWS обновлена с 1.11.655 до 1.11.678.
    • [SPARK-38918] Вложенное column устранение должно отфильтровывать атрибуты, которые не относятся к текущему соотношению
    • [SPARK-39084] Исправление df.rdd.isEmpty() с помощью TaskContext итератора при завершении задачи
    • Обновления системы безопасности операционной системы.
  • 19 апреля 2022 г.
    • Обновления системы безопасности операционной системы.
    • Прочие исправления.
  • 6 апреля 2022 г.
    • [SPARK-38631] Использует реализацию на основе Java для отмены таринга в Utils.unpack.
    • Обновления системы безопасности операционной системы.
  • 22 марта 2022 г.
    • Изменен текущий рабочий каталог записных книжек в кластерах высокой параллельности с включенным управлением доступом table или сквозной передачей учетных данных на домашний каталог пользователя. Ранее active directory был /databricks/driver.
    • [SPARK-38437] Сериализация даты и времени из источника данных
    • [SPARK-38180] Разрешить безопасные выражения приведения в коррелированных предикатах равенства
    • [SPARK-38155] Запретить отдельный агрегат в боковом вложенных запросах с неподдерживаемые предикаты
    • [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
  • 14 марта 2022 г.
    • [SPARK-38236] Абсолютные пути к файлам, указанным в table создания и изменения, рассматриваются как относительные
    • [SPARK-34069] поток задач прерывания, если локальное свойство SPARK_JOB_INTERRUPT_ON_CANCELset значение true.
  • 23 февраля 2022 г.
    • [SPARK-37859] SQL tables, созданных с помощью JDBC с Spark 3.1, недоступны для чтения с помощью Spark 3.2.
  • 8 февраля 2022 г.
    • [SPARK-27442] Удалено поле проверки при чтении или записи данных в паркете.
    • Обновления системы безопасности операционной системы.
  • 1 февраля 2022 г.
    • Обновления системы безопасности операционной системы.
  • 26 января 2022 г.
    • Исправлена проблема, при которой where параллельных транзакций в Delta tables могли фиксироваться в несериализуемом порядке при определенных редких условиях.
    • Исправлена проблема, where команда OPTIMIZE может завершиться ошибкой при включении диалекта SQL ANSI.
  • 19 января 2022 г.
    • Незначительные исправления и улучшения безопасности.
    • Обновления системы безопасности операционной системы.
  • 4 ноября 2021 г.
    • Исправлена проблема, из-за которой структурированные потоки потоковой передачи завершаются ошибкой ArrayIndexOutOfBoundsException.
    • Исправлено состояние гонки, которое могло привести к сбою запроса с использованием IOException, как, например, java.io.IOException: No FileSystem for scheme, или привести к тому, что изменения в sparkContext.hadoopConfiguration не вступят в силу в запросах.
    • Соединитель Apache Spark для разностного доступа был обновлен до 0.2.0.
  • 20 октября 2021 г.
    • Обновлен соединитель BigQuery с версии 0.18.1 до версии 0.22.2. Это добавляет поддержку типа BigNumeric.