Настройка свойств конфигурации Spark в Azure Databricks

Статья
11/07/2024

Свойства конфигурации Spark (Confs Spark) можно задать для настройки параметров в вычислительной среде.

Databricks обычно рекомендует настраивать большинство свойств Spark. Особенно при миграции из Apache Spark с открытым исходным кодом или обновлении версий среды выполнения Databricks устаревшие конфигурации Spark могут переопределить новые поведения по умолчанию, которые оптимизируют рабочие нагрузки.

Для многих действий, контролируемых свойствами Spark, Azure Databricks также предоставляет параметры для включения поведения на уровне таблицы или настройки пользовательского поведения в рамках операции записи. Например, эволюция схемы ранее контролировалась свойством Spark, но теперь имеет охват в SQL, Python и Scala. См . синтаксис эволюции схемы для слияния.

Настройка свойств Spark для записных книжек и заданий

Свойства Spark можно задать для записных книжек и заданий. Область конфигурации зависит от того, как его задать.

Свойства, настроенные:	Относится к:
Использование конфигурации вычислений	Все записные книжки и задания выполняются с помощью вычислительного ресурса.
В записной книжке	Только SparkSession для текущей записной книжки.

Инструкции по настройке свойств Spark на уровне вычислений см. в разделе "Конфигурация Spark".

Чтобы задать свойство Spark в записной книжке, используйте следующий синтаксис:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Настройка свойств Spark в Databricks SQL

Databricks SQL позволяет администраторам настраивать свойства Spark для доступа к данным в меню параметров рабочей области. См. раздел "Включение конфигурации доступа к данным"

Кроме конфигураций доступа к данным, Databricks SQL позволяет лишь несколько конфечений Spark, которые были псевдонимами более коротких имен для простоты. См . параметры конфигурации.

Для большинства поддерживаемых конфигураций SQL можно переопределить глобальное поведение в текущем сеансе. В следующем примере отключен режим ANSI:

SET ANSI_MODE = false

Настройка свойств Spark для конвейеров Delta Live Tables

Delta Live Tables позволяет настроить свойства Spark для конвейера, для одного вычислительного ресурса, настроенного для конвейера, или для отдельных потоков, материализованных представлений или потоковых таблиц.

Вы можете задать свойства конвейера и вычислений Spark с помощью пользовательского интерфейса или JSON. См. статью "Настройка конвейера разностных динамических таблиц".

spark_conf Используйте параметр в функциях декоратора DLT, чтобы настроить свойства Spark для потоков, представлений или таблиц. См. свойства "Разностные динамические таблицы Python".

Настройка свойств Spark для бессерверных записных книжек и заданий

Бессерверные вычисления не поддерживают настройку большинства свойств Spark для записных книжек или заданий. Ниже приведены свойства, которые можно настроить.

spark.sql.legacy.timeParserPolicy (значение по умолчанию — EXCEPTION);
spark.sql.session.timeZone (значение по умолчанию — Etc/UTC);
spark.sql.shuffle.partitions (значение по умолчанию — auto);
spark.sql.ansi.enabled (значение по умолчанию — true);

Поделиться через