Поделиться через


Пакеты рабочих областей

Пакеты рабочей области могут быть пользовательскими или частными колесами (Python), jar(Scala/Java) или tar.gz (R). Вы можете передать эти пакеты в рабочую область и позже назначить их конкретному пулу Spark.

Добавление пакетов рабочей области:

  1. Перейдите на вкладку Управление>Пакеты рабочей области.
  2. Отправьте файлы с помощью селектора файлов.
  3. После отправки файлов в рабочую область Azure Synapse можно добавить эти пакеты в пул Apache Spark.

Снимок экрана: выделены пакеты рабочей области.

Предупреждение

  • В Azure Synapse пул Apache Spark может использовать пользовательские библиотеки, которые передаются как пакеты рабочей области или отправляются по известному пути Azure Data Lake Storage. Оба этих варианта нельзя использовать одновременно в одном пуле Apache Spark. Если пакеты предоставляются с помощью обоих методов, будут установлены только файлы wheel, указанные в списке пакетов рабочей области.

  • После того как пакеты рабочей области используются для установки пакетов в заданном пуле Apache Spark, начинает действовать ограничение, которое не позволяет указывать дополнительные пакеты, используя путь к учетной записи хранения в том же пуле.

Примечание.

Рекомендуется, чтобы в рабочей области не было нескольких пакетов с одинаковым именем. Если вы хотите использовать другую версию одного пакета, необходимо удалить существующую версию и отправить новую.

Storage account

Настраиваемые пакеты можно установить в пуле Apache Spark, отправив все файлы в учетную запись Azure Data Lake Storage (2-го поколения), связанную с рабочей областью Synapse.

Файлы должны быть отправлены по следующему пути в контейнере учетной записи хранения по умолчанию:

abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/

Предупреждение

  • В некоторых случаях может потребоваться создать путь к файлу на основе приведенной выше структуры, если он еще не существует. Например, может потребоваться добавить папку python в папку libraries, если она еще не существует.
  • Этот метод управления пользовательскими файлами не будет поддерживаться в среде выполнения Azure Synapse для Apache Spark 3.0. См. функцию пакетов рабочей области для управления пользовательскими файлами.

Внимание

Чтобы установить пользовательские библиотеки с помощью Azure DataLake Storage, необходимо иметь разрешения Участник данных BLOB-объектов хранилища или Владелец данных BLOB-объектов хранилища в основной учетной записи хранилища 2-го поколения, связанной с рабочей областью Azure Synapse Analytics.

Следующие шаги