Пакеты рабочих областей
Пакеты рабочей области могут быть пользовательскими или частными колесами (Python), jar(Scala/Java) или tar.gz (R). Вы можете передать эти пакеты в рабочую область и позже назначить их конкретному пулу Spark.
Добавление пакетов рабочей области:
- Перейдите на вкладку Управление>Пакеты рабочей области.
- Отправьте файлы с помощью селектора файлов.
- После отправки файлов в рабочую область Azure Synapse можно добавить эти пакеты в пул Apache Spark.
Предупреждение
В Azure Synapse пул Apache Spark может использовать пользовательские библиотеки, которые передаются как пакеты рабочей области или отправляются по известному пути Azure Data Lake Storage. Оба этих варианта нельзя использовать одновременно в одном пуле Apache Spark. Если пакеты предоставляются с помощью обоих методов, будут установлены только файлы wheel, указанные в списке пакетов рабочей области.
После того как пакеты рабочей области используются для установки пакетов в заданном пуле Apache Spark, начинает действовать ограничение, которое не позволяет указывать дополнительные пакеты, используя путь к учетной записи хранения в том же пуле.
Примечание.
Рекомендуется, чтобы в рабочей области не было нескольких пакетов с одинаковым именем. Если вы хотите использовать другую версию одного пакета, необходимо удалить существующую версию и отправить новую.
Storage account
Настраиваемые пакеты можно установить в пуле Apache Spark, отправив все файлы в учетную запись Azure Data Lake Storage (2-го поколения), связанную с рабочей областью Synapse.
Файлы должны быть отправлены по следующему пути в контейнере учетной записи хранения по умолчанию:
abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/
Предупреждение
- В некоторых случаях может потребоваться создать путь к файлу на основе приведенной выше структуры, если он еще не существует. Например, может потребоваться добавить папку
python
в папкуlibraries
, если она еще не существует. - Этот метод управления пользовательскими файлами не будет поддерживаться в среде выполнения Azure Synapse для Apache Spark 3.0. См. функцию пакетов рабочей области для управления пользовательскими файлами.
Внимание
Чтобы установить пользовательские библиотеки с помощью Azure DataLake Storage, необходимо иметь разрешения Участник данных BLOB-объектов хранилища или Владелец данных BLOB-объектов хранилища в основной учетной записи хранилища 2-го поколения, связанной с рабочей областью Azure Synapse Analytics.
Следующие шаги
- Просмотр библиотек по умолчанию: поддержка версий Apache Spark
- Устранение ошибок при установке библиотеки: Устранение ошибок установки библиотек
- Создание частного канала Conda с помощью учетной записи Azure Data Lake Storage: Частные каналы Conda