Использование XGBoost в Azure Databricks
В этой статье приведены примеры моделей машинного обучения с помощью XGBoost в Azure Databricks. Databricks Runtime для машинного обучения содержит библиотеки XGBoost для языков Python и Scala. Модели XGBoost можно обучать на одном компьютере или в распределенной среде.
Обучение моделей XGBoost на одном узле
Вы можете обучать модели с помощью пакета Python xgboost
. Этот пакет поддерживает только рабочие нагрузки с одним узлом. Чтобы обучить конвейер машинного обучения PySpark и воспользоваться преимуществами распределенного обучения, см. раздел "Распределенное обучение моделей XGBoost".
Записная книжка Python XGBoost
Распределенное обучение моделей XGBoost
Для распределенного обучения моделей XGBoost Databricks включает в себя оценщики PySpark на xgboost
основе пакета. Databricks также включает пакет xgboost-4j
Scala. Дополнительные сведения и примеры записных книжек см. в следующих статьях:
- Распределенное обучение моделей XGBoost с помощью xgboost.spark (Databricks Runtime 12.0 ML и более поздних версий)
- Распределенное обучение моделей XGBoost с помощью sparkdl.xgboost (не рекомендуется, начиная с Databricks Runtime 12.0 ML)
- Распределенное обучение моделей XGBoost с помощью Scala
Установка XGBoost в Azure Databricks
Если необходимо установить XGBoost в Databricks Runtime или использовать версию, отличную от предварительно установленной в Databricks Runtime ML, следуйте этим инструкциям.
Установка XGBoost в Databricks Runtime ML
XGBoost входит в состав Databricks Runtime ML. Эти библиотеки можно использовать в Databricks Runtime ML без установки дополнительных пакетов.
См. сведения о версии XGBoost, установленной в используемой вами версии Databricks Runtime ML, в заметках о выпуске. Чтобы установить в Databricks Runtime ML другие версии Python, установите XGBoost в виде библиотеки PyPI для Databricks. Укажите ее, как показано в примере ниже, заменив <xgboost version>
номером нужной версии.
xgboost==<xgboost version>
Установка XGBoost в Databricks Runtime
Пакет Python: выполните следующую команду в ячейке записной книжки:
%pip install xgboost
Чтобы установить определенную версию, замените <xgboost version>
нужной версией:
%pip install xgboost==<xgboost version>
- Пакеты Scala/Java: установите как библиотеки Databricks с именем пакета Spark
xgboost-linux64
.