Поделиться через


Использование XGBoost в Azure Databricks

В этой статье приведены примеры моделей машинного обучения с помощью XGBoost в Azure Databricks. Databricks Runtime для машинного обучения содержит библиотеки XGBoost для языков Python и Scala. Модели XGBoost можно обучать на одном компьютере или в распределенной среде.

Обучение моделей XGBoost на одном узле

Вы можете обучать модели с помощью пакета Python xgboost. Этот пакет поддерживает только рабочие нагрузки с одним узлом. Чтобы обучить конвейер машинного обучения PySpark и воспользоваться преимуществами распределенного обучения, см. раздел "Распределенное обучение моделей XGBoost".

Записная книжка Python XGBoost

Получить записную книжку

Распределенное обучение моделей XGBoost

Для распределенного обучения моделей XGBoost Databricks включает в себя оценщики PySpark на xgboost основе пакета. Databricks также включает пакет xgboost-4jScala. Дополнительные сведения и примеры записных книжек см. в следующих статьях:

Установка XGBoost в Azure Databricks

Если необходимо установить XGBoost в Databricks Runtime или использовать версию, отличную от предварительно установленной в Databricks Runtime ML, следуйте этим инструкциям.

Установка XGBoost в Databricks Runtime ML

XGBoost входит в состав Databricks Runtime ML. Эти библиотеки можно использовать в Databricks Runtime ML без установки дополнительных пакетов.

См. сведения о версии XGBoost, установленной в используемой вами версии Databricks Runtime ML, в заметках о выпуске. Чтобы установить в Databricks Runtime ML другие версии Python, установите XGBoost в виде библиотеки PyPI для Databricks. Укажите ее, как показано в примере ниже, заменив <xgboost version> номером нужной версии.

xgboost==<xgboost version>

Установка XGBoost в Databricks Runtime

  • Пакет Python: выполните следующую команду в ячейке записной книжки:

    %pip install xgboost
    

Чтобы установить определенную версию, замените <xgboost version> нужной версией:

  %pip install xgboost==<xgboost version>