Partager via


Utiliser XGBoost sur Azure Databricks

Cet article fournit des exemples d’apprentissage de modèles Machine Learning à l’aide de XGBoost dans Azure Databricks. Databricks Runtime pour le Machine Learning comprend des bibliothèques XGBoost pour Python et Scala. Vous pouvez effectuer l’apprentissage des modèles XGBoost sur une machine individuelle ou de manière distribuée.

Entraîner des modèles XGBoost sur un seul nœud

Vous pouvez effectuer l’apprentissage de modèles à l’aide du package Python xgboost. Ce package ne prend en charge que les charges de travail à nœud unique. Pour entraîner un pipeline PySpark ML et tirer parti de l’entraînement distribué, consultez Entraînement distribué des modèles XGBoost.

Notebook Python XGBoost

Obtenir le notebook

Entraînement distribué des modèles XGBoost

Pour l’entraînement distribué des modèles XGBoost, Databricks inclut des estimateurs PySpark basés sur le packagexgboost. Databricks inclut également le package xgboost-4jScala . Pour plus d’informations et des exemples de notebooks, consultez les rubriques suivantes :

Utiliser XGBoost sur Azure Databricks

Si vous devez installer XGBoost sur Databricks Runtime ou utiliser une version différente de celle déjà installée avec Databricks Runtime ML, suivez ces instructions.

Installer XGBoost sur Databricks Runtime ML

XGBoost est inclus dans Databricks Runtime ML. Vous pouvez utiliser ces bibliothèques dans Databricks Runtime ML sans avoir à installer de packages.

Pour la version de XGBoost installée dans la version Databricks Runtime ML que vous utilisez, consultez les notes de publication. Pour installer d’autres versions de Python dans Databricks Runtime ML, installez XGBoost comme bibliothèque Databricks PyPI. Spécifiez-le comme suit, en remplaçant <xgboost version> par la version souhaitée.

xgboost==<xgboost version>

Installer XGBoost sur Databricks Runtime

  • Package Python : exécutez la commande suivante dans une cellule de notebook :

    %pip install xgboost
    

Pour installer une version spécifique, remplacez <xgboost version> par la version souhaitée :

  %pip install xgboost==<xgboost version>
  • Package Scala/Java : installez-les en tant que bibliothèque Databricks avec le nom de package Spark xgboost-linux64.