Utiliser XGBoost sur Azure Databricks
Cet article fournit des exemples d’apprentissage de modèles Machine Learning à l’aide de XGBoost dans Azure Databricks. Databricks Runtime pour le Machine Learning comprend des bibliothèques XGBoost pour Python et Scala. Vous pouvez effectuer l’apprentissage des modèles XGBoost sur une machine individuelle ou de manière distribuée.
Entraîner des modèles XGBoost sur un seul nœud
Vous pouvez effectuer l’apprentissage de modèles à l’aide du package Python xgboost
. Ce package ne prend en charge que les charges de travail à nœud unique. Pour entraîner un pipeline PySpark ML et tirer parti de l’entraînement distribué, consultez Entraînement distribué des modèles XGBoost.
Notebook Python XGBoost
Entraînement distribué des modèles XGBoost
Pour l’entraînement distribué des modèles XGBoost, Databricks inclut des estimateurs PySpark basés sur le packagexgboost
. Databricks inclut également le package xgboost-4j
Scala . Pour plus d’informations et des exemples de notebooks, consultez les rubriques suivantes :
- Entraînement distribué des modèles XGBoost à l’aide de xgboost.spark (Databricks Runtime 12.0 ML et versions ultérieures)
- Entraînement distribué de modèles XGBoost à l’aide de sparkdl.xgboost (déconseillé à partir de Databricks Runtime 12.0 ML)
- Entraînement distribué de modèles XGBoost à l’aide de Scala
Utiliser XGBoost sur Azure Databricks
Si vous devez installer XGBoost sur Databricks Runtime ou utiliser une version différente de celle déjà installée avec Databricks Runtime ML, suivez ces instructions.
Installer XGBoost sur Databricks Runtime ML
XGBoost est inclus dans Databricks Runtime ML. Vous pouvez utiliser ces bibliothèques dans Databricks Runtime ML sans avoir à installer de packages.
Pour la version de XGBoost installée dans la version Databricks Runtime ML que vous utilisez, consultez les notes de publication. Pour installer d’autres versions de Python dans Databricks Runtime ML, installez XGBoost comme bibliothèque Databricks PyPI. Spécifiez-le comme suit, en remplaçant <xgboost version>
par la version souhaitée.
xgboost==<xgboost version>
Installer XGBoost sur Databricks Runtime
Package Python : exécutez la commande suivante dans une cellule de notebook :
%pip install xgboost
Pour installer une version spécifique, remplacez <xgboost version>
par la version souhaitée :
%pip install xgboost==<xgboost version>
- Package Scala/Java : installez-les en tant que bibliothèque Databricks avec le nom de package Spark
xgboost-linux64
.