Azure Databricks에서 XGBoost 사용
이 문서에서는 Azure Databricks에서 XGBoost를 사용하여 기계 학습 모델을 학습하는 예제를 제공합니다. Machine Learning용 Databricks Runtime에는 Python 및 Scala용 XGBoost 라이브러리가 포함되어 있습니다. XGBoost 모델을 개별 컴퓨터에서 또는 분산 방식으로 학습할 수 있습니다.
단일 노드에서 XGBoost 모델 학습
Python xgboost
패키지를 사용하여 모델을 학습시킬 수 있습니다. 이 패키지는 단일 노드 워크로드만 지원합니다. PySpark ML 파이프라인을 학습시키고 분산 학습을 활용하려면 XGBoost 모델의 분산 학습을 참조하세요.
XGBoost Python Notebook
XGBoost 모델의 분산 학습
XGBoost 모델의 분산 학습을 위해 Databricks에는 xgboost
패키지를 기반으로 하는 PySpark 예측 도구가 포함됩니다. Databricks에는 Scala 패키지 xgboost-4j
도 포함됩니다. 자세한 내용 및 예제 Notebook은 다음을 참조하세요.
- xgboost.spark를 사용하여 XGBoost 모델의 분산 학습(Databricks Runtime 12.0 ML 이상)
- sparkdl.xgboost를 사용하여 XGBoost 모델의 분산 학습(Databricks Runtime 12.0 ML부터 사용되지 않음)
- Scala를 사용하여 XGBoost 모델의 분산 학습
Azure Databricks에 XGBoost 설치
Databricks Runtime에 XGBoost를 설치해야 하거나 Databricks Runtime ML과 함께 미리 설치된 버전과 다른 버전을 사용해야 하는 경우 다음 지침을 따릅니다.
Databricks Runtime ML에 XGBoost 설치
XGBoost는 Databricks Runtime ML에 포함되어 있습니다. 패키지를 설치하지 않고 Databricks Runtime ML에서 이러한 라이브러리를 사용할 수 있습니다.
사용 중인 Databricks Runtime ML 버전에 설치된 XGBoost 버전은 릴리스 정보를 참조하세요. Databricks Runtime ML에 다른 Python 버전을 설치하려면, Databricks PyPI 라이브러리로 XGBoost를 설치합니다. 다음과 같이 지정하고 <xgboost version>
을 원하는 버전으로 바꿉니다.
xgboost==<xgboost version>
Databricks 런타임에 XGBoost 설치
Python 패키지: Notebook 셀에서 다음 명령을 실행합니다.
%pip install xgboost
특정 버전을 설치하려면 <xgboost version>
을 원하는 버전으로 바꿉니다.
%pip install xgboost==<xgboost version>