Machine Learning용 Databricks Runtime
Machine Learning용 Databricks Runtime(Databricks Runtime ML)은 가장 일반적인 ML 및 DL 라이브러리를 포함하여 미리 빌드된 기계 학습 및 딥 러닝 인프라를 사용하여 클러스터를 만드는 것을 자동화합니다. Databricks Runtime ML의 각 버전에 포함된 라이브러리의 전체 목록은 릴리스 정보를 참조하세요.
참고 항목
기계 학습 워크플로를 위해 Unity 카탈로그의 데이터에 액세스하려면 클러스터의 액세스 모드가 단일 사용자(할당됨)여야 합니다. 공유 클러스터는 Machine Learning용 Databricks Runtime과 호환되지 않습니다. 또한 Databricks Runtime ML은 TableACL 클러스터 또는 true
으로 설정된 spark.databricks.pyspark.enableProcessIsolation config
를 포함하는 클러스터에서는 지원되지 않습니다.
Databricks Runtime ML을 사용하여 클러스터 만들기
클러스터를 만들 때 Databricks Runtime Version 드롭다운에서 Databricks Runtime ML 버전을 선택합니다. CPU 및 GPU 지원 ML 런타임을 모두 사용할 수 있습니다.
Notebook의 드롭다운 메뉴에서 클러스터를 선택하면 클러스터 이름 오른쪽에 Databricks 런타임 버전이 표시됩니다.
GPU 지원 ML 런타임을 선택하면 호환되는 드라이버 유형 및 작업자 유형을 선택하라는 메시지가 표시됩니다. 호환되지 않는 인스턴스 유형은 드롭다운 메뉴에서 회색으로 표시됩니다. GPU 지원 인스턴스 유형은 GPU 가속 레이블 아래에 나열됩니다. Azure Databricks GPU 클러스터 만들기에 대한 자세한 내용은 GPU 사용 클러스터를 참조하세요. Databricks Runtime ML에는 GPU 하드웨어 드라이버와 CUDA와 같은 NVIDIA 라이브러리가 포함되어 있습니다.
Photon 및 Databricks Runtime ML
Databricks Runtime 15.2 ML 이상을 실행하는 CPU 클러스터를 만들 때 Photon을 사용하도록 선택할 수 있습니다. Photon은 Spark SQL, Spark DataFrames, 기능 엔지니어링, GraphFrames 및 xgboost4j를 사용하여 애플리케이션의 성능을 향상시킵니다. Spark RDD, Pandas UDF 및 Python과 같은 비 JVM 언어를 사용하는 애플리케이션의 성능은 향상되지 않을 것으로 예상됩니다. 따라서 XGBoost, PyTorch 및 TensorFlow와 같은 Python 패키지는 Photon에서 향상된 기능을 볼 수 없습니다.
Spark RDD API 및 Spark MLlib는 Photon과의 호환성이 제한됩니다. Spark RDD 또는 Spark MLlib를 사용하여 큰 데이터 세트를 처리할 때 Spark 메모리 문제가 발생할 수 있습니다. Spark 메모리 문제를 참조하세요.
Databricks Runtime ML에 포함된 라이브러리
Databricks Runtime ML에는 널리 사용되는 다양한 ML 라이브러리가 포함되어 있습니다. 라이브러리는 새로운 기능과 수정 사항을 포함하도록 각 릴리스와 함께 업데이트됩니다.
Databricks는 지원되는 라이브러리의 하위 집합을 최상위 라이브러리로 지정했습니다. 이러한 라이브러리의 경우 Databricks는 더 빠른 업데이트 주기를 제공하여 각 런타임 릴리스와 함께 최신 패키지 릴리스로 업데이트합니다(종속성 충돌 제외). Databricks는 또한 최상위 라이브러리에 대한 고급 지원, 테스트 및 포함된 최적화를 제공합니다.
최상위 계층 및 기타 제공된 라이브러리의 전체 목록은 Databricks Runtime ML에 대한 릴리스 정보를 참조하세요.
추가 라이브러리를 설치하여 Notebook 또는 클러스터에 대한 사용자 지정 환경을 만들 수 있습니다.
- 클러스터에서 실행되는 모든 Notebook에서 라이브러리를 사용할 수 있도록 하려면 클러스터 라이브러리를 만듭니다. 또한 init 스크립트를 사용하여 만들 때 클러스터에 라이브러리를 설치할 수 있습니다.
- 특정 Notebook 세션에 한해 사용할 수 있는 라이브러리를 설치하려면 Notebook 범위 Python 라이브러리를 사용합니다.