다음을 통해 공유


기계 학습 및 딥 러닝을 위한 데이터 로드

이 섹션에서는 ML 및 DL 애플리케이션에 사용할 데이터를 로드하는 방법을 다룹니다. 데이터 로드에 대한 일반적인 정보는 Databricks Lakehouse로 데이터 수집을 참조하세요.

데이터 로드 및 모델 검사점용 스토리지 파일

기계 학습 애플리케이션은 데이터 로드 및 모델 검사점을 위해 공유 스토리지를 사용해야 할 수 있습니다. 이는 분산형 딥 러닝에 특히 중요합니다.

Azure Databricks는 데이터 및 AI 자산에 대한 통합 거버넌스 솔루션인 Unity 카탈로그제공합니다. Spark 및 로컬 파일 API를 사용하여 클러스터의 데이터에 액세스하기 위해 Unity 카탈로그를 사용할 수 있습니다.

표 형식 데이터 로드

테이블 또는 파일에서 테이블 형식 기계 학습 데이터를 로드할 수 있습니다(예: CSV 파일 읽기 참조). PySpark 메서드toPandas()를 사용하여 Apache Spark DataFrame을 pandas DataFrame으로 변환한 다음, 필요에 따라 PySpark 메서드to_numpy()를 사용하여 NumPy 형식으로 변환할 수 있습니다.

대규모 언어 모델을 미세 조정하기 위한 데이터 준비

Hugging Face 변환기Hugging Face 데이터 세트를 사용하여 오픈 소스 대규모 언어 모델을 미세 조정하기 위한 데이터를 준비할 수 있습니다.

Hugging Face 모델을 미세 조정하기 위한 데이터 준비

분산형 딥 러닝 학습을 위한 데이터 준비

이 섹션에서는 Mosaic 스트리밍 및 TFRecords를 사용하여 분산형 딥 러닝 학습을 위한 데이터 준비에 대해 설명합니다.