자습서: Azure Machine Learning에서 Azure Synapse ADLS Gen2 데이터 액세스
이 자습서에서는 Azure Machine Learning(Azure Machine Learning)에서 Azure Synapse Azure Data Lake Storage Gen2(ADLS Gen2)에 저장된 데이터에 액세스하는 프로세스를 안내합니다. 이 기능은 자동화된 ML, 통합 모델 및 실험 추적과 같은 도구 또는 Azure Machine Learning에서 사용할 수 있는 GPU와 같은 특수 하드웨어를 활용하여 기계 학습 워크플로를 간소화하는 것을 목표로 할 때 특히 유용합니다.
Azure Machine Learning에서 ADLS Gen2 데이터에 액세스하기 위해 Azure Synapse ADLS Gen2 스토리지 계정을 가리키는 Azure Machine Learning Datastore를 만듭니다.
필수 조건
- Azure Synapse Analytics 작업 영역. 기본 스토리지로 구성된 Azure Data Lake Storage Gen2 스토리지 계정이 있어야 합니다. 작업하는 Data Lake Storage Gen2 파일 시스템의 경우 Storage Blob 데이터 기여자인지 확인합니다.
- Azure Machine Learning 작업 영역
라이브러리 설치
먼저 패키지를 설치합니다 azure-ai-ml
.
%pip install azure-ai-ml
데이터 저장소 만들기
Azure Machine Learning은 기존 Azure Storage 계정에 대한 참조 역할을 하는 데이터 저장소라는 기능을 제공합니다. Azure Synapse ADLS Gen2 스토리지 계정을 참조하는 Datastore를 만듭니다.
이 예제에서는 Azure Synapse ADLS Gen2 스토리지에 연결하는 데이터 저장소를 만듭니다. 개체를 초기화한 MLClient
후 ADLS Gen2 계정에 대한 연결 세부 정보를 제공할 수 있습니다. 마지막으로 코드를 실행하여 Datastore를 만들거나 업데이트할 수 있습니다.
from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient
ml_client = MLClient.from_config()
# Provide the connection details to your Azure Synapse ADLSg2 storage account
store = AzureDataLakeGen2Datastore(
name="",
description="",
account_name="",
filesystem=""
)
ml_client.create_or_update(store)
Azure Machine Learning 데이터 저장소에서 이 자습서를 사용하여 Azure Machine Learning 데이터 저장소를 만들고 관리하는 방법에 대해 자세히 알아볼 수 있습니다.
ADLS Gen2 스토리지 계정 탑재
데이터 저장소를 설정한 후에는 ADLSg2 계정에 탑재를 만들어 이 데이터에 액세스할 수 있습니다. Azure Machine Learning에서 ADLS Gen2 계정에 탑재를 만들려면 작업 영역과 스토리지 계정 간에 직접 연결을 설정하여 내에 저장된 데이터에 원활하게 액세스할 수 있습니다. 기본적으로 탑재는 Azure Machine Learning이 작업 영역 내 로컬 파일 시스템의 일부인 것처럼 ADLS Gen2 계정의 파일 및 폴더와 상호 작용할 수 있도록 하는 경로 역할을 합니다.
스토리지 계정이 탑재되면 Azure Machine Learning 환경 내에서 직접 친숙한 파일 시스템 작업을 사용하여 ADLS Gen2에 저장된 데이터를 손쉽게 읽고, 쓰고, 조작하여 데이터 전처리, 모델 학습 및 실험 작업을 간소화할 수 있습니다.
방법:
컴퓨팅 엔진을 시작합니다.
데이터 작업을 선택한 다음 탑재를 선택합니다.
여기에서 ADLSg2 스토리지 계정 이름을 보고 선택해야 합니다. 탑재를 만드는 데 몇 분 정도 걸릴 수 있습니다.
탑재가 준비되면 데이터 작업을 선택한 다음, 사용할 수 있습니다. 데이터에서 데이터를 사용하려는 탑재를 선택할 수 있습니다.
이제 기본 라이브러리를 사용하여 탑재된 Azure Data Lake Storage 계정에서 직접 데이터를 읽을 수 있습니다.
스토리지 계정에서 데이터 읽기
import os
# List the files in the mounted path
print(os.listdir("/home/azureuser/cloudfiles/data/datastore/{name of mount}"))
# Get the path of your file and load the data using your preferred libraries
import pandas as pd
df = pd.read_csv("/home/azureuser/cloudfiles/data/datastore/{name of mount}/{file name}")
print(df.head(5))