Azure Blob Storage에 내보내기
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
이 문서에서는 Machine Learning Studio(클래식)의 데이터 내보내기 모듈에서 Azure Blob Storage 내보내기 옵션을 사용하는 방법을 설명합니다.
이 옵션은 기계 학습 실험에서 Azure Blob Storage 데이터를 내보내려는 경우에 유용합니다. 예를 들어 기계 학습 데이터 출력을 다른 애플리케이션과 공유하거나 다른 실험에서 사용할 중간 데이터 또는 정리된 데이터 세트를 저장할 수 있습니다.
AZURE Blob은 HTTP 또는 HTTPS를 사용하여 어디서나 액세스할 수 있습니다. Azure Blob Storage 구조화되지 않은 데이터 저장소이므로 다양한 형식으로 데이터를 내보낼 수 있습니다. 현재 CSV, TSV 및 ARFF 형식이 지원됩니다.
다른 애플리케이션에서 사용하기 위해 데이터를 Azure Blob으로 내보내려면 데이터 내보내기 모듈을 사용하여 데이터를 Azure Blob Storage 저장합니다. 그런 다음 Azure Storage에서 데이터를 읽을 수 있는 도구(예: Excel, 클라우드 스토리지 유틸리티 또는 기타 클라우드 서비스)를 사용하여 데이터를 로드하고 사용합니다.
참고
데이터 가져오기 및 데이터 내보내기 모듈은 클래식 배포 모델을 사용하여 만든 Azure Storage에서만 데이터를 읽고 쓸 수 있습니다. 즉, 핫 및 쿨 스토리지 액세스 계층을 제공하는 새로운 Azure Blob Storage 계정 유형은 아직 지원되지 않습니다.
일반적으로 이 서비스 옵션이 제공되기 전에 만들었을 수 있는 모든 Azure Storage 계정은 영향을 받지 않습니다.
그러나 Machine Learning 사용할 새 계정을 만들어야 하는 경우 배포 모델에클래식을 선택하거나 리소스 관리자 및 계정 종류에 대해 Blob Storage 대신 범용을 선택하는 것이 좋습니다.
데이터를 Azure Blob Storage 내보내는 방법
Azure Blob Service는 이진 데이터를 포함하여 많은 양의 데이터를 저장하기 위한 것입니다. Blob Storage에는 공용 Blob 및 로그인 자격 증명이 필요한 Blob의 두 가지 유형이 있습니다.
실험에 데이터 내보내기 모듈을 추가합니다. 이 모듈은 Studio(클래식)의 데이터 입력 및 출력 범주에서 찾을 수 있습니다.
커넥트 Azure Blob Storage 내보낼 데이터를 생성하는 모듈로 데이터를 내보냅니다.
데이터 내보내기의 속성 창을 엽니다. 데이터 대상에 대해 Azure Blob Storage 선택합니다.
인증 유형의 경우 스토리지가 SAS URL을 통해 액세스를 지원한다는 것을 알고 있는 경우 공용(SAS URL)을 선택합니다.
SAS URL은 Azure Storage 유틸리티를 사용하여 생성할 수 있는 특수한 유형의 URL이며 제한된 시간 동안만 사용할 수 있습니다. 여기에는 인증 및 다운로드에 필요한 모든 정보가 포함됩니다.
URI의 경우 계정 및 공용 Blob을 정의하는 전체 URI를 입력하거나 붙여넣습니다.
프라이빗 계정의 경우 계정을 선택하고, 실험이 스토리지 계정에 쓸 수 있도록 계정 이름과 계정 키를 제공합니다.
계정 이름: 데이터를 저장할 계정의 이름을 입력하거나 붙여넣습니다. 예를 들어 스토리지 계정의 전체 URL이
https://myshared.blob.core.windows.net
면 입력myshared
합니다.계정 키: 계정과 연결된 스토리지 액세스 키를 붙여넣습니다.
컨테이너, 디렉터리 또는 Blob에 대한 경로: 내보낸 데이터가 저장될 Blob의 이름을 입력합니다. 예를 들어 mymldata라는 계정의 컨테이너 예측에서 results01.csv 명명된 새 Blob에 실험 결과를 저장하려면 Blob의 전체 URL이 됩니다
https://mymldata.blob.core.windows.net/predictions/results01.csv
.따라서 컨테이너, 디렉터리 또는 Blob에 대한 경로 필드에서 다음과 같이 컨테이너 및 Blob 이름을 지정합니다.
predictions/results01.csv
아직 존재하지 않는 Blob의 이름을 지정하면 Azure에서 Blob을 만듭니다.
기존 Blob에 쓸 때 쓰기 모드를 Azure Blob Storage 속성을 설정하여 Blob의 현재 콘텐츠를 덮어쓰도록 지정할 수 있습니다. 기본적으로 이 속성은 Error로 설정됩니다. 즉, 동일한 이름의 기존 Blob 파일을 찾을 때마다 오류가 발생합니다.
Blob 파일에 대한 파일 형식의 경우 데이터를 저장해야 하는 형식을 선택합니다.
CSV: CSV(쉼표로 구분된 값)는 기본 스토리지 형식입니다. 데이터와 함께 열 머리글을 내보내려면 Blob 머리글 행 쓰기 옵션을 선택합니다. Machine Learning 사용되는 쉼표로 구분된 형식에 대한 자세한 내용은 CSV로 변환을 참조하세요.
TSV: TSV(탭으로 구분된 값) 형식은 여러 기계 학습 도구와 호환됩니다. 데이터와 함께 열 머리글을 내보내려면 Blob 머리글 행 쓰기 옵션을 선택합니다. Machine Learning 사용되는 탭으로 구분된 형식에 대한 자세한 내용은 TSV로 변환을 참조하세요.
ARFF: 이 형식은 Weka 도구 집합에서 사용하는 형식으로 파일을 저장할 수 있도록 지원합니다. SAS URL에 저장된 파일에는 이 형식이 지원되지 않습니다. ARFF 형식에 대한 자세한 내용은 ARFF로 변환을 참조하세요.
캐시된 결과 사용: 실험을 실행할 때마다 Blob 파일에 결과를 다시 쓰지 않으려면 이 옵션을 선택합니다. 모듈 매개 변수에 대한 다른 변경 내용이 없는 경우 실험은 모듈이 처음 실행되거나 데이터가 변경된 경우에만 결과를 씁니다.
예
데이터 내보내기 모듈을 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.
데이터 세트를 VW 형식으로 변환: 이 실험에서는 데이터 내보내기 모듈과 함께 Python 스크립트를 사용하여 Vowpal Wabbit에서 사용할 수 있는 데이터를 만듭니다.
Azure SQL Data Warehouse 사용하여 예측 분석 파이프라인 설정: 이 시나리오에서는 Machine Learning 및 SQL Data Warehouse 포함하여 여러 구성 요소 간의 데이터 이동을 설명합니다.
코드 없는 일괄 처리 점수 매기기: 이 자습서에서는 Azure Logic Apps 사용하여 실험에서 사용되는 데이터 가져오기와 실험 결과를 Blob Storage에 작성하는 방법을 모두 자동화하는 방법을 보여 줍니다.
Azure 데이터 팩터리를 사용하여 온-프레미스 SQL Server 사용하여 Azure ML 솔루션 운영: 이 문서에서는 Blob Storage를 중간 단계로 사용하여 온-프레미스 SQL Server 데이터베이스로 데이터를 다시 보내는 보다 복잡한 데이터 파이프라인에 대해 설명합니다. 온-프레미스 데이터베이스를 사용하려면 데이터 게이트웨이를 구성해야 하지만 예제의 해당 부분을 건너뛰고 Blob Storage만 사용할 수 있습니다.
기술 정보
이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.
일반적인 질문
실험이 변경되지 않은 경우 데이터 쓰기를 방지하려면 어떻게 해야 하나요?
실험 결과가 변경되면 데이터 내보내기가 항상 새 데이터 세트를 저장합니다. 그러나 출력 데이터에 영향을 주는 변경 없이 실험을 반복적으로 실행하는 경우 캐시된 결과 사용 옵션을 선택할 수 있습니다.
모듈은 동일한 데이터와 동일한 옵션을 사용하여 실험이 이전에 실행되었는지 여부를 확인하고 이전 실행이 발견되면 쓰기 작업이 반복되지 않습니다.
다른 지리적 지역의 계정에 데이터를 저장할 수 있나요?
예, 다른 지역의 계정에 데이터를 쓸 수 있습니다. 그러나 스토리지 계정이 기계 학습 실험에 사용되는 컴퓨팅 노드와 다른 지역에 있는 경우 데이터 액세스 속도가 느려질 수 있습니다. 또한 구독의 데이터 수신 및 송신에 대한 요금이 청구됩니다.
모듈 매개 변수
일반 옵션
Name | 범위 | Type | 기본값 | 설명 |
---|---|---|---|---|
데이터 원본 | 목록 | 데이터 원본 또는 싱크 | Azure Blob Storage | 대상은 Azure BLOB Storage의 파일, Azure 테이블, Azure SQL Database 테이블 또는 뷰 또는 Hive 테이블일 수 있습니다. |
캐시된 결과 사용 | TRUE/FALSE | 부울 | FALSE | 모듈은 유효한 캐시가 없는 경우에만 실행됩니다. 그렇지 않으면 이전 실행에서 캐시된 데이터를 사용합니다. |
인증 유형을 지정하세요 | SAS/계정 | AuthenticationType | 계정 | 액세스 권한 부여에 SAS 또는 계정 자격 증명을 사용해야 하는지 여부를 나타냅니다. |
공용 또는 SAS - 공용 스토리지 옵션
Name | 범위 | Type | 기본값 | 설명 |
---|---|---|---|---|
Blob의 SAS URI | any | String | 없음 | 쓸 Blob의 SAS URI(필수) |
SAS 파일의 파일 형식 | ARFF CSV TSV |
LoaderUtils.FileTypes | CSV | 파일이 CSV, TSV 또는 ARFF인지 여부를 나타냅니다. (필수) |
SAS 헤더 행 작성 | TRUE/FALSE | 부울 | FALSE | 열 머리글을 파일에 쓸지 여부를 나타냅니다. |
계정 - 프라이빗 스토리지 옵션
Name | 범위 | Type | 기본값 | 설명 |
---|---|---|---|---|
Azure 계정 이름 | any | String | 없음 | Azure 사용자 계정 이름 |
Azure 계정 키 | any | SecureString | 없음 | Azure Storage 키 |
컨테이너로 시작하는 blob 경로 | any | String | 없음 | 컨테이너 이름으로 시작하는 Blob 파일의 이름 |
쓰기 모드 Azure Blob Storage | 목록: 오류, 덮어쓰기 | enum:BlobFileWriteMode | 오류 | Blob 파일 작성 방법 선택 |
Blob 파일의 파일 형식 | ARFF CSV TSV |
LoaderUtils.FileTypes | CSV | Blob 파일이 CSV, TSV 또는 ARFF인지 여부를 나타냅니다. |
Blob 헤더 행 작성 | TRUE/FALSE | 부울 | FALSE | Blob 파일에 헤더 행이 있어야 하는지 여부를 나타냅니다. |
예외
예외 | 설명 |
---|---|
오류 0027 | 두 개체의 크기가 같아야 하지만 다른 경우 예외가 발생합니다. |
오류 0003 | 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다. |
오류 0029 | 잘못된 URI가 전달되면 예외가 발생합니다. |
오류 0030 | 파일을 다운로드할 수 없으면 예외가 발생합니다. |
오류 0002 | 하나 이상의 매개 변수를 구문 분석할 수 없거나 지정된 형식을 대상 방법에 필요한 형식으로 변환할 수 없으면 예외가 발생합니다. |
오류 0009 | Azure 저장소 계정 이름 또는 컨테이너 이름을 잘못 지정하는 경우 예외가 발생합니다. |
오류 0048 | 파일을 열 수 없으면 예외가 발생합니다. |
오류 0046 | 지정한 경로에 디렉터리를 만들 수 없으면 예외가 발생합니다. |
오류 0049 | 파일을 구문 분석할 수 없으면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 MACHINE LEARNING REST API 오류 코드를 참조하세요.
참고 항목
데이터 가져오기
데이터 내보내기
Azure SQL Database로 내보내기
Hive 쿼리로 내보내기
Azure Table로 내보내기