Azure Data Factory 또는 Synapse Analytics에서 Hadoop Pig 작업을 사용하여 데이터 변환
적용 대상: Azure Data Factory Azure Synapse Analytics
팁
기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!
Data Factory 파이프라인의 HDInsight Pig 작업은 사용자 고유 또는 주문형 HDInsight 클러스터의 Pig 쿼리를 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다.
자세한 내용은 Azure Data Factory 또는 Synapse Analytics 소개를 읽고 이 문서를 읽기 전에 자습서: 데이터 변환을 수행합니다.
UI를 사용하여 파이프라인에 HDInsight Pig 작업 추가
HDInsight Pig 작업을 파이프라인에 사용하려면 다음 단계를 완료합니다.
파이프라인 활동 창에서 Pig 를 검색하고 Pig 작업을 파이프라인 캔버스로 끌어옵니다.
아직 선택하지 않은 경우 캔버스에서 새 Pig 작업을 선택합니다.
HDI 클러스터 탭을 선택하여 MapReduce 작업을 실행하는 데 사용할 HDInsight 클러스터에 연결된 새 서비스를 선택하거나 만듭니다.
스크립트 탭을 선택하여 스크립트가 호스트될 Azure Storage 위치에 연결된 새 스크립트 서비스를 선택하거나 만듭니다. 실행할 클래스 이름과 스토리지 위치 내의 파일 경로를 지정합니다. 디버깅 구성, 스크립트에 전달될 인수 및 매개 변수를 비롯한 고급 세부 정보를 구성할 수도 있습니다.
구문
{
"name": "Pig Activity",
"description": "description",
"type": "HDInsightPig",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
구문 세부 정보
속성 | 설명 | 필수 |
---|---|---|
name | 작업의 이름 | 예 |
description | 작업이 무엇에 사용되는지 설명하는 텍스트입니다. | 아니요 |
type | Hive 작업의 경우 작업 유형은 HDinsightPig입니다. | 예 |
linkedServiceName | 연결된 서비스로 등록된 HDInsight 클러스터에 대한 참조입니다. 이 연결된 서비스에 대한 자세한 내용은 컴퓨팅 연결 서비스 문서를 참조하세요. | 예 |
scriptLinkedService | 실행할 Pig 스크립트를 저장하는 데 사용되는 Azure Storage 연결된 서비스에 대한 참조입니다. 여기서는 Azure Blob Storage 및 ADLS Gen2 연결 서비스만 지원됩니다. 이 연결된 서비스를 지정하지 않으면 HDInsight 연결된 서비스에 정의된 Azure Storage 연결된 서비스가 사용됩니다. | 아니요 |
scriptPath | scriptLinkedService에서 참조하는 Azure Storage에 저장된 스크립트 파일의 경로를 제공합니다. 파일 이름은 대/소문자를 구분합니다. | 아니요 |
getDebugInfo | scriptLinkedService에 지정되었거나 HDInsight 클러스터에 사용된 Azure Storage에 로그 파일을 언제 복사할지 지정합니다. 허용되는 값: None, Always 또는 Failure. 기본값은 None입니다. | 아니요 |
arguments | Hadoop 작업에 대한 인수 배열을 지정합니다. 인수는 각 작업에 대한 명령줄 인수로 전달됩니다. | 아니요 |
defines | Pig 스크립트 내에서 참조하기 위해 매개 변수를 키/값 쌍으로 지정합니다. | 아니요 |
관련 콘텐츠
다른 방법으로 데이터를 변환하는 방법을 설명하는 다음 문서를 참조하세요.