다음을 통해 공유


스토리지 풀에서 CSV 데이터 가상화(빅 데이터 클러스터)

Important

Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. Software Assurance를 사용하는 SQL Server 2019의 모든 기존 사용자는 플랫폼에서 완전히 지원되며, 소프트웨어는 지원 종료 시점까지 SQL Server 누적 업데이트를 통해 계속 유지 관리됩니다. 자세한 내용은 공지 블로그 게시물Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.

SQL Server 빅 데이터 클러스터는 HDFS의 CSV 파일에서 데이터를 가상화할 수 있습니다. 이 프로세스를 사용하면 데이터가 원래 위치에 유지되면서도 다른 테이블처럼 SQL Server 인스턴스에서 쿼리될 수 있습니다. 이 기능에서는 PolyBase 커넥터를 사용하고 ETL 프로세스의 필요성을 최소화합니다. 데이터 가상화에 대한 자세한 내용은 PolyBase를 사용한 데이터 가상화 소개를 참조하세요.

필수 조건

데이터 가상화를 위한 CSV 파일 선택 또는 업로드

ADS(Azure Data Studio)에서 빅 데이터 클러스터의 SQL Server 마스터 인스턴스에 연결합니다. 연결되면 개체 탐색기에서 HDFS 요소를 확장하여 데이터를 가상화할 CSV 파일을 찾습니다.

이 자습서의 목적에 따라 Data라는 이름의 새 디렉터리를 만듭니다.

  1. HDFS 루트 디렉터리 컨텍스트 메뉴를 마우스 오른쪽 단추로 클릭합니다.
  2. 새 디렉터리를 선택합니다.
  3. 새 디렉터리의 이름을 Data라고 지정합니다.

샘플 데이터를 업로드합니다. 간단하게 살펴볼 수 있도록 샘플 csv 데이터 파일을 사용해도 됩니다. 이 문서에서는 미국 교통부의 항공사 지연 원인 데이터를 사용합니다. 원시 데이터를 다운로드하고 컴퓨터에 데이터를 추출합니다. 파일 이름을 airline_delay_causes.csv라고 설정합니다.

추출 후에 샘플 파일을 업로드하려면 다음을 수행합니다.

  1. Azure Data Studio에서 만든 새 디렉터리를 마우스 오른쪽 단추로 클릭합니다.
  2. 파일 업로드를 선택합니다.

HDFS의 예제 csv 파일

Azure Data Studio는 빅 데이터 클러스터에 있는 HDFS에 파일을 업로드합니다.

대상 데이터베이스에 스토리지 풀 외부 데이터 원본 만들기

스토리지 풀 외부 데이터 원본은 빅 데이터 클러스터의 데이터베이스에 기본적으로 생성되지 않습니다. 외부 테이블을 만들기 전에 다음 Transact-SQL 쿼리를 사용하여 대상 데이터베이스에서 기본 SqlStoragePool 외부 데이터 원본을 만듭니다. 먼저 쿼리 컨텍스트를 대상 데이터베이스로 변경해야 합니다.

-- Create the default storage pool source for SQL Big Data Cluster
IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlStoragePool')
    CREATE EXTERNAL DATA SOURCE SqlStoragePool
    WITH (LOCATION = 'sqlhdfs://controller-svc/default');

외부 테이블 만들기

ADS에서 CVS 파일을 마우스 오른쪽 단추로 클릭하고 상황에 맞는 메뉴에서 CSV 파일에서 외부 테이블 만들기를 선택합니다. 디렉터리 아래에 있는 파일이 동일한 스키마를 따르는 경우 HDFS의 디렉터리에서 CSV 파일로 외부 테이블을 만들 수도 있습니다. 이렇게 하면 개별 파일을 처리하고 결합된 데이터에 대해 조인된 결과 집합을 가져올 필요 없이 디렉터리 수준에서 데이터를 가상화할 수 있습니다. Azure Data Studio는 외부 테이블을 만드는 단계를 안내합니다.

데이터베이스, 데이터 원본, 테이블 이름, 스키마, 테이블의 외부 파일 형식 이름을 지정합니다.

다음을 선택합니다.

데이터 미리 보기

Azure Data Studio는 가져온 데이터의 미리 보기를 제공합니다.

가져온 데이터의 미리 보기가 있는 CSV에서 외부 테이블 만들기 창을 보여 주는 스크린샷.

미리 보기를 확인한 후에는 다음을 선택하여 계속 진행합니다.

열 수정

다음 창에서는 만들고자 하는 외부 테이블의 열을 수정할 수 있습니다. 열 이름을 변경하고, 데이터 형식을 변경하고, null 허용 행을 허용할 수 있습니다.

3단계 열 수정을 보여 주는 CSV에서 외부 테이블 만들기 창의 스크린샷.

대상 열을 확인한 후에 다음을 선택합니다.

요약

이 단계는 선택한 항목에 대한 요약을 제공합니다. 여기에서는 SQL Server 이름, 데이터베이스 이름, 테이블 이름, 테이블 스키마 및 외부 테이블 정보를 제공합니다. 이 단계에는 스크립트를 생성하거나 테이블을 만드는 옵션이 있습니다. 스크립트 생성은 T-SQL에서 외부 데이터 원본을 만들기 위한 스크립트를 만듭니다. 테이블 만들기는 외부 데이터 원본을 만듭니다.

요약 화면

테이블 만들기를 선택하면 SQL Server가 대상 데이터베이스에 외부 테이블을 만듭니다.

스크립트 생성을 선택하면 Azure Data Studio가 외부 테이블을 만들기 위한 T-SQL 쿼리를 만듭니다.

테이블을 만들게 되면 SQL Server 인스턴스에서 T-SQL을 사용하여 테이블을 직접 쿼리할 수 있습니다.

다음 단계

SQL Server 빅 데이터 클러스터 및 관련 시나리오에 대한 자세한 내용은 SQL Server 빅 데이터 클러스터 소개를 참조하세요.