다음을 통해 공유


Lakehouse 자습서: Lakehouse로 데이터 수집

이 자습서에서는 WWI(Wide World Importers)에서 Lakehouse로 더 많은 차원 및 팩트 테이블을 수집합니다.

필수 조건

데이터 수집

이 섹션에서는 Data Factory 파이프라인의 데이터 복사 작업을 사용하여 Azure Storage 계정에서 이전에 만든 Lakehouse의 Files 섹션으로 샘플 데이터를 수집합니다.

  1. 왼쪽 탐색 창에서 작업 영역을 선택한 다음 작업 영역 메뉴에서 새 작업 영역을 선택합니다. 작업 영역의 항목 보기가 나타납니다.

  2. 작업 영역 리본의 +새 메뉴 항목에서 데이터 파이프라인을 선택합니다.

    새 데이터 파이프라인을 만드는 방법을 보여 주는 스크린샷.

  3. 새 파이프라인 대화 상자에서 이름을 IngestDataFromSourceToLakehouse로 지정하고 만들기를 선택합니다. 새 데이터 팩터리 파이프라인이 만들어지고 열립니다.

  4. 다음으로 Http 연결을 설정하여 샘플 World Wide Importers 데이터를 Lakehouse로 가져옵니다. 새 원본 목록에서 자세히 보기를 선택하고 Http를 검색하여 선택합니다.

    HTTP 원본을 선택할 위치를 보여 주는 스크린샷.

  5. 데이터 원본에 연결 창에서 아래 표의 세부 정보를 입력하고 다음을 선택합니다.

    속성
    URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
    Connection 새 연결 만들기
    연결 이름 wwisampledata
    데이터 게이트웨이 None
    인증 종류 익명

    Http 연결을 구성하는 매개 변수를 보여 주는 스크린샷

  6. 다음 단계에서는 이진 복사본을 사용하도록 설정하고 원본이 .zip 파일이므로 압축 형식으로 ZipDeflate(.zip)를 선택합니다. 다른 필드는 기본값으로 유지하고 다음을 클릭합니다.

    압축 유형을 선택하는 방법을 보여주는 스크린샷.

  7. 데이터 대상에 연결 창에서 루트 폴더파일로 지정하고 다음을 클릭합니다. 그러면 Lakehouse의 파일 섹션에 데이터가 기록됩니다.

    Lakehouse의 대상 연결 설정을 보여 주는 스크린샷

  8. 대상에 대한 파일 형식이진 파일 형식으로 선택합니다. 다음을 클릭한 다음 저장+실행을 클릭합니다. 데이터를 주기적으로 새로 고치도록 파이프라인을 예약할 수 있습니다. 이 자습서에서는 파이프라인을 한 번만 실행합니다. 데이터 복사 프로세스는 완료하는 데 약 10~15분이 소요됩니다.

    대상 파일 형식을 보여 주는 스크린샷

  9. 출력 탭에서 파이프라인 실행 및 작업을 모니터링할 수 있습니다. 파이프라인 이름 옆에 있는 안경 아이콘을 선택하여 자세한 데이터 전송 정보를 볼 수도 있습니다. 이 아이콘은 이름을 마우스로 가리킬 때 나타납니다.

    복사 파이프라인 활동의 상태를 보여주는 스크린샷입니다.

  10. 파이프라인을 성공적으로 실행한 후 Lakehouse(wwilakehouse)로 이동하여 탐색기를 열어 가져온 데이터를 확인합니다.

    Lakehouse로 이동하는 방법을 보여 주는 스크린샷

  11. WideWorldImportersDW 폴더가 탐색기 보기에 있고 모든 테이블에 대한 데이터가 포함되어 있는지 확인합니다.

    원본 데이터가 Lakehouse 탐색기에 복사되는 것을 보여 주는 스크린샷

  12. 데이터는 Lakehouse 탐색기의 파일 섹션 아래에 만들어집니다. GUID가 있는 새 폴더에는 필요한 모든 데이터가 포함됩니다. GUID 이름을 wwi-raw-data로 바꿉니다.

Lakehouse에 증분 데이터를 로드하려면 데이터 Warehouse에서 Lakehouse로 증분 데이터 로드하기를 참조하세요.

다음 단계