다음을 통해 공유


빅 데이터 클러스터에 HDFS 계층화를 위해 S3을 탑재하는 방법

다음 섹션에서는 S3 스토리지 데이터 원본을 사용하여 HDFS 계층화를 구성하는 방법의 예제를 제공합니다.

Important

Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. Software Assurance를 사용하는 SQL Server 2019의 모든 기존 사용자는 플랫폼에서 완전히 지원되며, 소프트웨어는 지원 종료 시점까지 SQL Server 누적 업데이트를 통해 계속 유지 관리됩니다. 자세한 내용은 공지 블로그 게시물Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.

필수 조건

  • 빅 데이터 클러스터 배포
  • 빅 데이터 도구
    • azdata
    • kubectl
  • 데이터 만들기 및 S3 버킷에 업로드
    • CSV 또는 Parquet 파일을 S3 버킷에 업로드합니다. 이 파일이 빅 데이터 클러스터의 HDFS에 탑재되는 외부 HDFS 데이터입니다.

Access keys

액세스 키 자격 증명에 대해 환경 변수 설정

빅 데이터 클러스터에 액세스할 수 있는 클라이언트 머신에서 명령 프롬프트를 엽니다. 다음 형식을 사용해 환경 변수를 설정합니다. 자격 증명은 쉼표로 구분된 목록에 있어야 합니다. Windows에서는 ‘set’ 명령을 사용합니다. Linux를 사용하는 경우, 대신 ‘export’를 사용합니다.

 set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
 fs.s3a.secret.key=<Secret Access Key of the key>

S3 액세스 키를 만드는 방법에 관한 자세한 내용은 S3 액세스 키를 참조하세요.

원격 HDFS 스토리지 탑재

이제 액세스 키를 사용하여 자격 증명 파일을 준비했으므로 탑재를 시작할 수 있습니다. 다음 단계에서는 S3의 원격 HDFS 스토리지를 빅 데이터 클러스터의 로컬 HDFS 스토리지에 탑재합니다.

  1. kubectl을 사용하여 빅 데이터 클러스터에서 엔드포인트 controller-svc-external 서비스에 대한 IP 주소를 찾습니다. External-IP를 찾습니다.

    kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
    
  2. 클러스터 사용자 이름 및 암호와 함께 컨트롤러 엔드포인트의 외부 IP 주소를 사용하여 azdata로 로그인합니다.

    azdata login -e https://<IP-of-controller-svc-external>:30080/
    
  3. 위의 지침에 따라 환경 변수 MOUNT_CREDENTIALS를 설정합니다.

  4. azdata bdc hdfs mount create를 사용하여 Azure에 원격 HDFS 스토리지를 탑재합니다. 자리 표시자 값을 바꾼 후에 다음 명령을 실행합니다.

    azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
    

    참고 항목

    mount create 명령은 비동기식입니다. 이 시점에서는 탑재가 성공했는지 여부를 나타내는 메시지가 없습니다. 상태 섹션을 참조해 탑재 상태를 확인하세요.

성공적으로 탑재된 경우 HDFS 데이터를 쿼리하고, 이 데이터에 대해 Spark 작업을 실행할 수 있어야 합니다. --mount-path이 지정한 위치의 빅 데이터 클러스터에 대한 HDFS에 표시됩니다.

탑재 상태 가져오기

빅 데이터 클러스터에 있는 모든 탑재 상태를 나열하려면 다음 명령을 사용합니다.

azdata bdc hdfs mount status

HDFS의 특정 경로에 있는 탑재의 상태를 나열하려면 다음 명령을 사용합니다.

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

탑재 새로 고침

다음 예제에서는 탑재를 새로 고칩니다.

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

탑재 삭제

탑재를 삭제하려면 azdata bdc hdfs mount delete 명령을 사용하고 HDFS의 탑재 경로를 지정합니다.

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>