Azure Data Lake Storage Gen2 이해
데이터 레이크는 일반적으로 Blob 또는 파일로 저장된 해당 기본 형식의 데이터 리포지토리입니다. Azure Data Lake Storage는 고성능 분석을 위해 Azure에 구축된 빅 데이터 분석을 위한 포괄적이며, 확장성 있고, 비용 효율적인 데이터 레이크 솔루션입니다.
Azure Data Lake Storage는 파일 시스템과 스토리지 플랫폼을 결합하여 데이터에 대한 인사이트를 빠르게 파악할 수 있도록 지원합니다. Data Lake Storage는 Azure Blob 스토리지 기능을 기반으로 하여 특히 분석 워크로드에 맞게 최적화합니다. 이러한 통합을 통해 분석 성능, Blob 스토리지의 계층화 및 데이터 수명 주기 관리 기능, Azure Storage의 고가용성, 보안 및 내구성 기능을 사용할 수 있습니다.
이점
Data Lake Storage는 수백 기가바이트의 처리량을 안전하게 처리하면서 엑사바이트 규모의 데이터의 양과 다양성을 처리하도록 설계되었습니다. 이를 통해 Data Lake Storage Gen2를 실시간 및 일괄 처리 솔루션의 기초로 사용할 수 있습니다.
Hadoop 호환 액세스
Data Lake Storage의 이점은 데이터를 Hadoop 분산 파일 시스템(HDFS)에 저장된 것처럼 처리할 수 있다는 것입니다. 이 기능을 사용하면 환경 간에 데이터를 이동하지 않고도 Azure Databricks, Azure HDInsight 및 Azure Synapse Analytics를 포함한 컴퓨팅 기술을 통해 한 곳에 데이터를 저장하고 액세스할 수 있습니다. 또한 데이터 엔지니어는 내부 열 형식 스토리지를 사용하여 여러 플랫폼에서 고도로 압축되고 잘 수행되는 parquet 형식과 같은 스토리지 메커니즘을 사용할 수 있습니다.
보안
Data Lake Storage는 부모 디렉터리의 사용 권한을 상속하지 않는 ACL(액세스 제어 목록) 및 POSIX(이식 가능한 운영 체제 인터페이스) 권한을 지원합니다. 실제로 데이터 레이크 내에 저장된 데이터에 대한 디렉터리 수준 또는 파일 수준에서 권한을 설정하여 훨씬 더 안전한 스토리지 시스템을 제공할 수 있습니다. 이 보안은 Hive 및 Spark와 같은 기술 또는 Azure Storage Explorer와 같은 유틸리티를 통해 구성할 수 있습니다. 이는 Windows, macOS, Linux에서 실행됩니다. 저장된 모든 데이터는 미사용 시 Microsoft 또는 고객 관리 키를 사용하여 암호화됩니다.
성능
Azure Data Lake Storage는 저장된 데이터를 파일 시스템처럼 디렉터리와 하위 디렉터리의 계층 구조로 구성하여 더 쉽게 탐색할 수 있도록 합니다. 결과적으로 데이터 처리에는 계산 리소스가 덜 필요하며, 이로 인해 시간과 비용도 모두 절감됩니다.
데이터 중복성
Data Lake Storage는 LRS(로컬 중복 스토리지)를 사용하여 단일 데이터 센터에 또는 GRS(지역 중복 스토리지) 옵션을 사용하여 보조 지역에 데이터 중복성을 제공하는 Azure Blob 복제 모델을 활용합니다. 이 기능을 사용하면 재해가 발생하는 경우에도 데이터를 항상 사용할 수 있고 보호할 수 있습니다.
팁
데이터 레이크를 계획할 때마다 데이터 엔지니어는 구조, 데이터 거버넌스 및 보안을 신중하게 고려해야 합니다. 여기에는 다음과 같은 레이크 구조 및 조직에 영향을 줄 수 있는 요인을 고려해야 합니다.
- 저장할 데이터 형식
- 데이터를 변환하는 방법
- 데이터에 액세스해야 하는 사용자
- 일반적인 액세스 패턴
이 방법은 레이크 전체에서 액세스 제어 거버넌스를 계획하는 방법을 결정하는 데 도움이 됩니다. 데이터 엔지니어는 데이터 거버넌스 및 데이터 품질 측정값이 부족하여 사용자에게 액세스할 수 없고 유용하지 않은 데이터 늪이 되지 않도록 사전에 대처해야 합니다. Azure Data Lake에 대한 기준 및 다음 모범 사례를 설정하면 조직이 성장하고 더 많은 것을 달성할 인사이트를 얻을 수 있는 적절하고 강력한 구현을 보장하는 데 도움이 됩니다.