관리되는 volumes 대 외부 volumes
이 문서에서는 관리되는 volumes과 외부 volumes의 차이점 및 외부 volumes사용을 선택할 수 있는 이유에 대해 설명합니다. Databricks는 테이블 형식이 아닌 데이터에 대한 액세스를 저장하고 관리하기 위한 가장 간단한 솔루션으로 관리되는 서비스 volumes를 권장합니다.
Unity Catalog을 사용하여 클라우드 개체 스토리지에 대한 액세스를 구성하는 방법에 대한 자세한 지침은 'Unity Catalog을 사용하여 클라우드 개체 스토리지 및 서비스에 연결'을 참조하십시오.
관리 및 외부 volumes 간의 행동의 차이점
관리형 및 외부 volumes는 Azure Databricks의 도구, UI 및 API를 사용할 때 거의 동일한 경험을 제공합니다. 다음은 이러한 볼륨 형식 간의 차이점입니다.
관리형 volumes는 완전 관리 스토리지 경험을 제공합니다. 이것은 다음을 의미합니다.
- 관리되는 volumes 파일과의 모든 상호 작용은 Unity Catalog을 거쳐야 합니다.
- 디렉터리 명명 및 데이터 레이아웃은 Unity Catalog의해 관리됩니다. 디렉터리 이름에는 기본 클라우드 개체 스토리지 계정의 충돌을 방지하기 위한 해시가 포함됩니다.
- 관리되는 볼륨을 삭제하면 Azure Databricks는 30일 이내에 기본 데이터를 삭제합니다.
외부 volumes가 클라우드 객체 저장소에 데이터 거버넌스를 도입합니다. 이것은 다음을 의미합니다.
- Azure Databricks 또는 외부 시스템에서 클라우드 URI를 사용하여 외부 volumes파일과 상호작용할 수 있습니다.
- 외부 볼륨 내에서 만든 모든 디렉터리 또는 업로드된 파일은 생성 시 지정된 디렉터리를 기준으로
LOCATION
합니다. - 외부 볼륨을 Unity에서 remove할 때, Catalog 볼륨은 Unity에서 제거되지만, 관련된 데이터는 외부 위치에서 변경되지 않고 그대로 유지됩니다.
외부 volumes사용하는 이유는 무엇인가요?
외부 volumes 기존 클라우드 개체 스토리지 디렉터리에 Unity Catalog 데이터 거버넌스를 추가할 수 있습니다. 외부 volumes 일부 사용 사례는 다음과 같습니다.
- 마이그레이션 없이 데이터 파일에 거버넌스 추가
- Azure Databricks에서 수집하거나 액세스해야 하는 다른 시스템에서 생성된 파일 관리
- 다른 시스템에서 클라우드 개체 스토리지에서 직접 액세스해야 하는 Azure Databricks에서 생성된 데이터를 제어합니다.
Databricks는 Azure Databricks뿐만 아니라 외부 시스템에서 읽거나 쓰는 비테이블 형식 데이터 파일을 저장하기 위해 외부 volumes를 사용하는 것을 권장합니다. Unity Catalog 외부 시스템의 클라우드 개체 스토리지에 대해 직접 수행되는 읽기 및 쓰기를 제어하지 않으므로 데이터 거버넌스 정책이 Azure Databricks 외부에서 준수되도록 클라우드 계정에서 추가 정책 및 credentials 구성해야 합니다.