Databricks Clean Rooms에서 출력 테이블 만들기 및 작업
Important
이 기능은 공개 미리 보기 상태입니다.
이 문서에서는 Notebook 실행에서 생성되고 Notebook Runner의 Unity 카탈로그 메타스토어에 공유되는 임시 읽기 전용 테이블인 출력 테이블을 소개합니다. 이 문서에서는 Notebook을 사용하여 출력 테이블을 만드는 방법과 공동 작업자가 Unity 카탈로그 메타스토어에서 이러한 출력 테이블을 읽는 방법을 설명합니다.
출력 테이블 개요
출력 테이블을 사용하면 클린룸에서 실행되는 Notebook의 출력을 Unity 카탈로그 메타스토어의 출력 카탈로그에 임시로 저장할 수 있습니다. 여기서 Notebook 자체를 실행할 수 없는 팀 구성원이 데이터를 사용할 수 있도록 할 수 있습니다. Azure Databricks 작업을 사용하여 Notebook을 실행하고 출력 테이블에서 작업을 수행할 수도 있습니다. 클린룸 전자 필기장 작업 유형 및 작업 값에 대한 지원과 함께 출력 테이블을 사용하면 회의실 정리 전자 필기장에 의존하는 복잡한 워크플로를 만들 수 있습니다.
출력 테이블은 읽기 전용입니다.
Notebook을 실행하는 특정 보안 주체(사용자, 그룹 또는 서비스 주체)만 출력 테이블에 대한 기본 읽기 권한이 있습니다. 쓰기 권한이 없습니다. 메타스토어 관리자는 표준 Unity 카탈로그 권한을 사용하여 Azure Databricks 계정의 다른 보안 주체에 대한 읽기 권한을 부여할 수 있습니다.
출력 테이블은 중앙 클린룸의 기본 스토리지 위치에 30일 동안 저장되고 델타 공유를 사용하여 공동 작업자의 메타스토어에 공유됩니다. 출력 테이블을 30일 이상 유지하려면 로컬 스토리지에 복사해야 합니다.
각 Notebook 실행은 출력 카탈로그에 새 스키마를 만듭니다. 새 실행은 기존 출력 테이블을 추가할 수 없습니다.
Important
출력 테이블은 중앙 클린룸이 AWS에서 호스트되는 경우에만 지원됩니다. 그러나 AWS, Azure 및 Google Cloud의 Databricks 공동 작업자는 출력 테이블을 만드는 Notebook을 공유하고 공유 Notebook을 실행할 때 생성되는 출력 테이블을 읽을 수 있습니다. Google Cloud 공동 작업자는 클린룸 프라이빗 미리 보기에 참여해야 합니다.
출력 테이블 만들기
출력 테이블을 만들려면 매개 변수 cr_output_catalog
와 cr_output_schema
세 부분으로 구성된 테이블 네임스페이스를 사용합니다. Notebook을 실행할 때마다 새 스키마가 생성됩니다.
다음 예제에서 Notebook 셀은 전자 메일 주소가 테이블과 creator.publisher.profiles
테이블에 모두 collaborator.advertiser.profiles
표시되는 사용자를 나열하는 collborator의 출력 카탈로그에 호출 overlapping_users
된 출력 테이블을 만듭니다.
CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email
출력 테이블 읽기
출력 테이블은 Notebook 실행기 메타스토어의 공유 카탈로그에 표시됩니다. 카탈로그 탐색기 카탈로그 창의 공유 카탈로그 목록에 표시됩니다.
출력 테이블을 읽는 것은 Unity 카탈로그의 다른 테이블을 읽는 것과 같습니다. 테이블, USE CATALOG
공유 출력 카탈로그 및 USE SCHEMA
자동으로 생성된 스키마에 있어야 합니다SELECT
. 테이블을 만든 Notebook을 실행한 사용자에게는 기본적으로 이러한 권한이 있습니다.
시작하기 전에
이 섹션에서는 출력 테이블을 읽기 위한 클라우드, 구성 및 컴퓨팅 요구 사항에 대해 설명합니다.
클라우드 요구 사항
출력 테이블을 지원하려면 중앙 클린룸이 AWS에 있어야 하지만 공동 작업자 작업 영역은 AWS, Azure 또는 Google Cloud의 세 가지 클라우드 중 어느 클라우드에나 있을 수 있습니다. Google Cloud 공동 작업자는 클린룸 프라이빗 미리 보기에 참여해야 합니다.
공유 출력 카탈로그 요구 사항
출력 테이블을 읽으려면 먼저 사용자가 출력 테이블을 보관하는 카탈로그를 만들어야 합니다. 클린룸당 한 번만 이 작업을 수행해야 합니다.
필요한 권한: EXECUTE_CLEAN_ROOM_TASK
- Azure Databricks 작업 영역에서 카탈로그를 클릭합니다.
- 빠른 액세스 페이지에서 회의실 >정리 단추를 클릭합니다.
- 목록에서 클린룸을 선택합니다.
- 오른쪽 창의 출력에서 카탈로그 만들기를 클릭합니다.
- 출력 카탈로그 이름을 입력하거나 기본값인
<clean-room-name>_output
을 적용합니다.
출력 카탈로그는 카탈로그 탐색기 카탈로그 창의 공유 카탈로그 목록에 표시됩니다. 참여하는 각 클린룸에는 메타스토어에 하나의 공유 출력 카탈로그가 있을 수 있습니다.
컴퓨팅 요구 사항
출력 테이블에 대한 쿼리에는 서버리스 컴퓨팅이 필요합니다. 서버리스 컴퓨팅에 연결을 참조하세요.
출력 테이블을 읽는 데 필요한 권한
출력 테이블을 만든 Notebook을 실행한 사용자에게는 기본적으로 출력 테이블에서 읽을 수 있는 권한이 있습니다. 다른 모든 사용자에게는 다음 권한이 부여되어야 합니다.
SELECT
테이블의USE CATALOG
출력 카탈로그에서USE SCHEMA
출력 스키마에서
노트북 실행
출력 카탈로그에서 공유 출력 테이블을 생성하려면 클린룸에 액세스할 수 있는 사용자가 Notebook을 실행해야 합니다. 클린룸에서 전자 필기장 실행을 참조 하세요. 각 Notebook 실행은 새 출력 스키마와 테이블을 만듭니다.
팁
Azure Databricks 작업을 사용하여 Notebook을 실행하고 출력 테이블에서 작업을 수행하여 복잡한 워크플로를 사용할 수 있습니다. Azure Databricks 워크플로를 사용하여 클린룸 Notebook을 실행하는 방법을 참조 하세요.
출력 테이블 찾기 및 보기
출력 테이블을 만드는 Notebook을 실행하는 사용자는 Notebook 실행 기록의 출력 테이블에 대한 링크를 찾고 클린룸 UI에서 세부 정보 페이지를 실행할 수 있습니다 . 두 경우 모두 링크는 출력 스키마 필드에 있습니다. 클린룸 전자 필기장 실행 모니터링을 참조하세요.
실행 기록:
실행 세부 정보:
카탈로그 탐색기 카탈로그 창의 공유 카탈로그 목록에서 출력 카탈로그를 찾을 수도 있습니다.
제한 사항
출력 테이블 개요 및 시작하기 전에 출력 테이블에 나열된 요구 사항 외에도 다음과 같은 제한 사항이 있습니다.
- 출력 테이블은 중앙 클린룸이 AWS에서 호스트되고 출력 테이블 기능이 릴리스된 후 클린룸이 만들어진 경우에만 지원됩니다.
- 테이블만 지원됩니다. 예를 들어 볼륨과 뷰는 그렇지 않습니다.
- Notebook당 최대 100의 출력 테이블을 만들 수 있습니다.