Compartilhar via


Criar e trabalhar com tabelas de saída em Clean Rooms do Databricks

Importante

Esse recurso está em uma versão prévia.

Este artigo apresenta as tabelas de saída, que são tabelas temporárias somente leitura geradas por uma execução de notebook e compartilhadas com o metastore do Catálogo do Unity do executor do notebook. Este artigo descreve como usar um notebook para criar tabelas de saída e como os colaboradores podem ler essas tabelas de saída em seu metastore do Catálogo do Unity.

Visão geral das tabelas de saída

As tabelas de saída permitem que você salve temporariamente a saída de notebooks executados em uma sala limpa em um catálogo de saída no metastore do Catálogo do Unity, onde você pode disponibilizar os dados para membros de sua equipe que não têm a capacidade de executar os notebooks por conta própria. Você também pode usar trabalhos do Azure Databricks para executar notebooks e executar tarefas em tabelas de saída. Combinadas com o tipo de tarefa de bloco de anotações de Sala Limpa e suporte para valores de tarefa, as tabelas de saída permitem criar fluxos de trabalho complexos que dependem de blocos de anotações de Sala Limpa.

As tabelas de saída são somente leitura.

Somente a entidade específica (usuário, grupo ou entidade de serviço) que executa o notebook tem acesso de leitura padrão à tabela de saída. Não há acesso de gravação. Um administrador de metastore pode conceder acesso de leitura a outras entidades de segurança em sua conta do Azure Databricks, usando privilégios padrão do Catálogo do Unity.

As tabelas de saída são armazenadas por 30 dias no local de armazenamento padrão da sala limpa central e compartilhadas com o metastore do colaborador usando o Compartilhamento Delta. Se você quiser manter uma tabela de saída por mais de 30 dias, deverá copiá-la para o armazenamento local.

Cada execução de notebook cria um novo esquema no catálogo de saída. Novas execuções não podem acrescentar uma tabela de saída existente.

Importante

As tabelas de saída são suportadas somente quando o clean room central está hospedado na AWS. No entanto, os colaboradores do Databricks em todas as três nuvens (AWS, Azure e Google Cloud) podem compartilhar notebooks que criam tabelas de saída e podem ler tabelas de saída geradas quando executam notebooks compartilhados. Os colaboradores do Google Cloud precisam participar da visualização privada do Clean Rooms.

Criar uma tabela de saída

Para criar uma tabela de saída, use os parâmetros cr_output_catalog e cr_output_schema no namespace de tabela de três partes. Cada execução do notebook produz um novo esquema.

No exemplo a seguir, a célula do notebook cria uma tabela de saída chamada overlapping_users no catálogo de saída do collborator que lista os usuários cujo endereço de email aparece nas collaborator.advertiser.profiles tabelas e creator.publisher.profiles .

CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email

Ler uma tabela de saída

As tabelas de saída aparecem em um catálogo compartilhado no metastore do executor do notebook. No painel Catálogo do Explorador de Catálogos , eles aparecem na lista Catálogos compartilhados .

Ler uma tabela de saída é como ler qualquer outra tabela no Catálogo do Unity. Você deve ter SELECT na tabela, USE CATALOG no catálogo de saída compartilhado e USE SCHEMA no esquema gerado automaticamente. O usuário que executou o notebook que criou a tabela tem essas permissões por padrão.

Antes de começar

Esta seção descreve os requisitos de nuvem, configuração e computação para ler tabelas de saída.

Requisitos de nuvem

Embora a sala limpa central deva estar na AWS para oferecer suporte a tabelas de saída, os espaços de trabalho do colaborador podem estar em qualquer uma das três nuvens: AWS, Azure ou Google Cloud. Os colaboradores do Google Cloud precisam participar da visualização privada do Clean Rooms.

Requisito de catálogo de saída compartilhada

Antes de ler as tabelas de saída, um usuário deve criar o catálogo que as contém. Você só precisa fazer isso uma vez por sala limpa.

Permissões necessárias: EXECUTE_CLEAN_ROOM_TASK

  1. No workspace do Azure Databricks, clique em Ícone do catálogo Catálogo.
  2. Na página Acesso rápido, clique no botão Clean Rooms >.
  3. Selecione a Clean Room na lista.
  4. No painel direito, em Saída, clique em Criar catálogo.
  5. Insira um nome de catálogo de saída ou aceite o padrão, que é <clean-room-name>_output.

O catálogo de saída aparece na lista de catálogos compartilhados no painel Catálogo do Explorador de Catálogos. Cada sala limpa da qual você participa pode ter um catálogo de saída compartilhado em seu metastore.

Requisitos de computação

As consultas em tabelas de saída exigem computação sem servidor. Consulte Conectar-se ao computador sem servidor.

Permissões necessárias para ler uma tabela de saída

O usuário que executou o notebook que criou a tabela de saída tem permissão para ler a partir da tabela de saída por padrão. Todos os outros usuários devem ter as seguintes permissões concedidas a eles:

  • SELECT sobre a mesa
  • USE CATALOG no catálogo de saída
  • USE SCHEMA no esquema de saída

Executar o notebook

Para gerar tabelas de saída compartilhadas em seu catálogo de saída, um usuário com acesso à sala limpa deve executar o notebook. Consulte Executar notebooks em salas limpas. Cada execução de notebook cria um novo esquema de saída e uma tabela.

Dica

Você pode usar trabalhos do Azure Databricks para executar notebooks e executar tarefas em tabelas de saída, permitindo fluxos de trabalho complexos. Consulte Usar fluxos de trabalho do Azure Databricks para executar notebooks de sala limpa.

Localizar e exibir uma tabela de saída

O usuário que executa o notebook que cria a tabela de saída pode encontrar um link para a tabela de saída nas páginas de histórico de execução e detalhes da execução do notebook na interface do usuário de Salas Limpas . Em ambos os casos, o link está no campo Esquema de saída. Consulte Monitorar execuções de notebook de sala limpa.

Histórico de execuções:

Link do esquema de saída no histórico de execuções

Detalhes da execução:

Link do esquema de saída nos detalhes da execução

Você também pode encontrar o catálogo de saída na lista de Catálogos compartilhados no painel Catálogo do Explorador de Catálogos .

Limitações

Além dos requisitos listados em Visão geral das tabelas de saída e Antes de começar, as tabelas de saída têm as seguintes limitações:

  • As tabelas de saída são compatíveis somente quando a sala limpa central está hospedada na AWS e quando a sala limpa foi criada após o lançamento do recurso de tabela de saída.
  • Somente tabelas são suportadas. Volumes e visualizações, por exemplo, não são.
  • Você pode criar até 100 tabelas de saída por notebook.