Use pipelines Delta Live Tables com metastore herdado do Hive
Este artigo detalha configurações e advertências específicas para pipelines Delta Live Tables configurados para publicar dados no metastore herdado do Hive. A Databricks recomenda o uso do Unity Catalog para todos os novos pipelines. Consulte Usar o catálogo Unity com seus pipelines Delta Live Tables.
Publicar conjuntos de dados de pipeline no metastore herdado do Hive
Embora opcional, você deve especificar um destino para publicar tabelas criadas pelo seu pipeline sempre que for além do desenvolvimento e teste de um novo pipeline. A publicação de um pipeline em um destino torna os conjuntos de dados disponíveis para consulta em outro lugar em seu ambiente do Azure Databricks.
Você pode tornar os dados de saída do seu pipeline detetáveis e disponíveis para consulta publicando conjuntos de dados no metastore do Hive. Para publicar conjuntos de dados no metastore, insira um nome de esquema no campo Destino ao criar um pipeline. Você também pode adicionar um banco de dados de destino a um pipeline existente.
Todas as tabelas e exibições criadas no Delta Live Tables são locais para o pipeline por padrão. Você deve publicar tabelas em um esquema de destino para consultar ou usar conjuntos de dados Delta Live Tables fora do pipeline no qual eles são declarados.
Para publicar tabelas dos seus pipelines no Catálogo Unity, consulte Utilizar o Catálogo Unity com os seus pipelines do Delta Live Tables..
Como publicar conjuntos de dados Delta Live Tables no metastore herdado do Hive
Você pode declarar um esquema de destino para todas as tabelas em seu pipeline Delta Live Tables usando o campo Esquema de destino nas configurações de pipeline e Criar UIs de pipeline.
Você também pode especificar um esquema em uma configuração JSON definindo o target
valor.
Você deve executar uma atualização para o pipeline para publicar resultados no esquema de destino.
Você pode usar esse recurso com várias configurações de ambiente para publicar em esquemas diferentes com base no ambiente. Por exemplo, você pode publicar em um dev
esquema para desenvolvimento e um prod
esquema para dados de produção.
Como consultar tabelas de streaming e exibições materializadas no metastore herdado do Hive
Após a conclusão de uma atualização, você pode exibir o esquema e as tabelas, consultar os dados ou usá-los em aplicativos downstream.
Uma vez publicadas, as tabelas Delta Live Tables podem ser consultadas de qualquer ambiente com acesso ao esquema de destino. Isso inclui Databricks SQL, notebooks e outros pipelines Delta Live Tables.
Importante
Quando você cria uma target
configuração, somente tabelas e metadados associados são publicados. As visualizações não são publicadas no metastore.
Especificar um local de armazenamento
Você pode especificar um local de armazenamento para um pipeline que publica no metastore do Hive. A principal motivação para especificar um local é controlar o local de armazenamento de objetos para dados gravados pelo seu pipeline.
Como todas as tabelas, dados, pontos de verificação e metadados para pipelines do Delta Live Tables são totalmente gerenciados pelo Delta Live Tables, a maior parte da interação com os conjuntos de dados do Delta Live Tables acontece por meio de tabelas registradas no metastore do Hive ou no Unity Catalog.
Configuração de armazenamento na nuvem
Para acessar o armazenamento do Azure, você deve configurar os parâmetros necessários, incluindo tokens de acesso, usando spark.conf
as configurações em suas configurações de cluster. Para obter um exemplo de configuração de acesso a uma conta de armazenamento do Azure Data Lake Storage Gen2 (ADLS Gen2), consulte Acessar credenciais de armazenamento com segurança com segredos em um pipeline.
Exemplo de blocos de anotações de código-fonte de pipeline para espaços de trabalho sem o Unity Catalog
Você pode importar os seguintes blocos de anotações para um espaço de trabalho do Azure Databricks sem o Unity Catalog habilitado e usá-los para implantar um pipeline Delta Live Tables. Importe o bloco de anotações do idioma escolhido e especifique o caminho no campo Código-fonte ao configurar um pipeline com a opção de armazenamento de metastore do Hive. Consulte Configurar um pipeline Delta Live Tables.