Conceitos do Azure Databricks

Artigo
01/02/2025

Este artigo apresenta conceitos fundamentais que você precisa entender para usar o Azure Databricks de forma eficaz.

Contas e espaços de trabalho

No Azure Databricks, um espaço de trabalho é uma implantação do Azure Databricks na nuvem que funciona como um ambiente para sua equipe acessar ativos do Databricks. Sua organização pode optar por ter vários espaços de trabalho ou apenas um, dependendo de suas necessidades.

Uma conta do Azure Databricks representa uma única entidade que pode incluir vários espaços de trabalho. As contas habilitadas para Unity Catalog podem ser usadas para gerenciar usuários e seu acesso aos dados centralmente em todos os espaços de trabalho da conta.

Faturamento: unidades Databricks (DBUs)

O Azure Databricks fatura com base em unidades Databricks (DBUs), que são unidades de capacidade de processamento por hora com base no tipo de instância de VM.

Consulte a página de preços do Azure Databricks.

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber ao gerenciar identidades do Azure Databricks e seu acesso aos ativos do Azure Databricks.

User

Um indivíduo único que tem acesso ao sistema. As identidades dos usuários são representadas por endereços de e-mail. Consulte Gerenciar usuários.

Service principal (Principal de serviço)

Uma identidade de serviço para uso com trabalhos, ferramentas automatizadas e sistemas, como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representadas por uma ID de aplicativo. Veja Gerir principais de serviço.

Agrupar

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a espaços de trabalho, dados e outros objetos protegíveis. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Gerir grupos.

list de controle de acesso (ACL)

Um conjunto list de permissões anexadas ao espaço de trabalho, cluster, trabalho, tableou experimento. Uma ACL especifica quais usuários ou processos do sistema recebem acesso aos objetos, bem como quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica um assunto e uma operação. Consulte Listas de controle de acesso.

Token de acesso pessoal (PAT)

Um token de acesso pessoal é uma cadeia de caracteres usada para autenticar chamadas de API REST, parceiros de tecnologia connectionse outras ferramentas. Consulte Autenticação de token de acesso pessoal do Azure Databricks.

Os tokens de ID do Microsoft Entra também podem ser usados para autenticar na API REST.

Interfaces do Azure Databricks

Esta seção descreve as interfaces para acessar seus ativos no Azure Databricks.

IU

A interface do usuário do Azure Databricks é uma interface gráfica para interagir com recursos, como pastas de espaço de trabalho e seus objetos contidos, objetos de dados e recursos computacionais.

API REST

A API REST Databricks fornece pontos de extremidade para modificar ou solicitar informações sobre a conta do Azure Databricks e objetos de espaço de trabalho. Consulte a referência da conta e a referência do espaço de trabalho.

SQL REST API

A API REST SQL permite automatizar tarefas em objetos SQL. Consulte API SQL.

CLI

A CLI do Databricks está hospedada no GitHub. A CLI é construída sobre a API REST do Databricks.

Gestão de dados

Esta seção descreve os objetos lógicos que armazenam dados que você alimenta em algoritmos de aprendizado de máquina e nos quais você executa análises. Além disso, ele descreve a interface do usuário na plataforma para explorar e gerenciar objetos de dados.

Unidade Catalog

O Unity Catalog é uma solução de governança unificada para ativos de dados e IA no Azure Databricks que fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em espaços de trabalho Databricks. Veja O que é o Unity Catalog?.

Raiz do DBFS

Importante

Armazenar e acessar dados usando a raiz DBFS ou montagens DBFS é um padrão preterido e não recomendado pelo Databricks. Em vez disso, o Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados. Veja O que é Unity Catalog?.

A raiz DBFS é um local de armazenamento disponível para todos os usuários por padrão. Consulte O que é DBFS?.

Catalog Explorer

Catalog Explorer permite explorar e gerenciar dados e ativos de IA, incluindo esquemas (bancos de dados), tables, modelos, volumes (dados não tabulares), funções e modelos de ML registrados. Você pode usá-lo para localizar objetos de dados e proprietários, entender as relações de dados entre tablese gerenciar permissões e compartilhamento. Consulte O que é Catalog Explorer?.

Base de Dados

Uma coleção de objetos de dados, como tables ou views e funções, que é organizada para que possa ser facilmente acessada, gerenciada e atualizada. Consulte O que são esquemas no Azure Databricks?

Table

Uma representação de dados estruturados. Você executa consultas em tables com Apache Spark SQL e a API do Apache Spark. Veja O que são tables e views?.

Delta table

Por padrão, todos os tables criados no Azure Databricks são Delta tables. Os Delta tables são baseados no projeto de código aberto Delta Lake , uma estrutura para armazenamento ACID table de alto desempenho em armazenamento de objetos na nuvem. Um table Delta armazena dados sob a forma de um diretório de arquivos em armazenamento de objetos na nuvem e regista os metadados do table no metastore dentro de um catalog e schema.

Saiba mais sobre as tecnologias com a marca Delta.

Metastore

O componente que armazena todas as informações de estrutura dos vários tables e partições no data warehouse, incluindo informações de tipo column e column, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes where onde os dados são armazenados. Veja Metastores

Cada implementação do Azure Databricks tem um metastore central do Hive acessível por todos os clusters para a persistência de table metadados. Você também tem a opção de usar um metastore externo existente do Hive.

Gestão computacional

Esta seção descreve os conceitos que você precisa saber para executar cálculos no Azure Databricks.

Cluster

Uma set de recursos de computação e de configurações nas quais se executam cadernos e tarefas. Existem dois tipos de clusters: polivalente e trabalho. Consulte Computação.

Você cria um cluster multiuso usando a interface do usuário, CLI ou API REST. Pode terminar e reiniciar manualmente um cluster para todos os fins. Esses clusters podem ser partilhados por vários utilizadores para a realização de análises interativas.
O agendador de tarefas do Azure Databricks cria um cluster de trabalho quando você executa um trabalho em um novo cluster de trabalho e encerra o cluster quando o trabalho é concluído. Não é possível reiniciar um cluster de trabalhos.

Conjunto

Uma set de instâncias ociosas e prontas para uso que reduzem os tempos de início do cluster e de dimensionamento automático. Quando anexado a um pool, um cluster aloca seus nós de driver e de trabalho do pool. Consulte Referência de configuração do pool.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool será expandido alocando novas instâncias do provedor de instância. Quando um cluster anexado é encerrado, as instâncias usadas são retornadas ao pool e podem ser reutilizadas por um cluster diferente.

Tempo de execução do Databricks

O set de componentes principais que são executados nos clusters gerenciados pelo Azure Databricks. Consulte Computação. O Azure Databricks tem os seguintes tempos de execução:

O Databricks Runtime inclui o Apache Spark, mas também adiciona uma série de componentes e atualizações que melhoram substancialmente a usabilidade, o desempenho e a segurança da análise de big data.
O Databricks Runtime for Machine Learning é baseado no Databricks Runtime e fornece infraestrutura de aprendizado de máquina pré-criada que é integrada com todos os recursos do espaço de trabalho do Azure Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch e XGBoost.

Fluxos de Trabalho

A interface do usuário do espaço de trabalho Fluxos de trabalho fornece entrada para as interfaces do usuário Trabalhos e Pipelines DLT, que são ferramentas que permitem orquestrar e agendar fluxos de trabalho.

Tarefas

Um mecanismo não interativo para orquestrar e agendar blocos de anotações, bibliotecas e outras tarefas. Consulte Agendar e orquestrar fluxos de trabalho

Pipelines

Os Delta Live Tables Pipelines fornecem uma estrutura declarativa para a construção de pipelines de processamento de dados confiáveis, sustentáveis e testáveis. Veja O que é Delta Live Tables?.

Carga de trabalho

Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou grupo de tarefas. O Azure Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (trabalho) e análise de dados (multiuso).

Engenharia de dados Uma carga de trabalho (automatizada) é executada em um cluster de tarefas que o agendador de tarefas do Azure Databricks cria para cada carga de trabalho.
Análise de dados Uma carga de trabalho (interativa) é executada em um cluster multiuso. As cargas de trabalho interativas normalmente executam comandos em um bloco de anotações do Azure Databricks. No entanto, a execução de um trabalho em um cluster multiuso existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de leitura-eval-impressão (REPL) para cada linguagem de programação suportada. As linguagens suportadas são Python, R, Scala e SQL.

Engenharia de dados

As ferramentas de engenharia de dados ajudam na colaboração entre cientistas de dados, engenheiros de dados, analistas de dados e engenheiros de aprendizado de máquina.

Área de trabalho

Um espaço de trabalho é um ambiente para acessar todos os seus ativos do Azure Databricks. Um espaço de trabalho organiza objetos (blocos de anotações, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Bloco de Notas

Uma interface baseada na Web para criar fluxos de trabalho de ciência de dados e aprendizado de máquina que podem conter comandos, visualizações e texto narrativo executáveis. Consulte Introdução aos blocos de anotações Databricks.

Biblioteca

Um pacote de código disponível para o bloco de anotações ou trabalho em execução no cluster. Os tempos de execução do Databricks incluem muitas bibliotecas e você também pode carregar as suas próprias. Consulte Bibliotecas.

Pasta Git (anteriormente Repos)

Uma pasta cujo conteúdo é co-versionado sincronizando-os com um repositório Git remoto. As pastas Databricks Git integram-se ao Git para fornecer controle de origem e versão para seus projetos.

IA e aprendizagem automática

O Databricks fornece um ambiente integrado de ponta a ponta com serviços gerenciados para desenvolver e implantar aplicativos de IA e aprendizado de máquina.

Mosaico AI

A marca de produtos e serviços da Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsáveis pelos maiores avanços da Databricks em IA generativa. Os produtos Mosaic AI incluem os recursos de ML e IA no Databricks. Ver Mosaic Research.

Tempo de execução do aprendizado de máquina

Para ajudá-lo a desenvolver modelos de ML e IA, o Databricks fornece um Databricks Runtime for Machine Learning, que automatiza a criação de computação com infraestrutura pré-construída de aprendizado de máquina e aprendizado profundo, incluindo as bibliotecas de ML e DL mais comuns. Ele também tem suporte de GPU embutido e pré-configurado, incluindo drivers e bibliotecas de suporte. Navegue até obter informações sobre as versões mais recentes do tempo de execução das versões e compatibilidade das notas de versão do Databricks Runtime.

Experimentação

Uma coleção de MLflow é executada para treinar um modelo de aprendizado de máquina. Consulte Organizar execuções de treinamento com experimentos MLflow.

Funcionalidades

Os recursos são um componente importante dos modelos de ML. Um repositório de recursos permite o compartilhamento e a descoberta de recursos em toda a organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos. Consulte Engenharia de recursos e serviço.

Modelos GenAI

O Databricks suporta a exploração, desenvolvimento e implantação de modelos generativos de IA, incluindo:

AI playground, um ambiente semelhante a um bate-papo no espaço de trabalho where você pode testar, solicitar e comparar LLMs. Veja Bate-papo com LLMs e protótipos de aplicativos GenAI usando o AI Playground.
Uma set interna de modelos básicos pré-configurados que você pode consultar:
- Consulte APIs de modelo de base de pagamento por token.
- Consulte [Recomendado] Implantar modelos de base do Unity Catalog para obter modelos de base que você pode servir com um único clique.
LLMs hospedados por terceiros, chamados modelos externos. Estes modelos destinam-se a ser utilizados tal como estão.
Recursos para personalizar um modelo de base para optimize seu desempenho para seu aplicativo específico (geralmente chamado de ajuste fino). Consulte Ajuste fino do modelo de fundação.

Registo do modelo

O Databricks fornece uma versão hospedada do MLflow Model Registry no Unity Catalog. Os modelos registados no Unity Catalog herdam controle de acesso centralizado, linhagem e descoberta e acesso entre diferentes espaços de trabalho. Consulte Gerenciar o ciclo de vida do modelo no Unity Catalog.

Modelo de serviço

O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA. Cada modelo que você atende está disponível como uma API REST que você pode integrar em seu aplicativo Web ou cliente. Com o Mosaic AI Model Serving, você pode implantar seus próprios modelos, modelos de base ou modelos de terceiros hospedados fora do Databricks. Consulte Implementar modelos utilizando o Mosaic AI Model Serving.

Armazenamento de dados

Data warehousing refere-se à coleta e armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. O Databricks SQL é a coleção de serviços que trazem recursos e desempenho de armazenamento de dados para seus data lakes existentes. Consulte O que é data warehousing no Azure Databricks?.

Query

Uma consulta é uma instrução SQL válida que permite que você interaja com seus dados. Você pode criar consultas usando o editor SQL na plataforma ou conectar-se usando um conector, driver ou API SQL. Consulte Acessar e gerenciar consultas salvas para saber mais sobre como trabalhar com consultas.

Armazém SQL

Um recurso de computação no qual você executa consultas SQL. Existem três tipos de armazéns SQL: Classic, Pro e Serverless. O Azure Databricks recomenda o uso de armazéns sem servidor where disponíveis. Consulte Tipos de armazém SQL para comparar os recursos disponíveis para cada tipo de depósito.

Histórico de consultas

Uma list de consultas executadas e suas características de desempenho. O histórico de consultas permite monitorar o desempenho da consulta, ajudando a identificar gargalos e optimize tempos de execução da consulta. Consulte Histórico de consultas.

Visualização

Uma apresentação gráfica do resultado da execução de uma consulta. Consulte Visualizações em blocos de anotações Databricks.

Dashboard

Uma apresentação de visualizações de dados e comentários. Você pode usar painéis para enviar relatórios automaticamente para qualquer pessoa em sua conta do Azure Databricks. Use o Databricks Assistant para ajudá-lo a criar visualizações com base em prompts de linguagem natural. Consulte Painéis. Você também pode criar um painel a partir de um bloco de anotações. Consulte Painéis em blocos de anotações.

Para painéis herdados, consulte Painéis herdados.