Tipos de visualização
Este artigo descreve os tipos de visualizações disponíveis para uso nos blocos de anotações do Azure Databricks e no Databricks SQL e mostra como criar um exemplo de cada tipo de visualização.
Nota
Para saber mais sobre os tipos de visualização disponíveis para painéis de IA/BI, consulte Tipos de visualizações de painel.
Gráfico de barras
Os gráficos de barras representam a mudança nas métricas ao longo do tempo ou para mostrar proporcionalidade, semelhante a um gráfico de pizza .
Nota
Os gráficos de barras suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico de barras, foram definidos os seguintes valores:
- Coluna X:
- Coluna do conjunto de dados:
o_orderdate
- Nível de data:
Months
- Coluna do conjunto de dados:
- Colunas Y:
- Coluna do conjunto de dados:
o_totalprice
- Tipo de agregação:
Sum
- Coluna do conjunto de dados:
- Agrupar por (coluna do conjunto de dados):
o_orderpriority
- Empilhamento:
Stack
- Nome do eixo X (substituir valor padrão):
Order month
- Nome do eixo Y (substituir o valor padrão):
Total price
Opções de configuração: Para opções de configuração de gráfico de barras, consulte Opções de configuração de gráfico.
Consulta SQL: Para esta visualização de gráfico de barras, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de linhas
Os gráficos de linhas apresentam a mudança em uma ou mais métricas ao longo do tempo.
Nota
Os gráficos de linhas suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico de linhas, foram definidos os seguintes valores:
- Coluna X:
- Coluna do conjunto de dados:
o_orderdate
- Nível de data:
Years
- Coluna do conjunto de dados:
- Colunas Y:
- Coluna do conjunto de dados:
o_totalprice
- Tipo de agregação:
Average
- Coluna do conjunto de dados:
- Agrupar por (coluna do conjunto de dados):
o_orderpriority
- Nome do eixo X (substituir valor padrão):
Order year
- Nome do eixo Y (substituir o valor padrão):
Average price
Opções de configuração: Para opções de configuração de gráfico de linha, consulte Opções de configuração de gráfico.
Consulta SQL: Para esta visualização de gráfico de linhas, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de área
Os gráficos de área combinam o gráfico de linhas e barras para mostrar como os valores numéricos de um ou mais grupos mudam ao longo da progressão de uma segunda variável, normalmente a do tempo. Eles são frequentemente usados para mostrar as mudanças do funil de vendas ao longo do tempo.
Nota
Os gráficos de área suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico de área, foram definidos os seguintes valores:
- Coluna X:
- Coluna do conjunto de dados:
o_orderdate
- Nível de data:
Years
- Coluna do conjunto de dados:
- Colunas Y:
- Coluna do conjunto de dados:
o_totalprice
- Tipo de agregação:
Sum
- Coluna do conjunto de dados:
- Agrupar por (coluna do conjunto de dados):
o_orderpriority
- Empilhamento:
Stack
- Nome do eixo X (substituir valor padrão):
Order year
- Nome do eixo Y (substituir o valor padrão):
Total price
Opções de configuração: Para opções de configuração de gráfico de área, consulte Opções de configuração de gráfico.
Consulta SQL: Para esta visualização de gráfico de área, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráficos circulares
Os gráficos de pizza mostram a proporcionalidade entre as métricas. Não se destinam a transmitir dados de séries cronológicas.
Nota
Os gráficos de pizza suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico circular, foram definidos os seguintes valores:
- Coluna X (coluna do conjunto de dados):
o_orderpriority
- Colunas Y:
- Coluna do conjunto de dados:
o_totalprice
- Tipo de agregação:
Sum
- Coluna do conjunto de dados:
- Rótulo (substituir o valor padrão):
Total price
Opções de configuração: Para opções de configuração de gráfico circular, consulte Opções de configuração de gráfico.
Consulta SQL: Para esta visualização de gráfico de pizza, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráficos de histograma
Um histograma plota a frequência com que um determinado valor ocorre em um conjunto de dados. Um histograma ajuda você a entender se um conjunto de dados tem valores agrupados em torno de um pequeno número de intervalos ou mais espalhados. Um histograma é exibido como um gráfico de barras no qual você controla o número de barras distintas (também chamadas de compartimentos).
Nota
Os gráficos de histograma suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico de histograma, foram definidos os seguintes valores:
- Coluna X (coluna do conjunto de dados):
o_totalprice
- Número de caixotes: 20
- Nome do eixo X (substituir valor padrão):
Total price
Opções de configuração: Para opções de configuração de gráfico de histograma, consulte Opções de configuração de gráfico de histograma.
Consulta SQL: Para esta visualização de gráfico de histograma, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de mapa de calor
Os gráficos de mapa de calor combinam recursos de gráficos de barras, empilhamento e gráficos de bolhas, permitindo que você visualize dados numéricos usando cores. Uma paleta de cores comum para um mapa de calor mostra os valores mais altos usando cores mais quentes, como laranja ou vermelho, e os valores mais baixos usando cores mais frias, como azul ou roxo.
Por exemplo, considere o seguinte mapa de calor que visualiza as distâncias mais frequentes de corridas de táxi em cada dia e agrupa os resultados pelo dia da semana, distância e tarifa total.
Nota
Os gráficos de mapa de calor suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico de mapa de calor, foram definidos os seguintes valores:
- Coluna X (coluna do conjunto de dados):
o_orderpriority
- Colunas Y (coluna do conjunto de dados):
o_orderstatus
- Coluna de cor:
- Coluna do conjunto de dados:
o_totalprice
- Tipo de agregação:
Average
- Coluna do conjunto de dados:
- Nome do eixo X (substituir valor padrão):
Order priority
- Nome do eixo Y (substituir valor padrão):
Order status
- Esquema de cores (substituir o valor padrão):
YIGnBu
Opções de configuração: Para opções de configuração de mapa de calor, consulte Opções de configuração de gráfico de mapa de calor.
Consulta SQL: Para esta visualização de gráfico de mapa de calor, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de dispersão
As visualizações de dispersão são comumente usadas para mostrar a relação entre duas variáveis numéricas. Além disso, uma terceira dimensão pode ser codificada com cores para mostrar como as variáveis numéricas são diferentes entre os grupos.
Nota
Os gráficos de dispersão suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico de dispersão, foram definidos os seguintes valores:
- Coluna X (coluna do conjunto de dados):
l_quantity
- Coluna Y (coluna do conjunto de dados):
l_extendedprice
- Agrupar por (coluna do conjunto de dados):
l_returnflag
- Nome do eixo X (substituir valor padrão):
Quantity
- Nome do eixo Y (substituir o valor padrão):
Extended price
Opções de configuração: Para opções de configuração de gráfico de dispersão, consulte Opções de configuração de gráfico.
Consulta SQL: Para essa visualização de gráfico de dispersão, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Gráfico de bolhas
Os gráficos de bolhas são gráficos de dispersão em que o tamanho de cada marcador de ponto reflete uma métrica relevante.
Nota
Os gráficos de bolhas suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico de bolhas, foram definidos os seguintes valores:
- X (coluna do conjunto de dados):
l_quantity
- Colunas Y (coluna do conjunto de dados):
l_extendedprice
- Agrupar por (coluna do conjunto de dados):
l-returnflag
- Coluna de tamanho de bolha (coluna do conjunto de dados):
l_tax
- Coeficiente de tamanho da bolha: 20
- Nome do eixo X (substituir valor padrão):
Quantity
- Nome do eixo Y (substituir o valor padrão):
Extended price
Opções de configuração: Para opções de configuração de gráfico de bolhas, consulte Opções de configuração de gráfico.
Consulta SQL: Para esta visualização de gráfico de bolhas, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Gráfico de caixa
A visualização do gráfico de caixa mostra o resumo da distribuição dos dados numéricos, opcionalmente agrupados por categoria. Usando uma visualização de gráfico de caixa, você pode comparar rapidamente os intervalos de valores entre categorias e visualizar os grupos de localidade, dispersão e assimetria dos valores através de seus quartis. Em cada caixa, a linha mais escura mostra o intervalo interquartílico. Para obter mais informações sobre como interpretar visualizações de gráfico de caixa, consulte o artigo Gráfico de caixa na Wikipédia.
Nota
Os gráficos de caixa suportam apenas agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização de gráfico de caixa, foram definidos os seguintes valores:
- Coluna X (coluna do conjunto de dados):
l-returnflag
- Colunas Y (coluna do conjunto de dados):
l_extendedprice
- Agrupar por (coluna do conjunto de dados):
l_shipmode
- Nome do eixo X (substituir valor padrão):
Return flag1
- Nome do eixo Y (substituir o valor padrão):
Extended price
Opções de configuração: Para opções de configuração de gráfico de caixa, consulte Opções de configuração de gráfico de caixa.
Consulta SQL: Para esta visualização de gráfico de caixa, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Gráfico de combinação
Os gráficos de combinação combinam gráficos de linhas e barras para apresentar as alterações ao longo do tempo com proporcionalidade.
Nota
Os gráficos de combinação suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico de combinação, foram definidos os seguintes valores:
- Coluna X (coluna do conjunto de dados):
l_shipdate
- Colunas Y:
- Primeira coluna do conjunto de dados:
l_extendedprice
- Tipo de agregação: média
- Segunda coluna do conjunto de dados:
l_quantity
- Tipo de agregação: média
- Primeira coluna do conjunto de dados:
- Nome do eixo X (substituir valor padrão):
Ship date
- Nome do eixo Y esquerdo (substituir o valor padrão):
Quantity
- Nome do eixo Y direito (substituir o valor padrão):
Average price
- Série:
- Order1 (coluna do conjunto de dados):
AVG(l_extendedprice)
- Eixo Y: direito
- Tipo: Linha
- Order2 (coluna do conjunto de dados):
AVG(l_quantity)
- Eixo Y: esquerda
- Tipo: Bar
- Order1 (coluna do conjunto de dados):
Opções de configuração: Para opções de configuração de gráfico de combinação, consulte Opções de configuração de gráfico.
Consulta SQL: Para esta visualização de gráfico de combinação, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Análise de coorte
Uma análise de coorte examina os resultados de grupos predeterminados, chamados coortes, à medida que progridem através de um conjunto de estágios. A visualização da coorte apenas agrega sobre datas (permite agregações mensais). Ele não faz nenhuma outra agregação de dados dentro do conjunto de resultados. Todas as outras agregações são feitas dentro da própria consulta.
Valores de configuração: Para esta visualização de coorte, foram definidos os seguintes valores:
- Data (bucket) (coluna do banco de dados):
cohort_month
- Estágio (coluna do banco de dados):
months
- Tamanho da população do bucket (coluna do banco de dados):
size
- Valor do palco (coluna do banco de dados):
active
- Intervalo de tempo:
monthly
Opções de configuração: Para opções de configuração de coorte, consulte Opções de configuração de gráfico de coorte.
Consulta SQL: Para esta visualização de coorte, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
Visor de balcão
Os contadores exibem um único valor em destaque, com uma opção para compará-los com um valor de destino. Para usar contadores, especifique qual linha de dados será exibida na visualização do contador para a Coluna de Valor e a Coluna de Destino.
Nota
O contador suporta apenas agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização do contador, foram definidos os seguintes valores:
- Coluna Valor
- Coluna do conjunto de dados:
avg(o_totalprice)
- Linha: 1
- Coluna do conjunto de dados:
- Coluna de destino:
- Coluna do conjunto de dados:
avg(o_totalprice)
- Linha: 2
- Coluna do conjunto de dados:
- Formatar valor de destino: Ativar
Consulta SQL: Para esta visualização de contador, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
Visualização do funil
A visualização do funil ajuda a analisar a mudança em uma métrica em diferentes estágios. Para usar o funil, especifique a step
e uma value
coluna.
Nota
O funil só suporta agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização de funil, foram definidos os seguintes valores:
- Coluna de etapa (coluna do conjunto de dados):
o_orderstatus
- Coluna de valor (coluna do conjunto de dados):
Revenue
Consulta SQL: Para esta visualização de funil, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
Visualização de mapa de choropleth
Nas visualizações coropléticas, as localidades geográficas, como países ou estados, são coloridas de acordo com os valores agregados de cada coluna chave. A consulta deve retornar localizações geográficas por nome.
Nota
As visualizações de choropleth não fazem agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.
Valores de configuração: Para esta visualização coroplética, foram definidos os seguintes valores:
- Mapa (coluna do conjunto de dados):
Countries
- Coluna geográfica (coluna do conjunto de dados):
Nation
- Tipo geográfico: Nome curto
- Coluna de valor (coluna do conjunto de dados):
revenue
- Modo de agrupamento: equidistante
Opções de configuração: Para opções de configuração de choropleth, consulte opções de configuração de choropleth.
Consulta SQL: Para esta visualização coroplética, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
Visualização de mapa de marcador
Nas visualizações de marcadores, um marcador é colocado em um conjunto de coordenadas no mapa. O resultado da consulta deve retornar os pares de latitude e longitude.
Nota
O marcador não faz agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.
Este exemplo de marcador é gerado a partir de um conjunto de dados que inclui valores de latitude e longitude - que não estão disponíveis nos conjuntos de dados de exemplo Databricks. Para opções de configuração de coropleth, consulte Opções de configuração de marcador.
Visualização de tabela dinâmica
Uma visualização de tabela dinâmica agrega registros de um resultado de consulta em uma nova exibição tabular. É semelhante a PIVOT
instruções ou GROUP BY
em SQL. Configure a visualização de tabela dinâmica com campos de arrastar e soltar.
Nota
As tabelas dinâmicas suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados. No entanto, a tabela dinâmica (legado) só suporta agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização de tabela dinâmica, foram definidos os seguintes valores:
- Selecionar linhas (coluna do conjunto de dados):
l_retkurnflag
- Selecionar colunas (coluna do conjunto de dados):
l_shipmode
- Célula
- Coluna do conjunto de dados:
l_quantity
- Tipo de agregação: Soma
- Coluna do conjunto de dados:
Consulta SQL: Para esta visualização de tabela dinâmica, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Sankey
Um diagrama sankey visualiza o fluxo de um conjunto de valores para outro.
Nota
As visualizações Sankey não fazem agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.
Consulta SQL: Para esta visualização Sankey, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Sequência Sunburst
Um diagrama sunburst ajuda a visualizar dados hierárquicos usando círculos concêntricos.
Nota
A sequência Sunburst não faz agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.
Consulta SQL: Para esta visualização sunburst, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Tabela
A visualização de tabela exibe dados em uma tabela padrão, mas com a capacidade de reordenar, ocultar e formatar manualmente os dados. Consulte Opções de tabela.
Nota
As visualizações de tabela não fazem agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.
Para opções de configuração de tabela, consulte Opções de configuração de tabela.
Nuvem de palavras
Uma nuvem de palavras representa visualmente a frequência com que uma palavra ocorre nos dados.
Nota
A nuvem do Word suporta apenas agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização em nuvem de palavras, foram definidos os seguintes valores: teste
- Coluna de palavras (coluna do conjunto de dados):
o_comment
- Limite de comprimento das palavras: 5
- Limite de frequências: 2
Consulta SQL: Para esta visualização de nuvem de palavras, a seguinte consulta SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders