Início Rápido: Analisar com o Apache Spark

Artigo
12/04/2024

Neste tutorial, você conhecerá as etapas básicas usadas para carregar e analisar dados com o Apache Spark para o Azure Synapse.

Pré-requisitos

Verifique se você colocou os dados de exemplo na conta de armazenamento primária.

Criar um Pool do Apache Spark sem servidor

No Synapse Studio, no painel do lado esquerdo, selecione Gerenciar>Pools do Apache Spark.
Selecione Novo
Em Nome do Pool do Apache Spark, insira Spark1.
Em Tamanho do nó, insira Pequeno.
Em Número de nós, defina o mínimo como 3 e o máximo como 3
Selecione Examinar + criar>Criar. Seu Pool do Apache Spark estará pronto em alguns segundos.

Noções básicas sobre pools do Apache Spark sem servidor

Um Pool do Spark sem servidor é uma forma de indicar como um usuário deseja trabalhar com o Spark. Quando você começa a usar um pool, uma sessão do Spark é criada, se necessário. O pool controla quantos recursos do Spark serão usados por essa sessão e quanto tempo a sessão vai durar antes de ser colocada em pausa automaticamente. Você pagará pelos recursos do Spark usados durante essa sessão, não pelo próprio pool. Dessa forma, um Pool do Spark permite que você use o Apache Spark sem gerenciar clusters. Isso é semelhante a como funciona um pool de SQL sem servidor.

Analisar dados de Táxi de NYC com um pool do Spark

Observação

Verifique se você colocou os dados de exemplo na conta de armazenamento primária.

No Synapse Studio, acesse o hub Desenvolver.
Crie um novo bloco de anotações.

Crie uma célula de código e cole o seguinte código nela:

%%pyspark
df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
display(df.limit(10))

Modifique o URI de carregamento para que ele referencie o arquivo de exemplo na sua conta de armazenamento de acordo com o esquema de URI abfss.
No notebook, no menu Anexar a, escolha o Pool do Spark sem servidor Spark1 que criamos anteriormente.
Selecione Executar na célula. O Azure Synapse iniciará uma nova sessão do Spark para executar essa célula, se necessário. Se uma nova sessão do Spark for necessária, inicialmente, levará cerca de dois segundos para que ela seja criada. Depois que uma sessão for criada, a execução da célula levará cerca de dois segundos.
Se você quiser ver apenas o esquema do dataframe, execute uma célula com o seguinte código:
```
%%pyspark
df.printSchema()
```

Carregar os dados de táxi de Nova York no banco de dados nyctaxi do Spark

Os dados ficam disponíveis por meio do dataframe chamado df. Carregue-os em um banco de dados do Spark chamado nyctaxi.

Adicione uma nova célula de código ao notebook e insira o seguinte código:

%%pyspark
spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
df.write.mode("overwrite").saveAsTable("nyctaxi.trip")

Analisar os dados de táxi de NYC usando Spark e notebooks

Crie uma célula de código e insira o código a seguir.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.trip") 
display(df)

Execute a célula para mostrar os dados de Táxis de Nova York que carregamos no banco de dados nyctaxi do Spark.

Crie uma célula de código e insira o código a seguir. Analisaremos esses dados e salvaremos os resultados em uma tabela chamada nyctaxi.passengercountstats.

%%pyspark
df = spark.sql("""
   SELECT passenger_count,
       SUM(trip_distance) as SumTripDistance,
       AVG(trip_distance) as AvgTripDistance
   FROM nyctaxi.trip
   WHERE trip_distance > 0 AND passenger_count > 0
   GROUP BY passenger_count
   ORDER BY passenger_count
""") 
display(df)
df.write.saveAsTable("nyctaxi.passengercountstats")

Nos resultados da célula, selecione Gráfico para visualizar os dados exibidos.

Próxima etapa

Analisar dados com um pool de SQL dedicado

Compartilhar via