Analisar dados numa conta de armazenamento

Artigo
09/26/2024

Neste tutorial, você aprenderá a analisar dados localizados em uma conta de armazenamento.

Descrição geral

Até agora, abordamos cenários em que os dados residem em bancos de dados no espaço de trabalho. Agora vamos mostrar-lhe como trabalhar com ficheiros em contas de armazenamento. Nesse cenário, usaremos a conta de armazenamento principal do espaço de trabalho e do contêiner que especificamos ao criar o espaço de trabalho.

O nome da conta de armazenamento: contosolake
O nome do contêiner na conta de armazenamento: usuários

Criar ficheiros CSV e Parquet na conta de armazenamento

Execute o código a seguir em um bloco de anotações em uma nova célula de código. Ele cria um arquivo CSV e um arquivo parquet na conta de armazenamento.

Gorjeta

Esta tabela foi criada anteriormente no início rápido, e você pode encontrar as etapas aqui.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Analisar dados numa conta de armazenamento

Você pode analisar os dados em sua conta padrão do Azure Data Lake Storage (ADLS) Gen2 do espaço de trabalho ou pode vincular uma conta de armazenamento ADLS Gen2 ou Blob ao seu espaço de trabalho por meio de "Gerenciar", > "Serviços Vinculados", > "Novo" (As próximas etapas se referirão à conta principal do ADLS Gen2).

No Synapse Studio, vá para o hub de dados e selecione Vinculado.
Vá para Azure Data Lake Storage Gen2>myworkspace (Primary - contosolake).
Selecione usuários (Principal). Você deve ver a pasta NYCTaxi . Dentro você deve ver duas pastas chamadas PassengerCountStats_csvformat e PassengerCountStats_parquetformat.
Abra a pasta PassengerCountStats_parquetformat . No interior, há um arquivo de parquet com um nome como part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

Clique com o botão direito do mouse em .parquet, selecione Novo bloco de anotações e selecione Carregar para DataFrame. Um novo bloco de anotações é criado com uma célula como esta:

%%pyspark
abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
df = spark.read.load(abspath, format='parquet')
display(df.limit(10))

Anexe à piscina Spark chamada Spark1. Execute a célula. Se você encontrar um erro relacionado à falta de núcleos, outra sessão pode estar usando este pool de faíscas este pool de faíscas. Cancele todas as sessões existentes e tente novamente.
Selecione voltar para a pasta de usuários . Clique com o botão direito do mouse no arquivo .parquet novamente e selecione Novo script>SQL SELECT TOP 100 rows. Ele cria um script SQL como este:
```
SELECT 
    TOP 100 *
FROM OPENROWSET(
    BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
    FORMAT='PARQUET'
) AS [result]
```
Na janela de script, verifique se o campo Conectar a está definido como o pool SQL sem servidor interno .
Execute o script.

Próximos passos

Orquestre atividades com pipelines