Dela via


Självstudie: Samla in Event Hubs-data i parquet-format och analysera med Azure Synapse Analytics

Den här självstudien visar hur du använder Stream Analytics utan kodredigerare för att skapa ett jobb som samlar in Event Hubs-data till Azure Data Lake Storage Gen2 i parquet-format.

I den här självstudien lär du dig att:

  • Distribuera en händelsegenerator som skickar exempelhändelser till en händelsehubb
  • Skapa ett Stream Analytics-jobb med redigeringsprogrammet utan kod
  • Granska indata och schema
  • Konfigurera Azure Data Lake Storage Gen2 till vilken händelsehubbdata som ska samlas in
  • Köra Stream Analytics-jobbet
  • Använda Azure Synapse Analytics för att köra frågor mot parquet-filerna

Förutsättningar

Kontrollera att du har slutfört följande steg innan du börjar:

Använd ingen kodredigerare för att skapa ett Stream Analytics-jobb

  1. Leta upp resursgruppen där TollApp-händelsegeneratorn distribuerades.

  2. Välj Azure Event Hubs-namnområdet. Du kanske vill öppna den på en separat flik eller i ett fönster.

  3. På sidan Event Hubs-namnområde väljer du Händelsehubbar under Entiteter på den vänstra menyn.

  4. Välj entrystream instans.

    Skärmbild som visar valet av händelsehubben.

  5. På sidan Event Hubs-instans väljer du Bearbeta data i avsnittet Funktioner på den vänstra menyn.

  6. Välj Starta på panelen Avbilda data till ADLS Gen2 i Parquet-format .

    Skärmbild som visar valet av panelen **Avbilda data till ADLS Gen2 i Parquet-format**.

  7. Ge jobbet parquetcapture ett namn och välj Skapa.

    Skärmbild av sidan Nytt Stream Analytics-jobb.

  8. Följ dessa steg på konfigurationssidan för händelsehubben :

    1. För Konsumentgrupp väljer du Använd befintlig.

    2. Bekräfta att $Default konsumentgruppen är markerad.

    3. Bekräfta att Serialisering är inställt på JSON.

    4. Bekräfta att autentiseringsmetoden är inställd på Anslutningssträng.

    5. Bekräfta att namnet på den delade åtkomstnyckeln för händelsehubben har angetts till RootManageSharedAccessKey.

    6. Välj Anslut längst ned i fönstret.

      Skärmbild av konfigurationssidan för händelsehubben.

  9. Inom några sekunder visas exempel på indata och schemat. Du kan välja att släppa fält, byta namn på fält eller ändra datatyp.

    Skärmbild som visar fälten och förhandsgranskningen av data.

  10. Välj Azure Data Lake Storage Gen2-panelen på arbetsytan och konfigurera den genom att ange

    • Prenumeration där ditt Azure Data Lake Gen2-konto finns i

    • Lagringskontots namn, som ska vara samma ADLS Gen2-konto som används med din Azure Synapse Analytics-arbetsyta i avsnittet Förutsättningar.

    • Container där Parquet-filerna skapas.

    • För Sökväg till Delta-tabell anger du ett namn för tabellen.

    • Datum- och tidsmönster som standard yyyy-mm-dd och HH.

    • Välj Anslut

      Skärmbild som visar konfigurationsinställningarna för Data Lake Storage.

  11. Välj Spara i det övre menyfliksområdet för att spara jobbet och välj sedan Starta för att köra jobbet. När jobbet har startats väljer du X i det högra hörnet för att stänga Stream Analytics-jobbsidan .

    Skärmbild som visar sidan Starta Stream Analytics-jobb.

  12. Sedan visas en lista över alla Stream Analytics-jobb som skapats med redigeringsprogrammet utan kod. Och inom två minuter kommer ditt jobb att gå till ett körningstillstånd . Välj knappen Uppdatera på sidan för att se statusen ändras från Skapad –> Startar –> Körs.

    Skärmbild som visar listan över Stream Analytics-jobb.

Visa utdata i ditt Azure Data Lake Storage Gen 2-konto

  1. Leta upp det Azure Data Lake Storage Gen2-konto som du använde i föregående steg.

  2. Välj den container som du använde i föregående steg. Du ser parquet-filer som skapats i mappen som du angav tidigare.

    Skärmbild som visar de insamlade parquet-filerna i Azure Data Lake Storage Gen 2.

Fråga insamlade data i Parquet-format med Azure Synapse Analytics

Fråga med Azure Synapse Spark

  1. Leta upp din Azure Synapse Analytics-arbetsyta och öppna Synapse Studio.

  2. Skapa en serverlös Apache Spark-pool på din arbetsyta om det inte redan finns någon.

  3. I Synapse Studio går du till utveckla hubben och skapar en ny notebook-fil.

    Skärmbild som visar Synapse Studio.

  4. Skapa en ny kodcell och klistra in följande kod i cellen. Ersätt container och adlsname med namnet på containern och ADLS Gen2-kontot som användes i föregående steg.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. För Anslut till i verktygsfältet väljer du din Spark-pool i listrutan.

  6. Välj Kör alla för att se resultatet

    Skärmbild av spark-körningsresultat i Azure Synapse Analytics.

Fråga med Azure Synapse Serverless SQL

  1. I utveckla hubben skapar du ett nytt SQL-skript.

    Skärmbild som visar sidan Utveckla med den nya SQL-skriptmenyn vald.

  2. Klistra in följande skript och kör det med hjälp av den inbyggda serverlösa SQL-slutpunkten. Ersätt container och adlsname med namnet på containern och ADLS Gen2-kontot som användes i föregående steg.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Skärmbild av SQL-skriptresultat i Azure Synapse Analytics.

Rensa resurser

  1. Leta upp din Event Hubs-instans och se listan över Stream Analytics-jobb under avsnittet Processdata . Stoppa alla jobb som körs.
  2. Gå till den resursgrupp som du använde när du distribuerade TollApp-händelsegeneratorn.
  3. Välj Ta bort resursgrupp. Ange namnet på resursgruppen för att bekräfta borttagningen.

Nästa steg

I den här självstudien har du lärt dig hur du skapar ett Stream Analytics-jobb med hjälp av kodredigeraren utan kod för att samla in Event Hubs-dataströmmar i Parquet-format. Sedan använde du Azure Synapse Analytics för att köra frågor mot parquet-filerna med både Synapse Spark och Synapse SQL.