Snabbstart: Analysera med Apache Spark
I den här självstudien får du lära dig de grundläggande stegen för att läsa in och analysera data med Apache Spark för Azure Synapse.
Förutsättningar
Kontrollera att du har placerat exempeldata i det primära lagringskontot.
Skapa en serverlös Apache Spark-pool
- I Synapse Studio går du till den vänstra rutan och väljer Hantera>Apache Spark-pooler.
- Välj Ny
- För Apache Spark-poolnamn anger du Spark1.
- För Nodstorlek anger du Liten.
- För Antal noder Ange minst 3 och maximalt till 3
- Välj Granska + skapa>Skapa. Apache Spark-poolen är klar om några sekunder.
Förstå serverlösa Apache Spark-pooler
En serverlös Spark-pool är ett sätt att ange hur en användare vill arbeta med Spark. När du börjar använda en pool skapas en Spark-session om det behövs. Poolen styr hur många Spark-resurser som ska användas av den sessionen och hur länge sessionen ska pågå innan den pausas automatiskt. Du betalar för spark-resurser som används under den sessionen och inte för själva poolen. På så sätt kan du använda Apache Spark i en Spark-pool utan att hantera kluster. Det här liknar hur en serverlös SQL-pool fungerar.
Analysera NYC Taxi-data med en Spark-pool
Kommentar
Kontrollera att du har placerat exempeldata i det primära lagringskontot.
I Synapse Studio går du till utveckla hubben.
Skapa en ny anteckningsbok.
Skapa en ny kodcell och klistra in följande kod i cellen:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))
Ändra inläsnings-URI:n så att den refererar till exempelfilen i ditt lagringskonto enligt abfss URI-schemat.
I anteckningsboken går du till menyn Anslut till och väljer den Spark1-serverlösa Spark-pool som vi skapade tidigare.
Välj Kör i cellen. Synapse startar en ny Spark-session för att köra den här cellen om det behövs. Om en ny Spark-session behövs tar det till en början cirka 2 till 5 minuter att skapa den. När en session har skapats tar det cirka 2 sekunder att köra cellen.
Om du bara vill se schemat för dataramen kör du en cell med följande kod:
%%pyspark df.printSchema()
Läs in NYC Taxi-data i Spark nyctaxi-databasen
Data är tillgängliga via dataramen med namnet df. Läs in den i en Spark-databas med namnet nyctaxi.
Lägg till en ny kodcell i notebook-filen och ange sedan följande kod:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analysera NYC Taxi-data med hjälp av Spark och notebook-filer
Skapa en ny kodcell och ange följande kod.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)
Kör cellen för att visa DE NYC Taxi-data som vi läste in i nyctaxi Spark-databasen.
Skapa en ny kodcell och ange följande kod. Vi analyserar dessa data och sparar resultatet i en tabell med namnet nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")
I cellresultatet väljer du Diagram för att se de data som visualiseras.