Självstudie: Analysera data med dedikerade SQL-pooler
I den här självstudien använder du NYC Taxi-data för att utforska en dedikerad SQL-pools funktioner.
- [Distribuera en dedikerad SQL-pool]
- [Läs in data i poolen]
- [Utforska de data som du har läst in]
Förutsättningar
- Den här självstudien förutsätter att du har slutfört stegen i resten av snabbstarterna. Mer specifikt används resursen "contosodatalake" som skapades i snabbstarten Skapa en Synapse-arbetsyta.
Skapa en dedikerad SQL-pool
- I Synapse Studio går du till fönstret till vänster och väljer Hantera>SQL-pooler under Analyspooler.
- Välj Ny.
- För Dedikerat SQL-poolnamn väljer du
SQLPOOL1
. - För Prestandanivå väljer du DW100C.
- Välj Granska + skapa>Skapa. Din dedikerade SQL-pool är klar om några minuter.
Din dedikerade SQL-pool är associerad med en SQL-databas som även kallas SQLPOOL1
.
- Gå till Dataarbetsyta>.
- Du bör se en databas med namnet SQLPOOL1. Om du inte ser den väljer du Uppdatera.
En dedikerad SQL-pool förbrukar fakturerbara resurser så länge den är aktiv. Du kan pausa poolen senare för att minska kostnaderna.
Kommentar
När du skapar en ny dedikerad SQL-pool (tidigare SQL DW) på din arbetsyta öppnas etableringssidan för den dedikerade SQL-poolen. Etablering sker på den logiska SQL-servern.
Läs in NYC Taxi Data i SQLPOOL1
I Synapse Studio navigerar du till utveckla hubben, väljer + knappen för att lägga till ny resurs och skapar sedan ett nytt SQL-skript.
Välj poolen
SQLPOOL1
(poolen som skapades i STEG 1 i den här självstudien) i listrutan Anslut till ovanför skriptet.Ange följande kod:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' ,AUTO_CREATE_TABLE ='ON' )
Dricks
Om du får ett fel som läser
Login failed for user '<token-identified principal>'
måste du ange en Entra-ID-administratör.- Sök efter din synapse-arbetsyta i Azure-portalen.
- Under Inställningar väljer du Microsoft Entra-ID.
- Välj Ange administratör och ange en Microsoft Entra-ID-administratör.
Välj knappen Kör för att köra skriptet.
Det här skriptet avslutas på mindre än 60 sekunder. Den läser in 2 miljoner rader NYC Taxi-data i en tabell med namnet
dbo.NYCTaxiTripSmall
.
Utforska NYC Taxi-data i den dedikerade SQL-poolen
I Synapse Studio går du till datahubben .
Gå till SQLPOOL1>tabeller. (Om du inte ser den i menyn uppdaterar du sidan.)
Högerklicka på dbo-objektet. NYCTaxiTripSmall-tabell och välj Nytt SQL-skript>Välj DE 100 översta raderna.
Vänta medan ett nytt SQL-skript skapas och körs.
Överst i SQL-skriptet Anslut till anges automatiskt till SQL-poolen med namnet SQLPOOL1.
Ersätt texten i SQL-skriptet med den här koden och kör den.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Den här frågan skapar en tabell
dbo.PassengerCountStats
med aggregerade data fråntrip_distance
fältet och frågar sedan den nya tabellen. Data visar hur de totala reseavstånden och det genomsnittliga reseavståndet relaterar till antalet passagerare.I resultatfönstret för SQL-skript ändrar du Visa till diagram för att se en visualisering av resultatet som ett linjediagram. Ändra kolumnen Kategori till
PassengerCount
.
Rensa
Pausa din dedikerade SQL-pool för att minska kostnaderna.
- Gå till Hantera i synapse-arbetsytan.
- Välj SQL-pooler.
- Hovra över SQLPOOL1 och välj knappen Pausa .
- Bekräfta att du vill pausa.