Dela via


Självstudie: Analysera data med dedikerade SQL-pooler

I den här självstudien använder du NYC Taxi-data för att utforska en dedikerad SQL-pools funktioner.

  • [Distribuera en dedikerad SQL-pool]
  • [Läs in data i poolen]
  • [Utforska de data som du har läst in]

Förutsättningar

  • Den här självstudien förutsätter att du har slutfört stegen i resten av snabbstarterna. Mer specifikt används resursen "contosodatalake" som skapades i snabbstarten Skapa en Synapse-arbetsyta.

Skapa en dedikerad SQL-pool

  1. I Synapse Studio går du till fönstret till vänster och väljer Hantera>SQL-pooler under Analyspooler.
  2. Välj Ny.
  3. För Dedikerat SQL-poolnamn väljer du SQLPOOL1.
  4. För Prestandanivå väljer du DW100C.
  5. Välj Granska + skapa>Skapa. Din dedikerade SQL-pool är klar om några minuter.

Din dedikerade SQL-pool är associerad med en SQL-databas som även kallas SQLPOOL1.

  1. Gå till Dataarbetsyta>.
  2. Du bör se en databas med namnet SQLPOOL1. Om du inte ser den väljer du Uppdatera.

En dedikerad SQL-pool förbrukar fakturerbara resurser så länge den är aktiv. Du kan pausa poolen senare för att minska kostnaderna.

Kommentar

När du skapar en ny dedikerad SQL-pool (tidigare SQL DW) på din arbetsyta öppnas etableringssidan för den dedikerade SQL-poolen. Etablering sker på den logiska SQL-servern.

Läs in NYC Taxi Data i SQLPOOL1

  1. I Synapse Studio navigerar du till utveckla hubben, väljer + knappen för att lägga till ny resurs och skapar sedan ett nytt SQL-skript.

  2. Välj poolen SQLPOOL1 (poolen som skapades i STEG 1 i den här självstudien) i listrutan Anslut till ovanför skriptet.

  3. Ange följande kod:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
        ,AUTO_CREATE_TABLE ='ON'
    )
    

    Dricks

    Om du får ett fel som läser Login failed for user '<token-identified principal>'måste du ange en Entra-ID-administratör.

    1. Sök efter din synapse-arbetsyta i Azure-portalen.
    2. Under Inställningar väljer du Microsoft Entra-ID.
    3. Välj Ange administratör och ange en Microsoft Entra-ID-administratör.
  4. Välj knappen Kör för att köra skriptet.

  5. Det här skriptet avslutas på mindre än 60 sekunder. Den läser in 2 miljoner rader NYC Taxi-data i en tabell med namnet dbo.NYCTaxiTripSmall.

Utforska NYC Taxi-data i den dedikerade SQL-poolen

  1. I Synapse Studio går du till datahubben .

  2. Gå till SQLPOOL1>tabeller. (Om du inte ser den i menyn uppdaterar du sidan.)

  3. Högerklicka på dbo-objektet. NYCTaxiTripSmall-tabell och välj Nytt SQL-skript>Välj DE 100 översta raderna.

  4. Vänta medan ett nytt SQL-skript skapas och körs.

  5. Överst i SQL-skriptet Anslut till anges automatiskt till SQL-poolen med namnet SQLPOOL1.

  6. Ersätt texten i SQL-skriptet med den här koden och kör den.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Den här frågan skapar en tabell dbo.PassengerCountStats med aggregerade data från trip_distance fältet och frågar sedan den nya tabellen. Data visar hur de totala reseavstånden och det genomsnittliga reseavståndet relaterar till antalet passagerare.

  7. I resultatfönstret för SQL-skript ändrar du Visa till diagram för att se en visualisering av resultatet som ett linjediagram. Ändra kolumnen Kategori till PassengerCount.

Rensa

Pausa din dedikerade SQL-pool för att minska kostnaderna.

  1. Gå till Hantera i synapse-arbetsytan.
  2. Välj SQL-pooler.
  3. Hovra över SQLPOOL1 och välj knappen Pausa .
  4. Bekräfta att du vill pausa.

Gå vidare