Condividi tramite


Scenario di determinazione dei prezzi con Dataflow Gen2 per caricare 2 GB di dati Parquet in una tabella Lakehouse

In questo scenario, Dataflow Gen2 è stato usato per caricare 2 GB di dati Parquet archiviati in Azure Data Lake Storage (ADLS) Gen2 in una tabella Lakehouse in Microsoft Fabric. Sono stati usati i dati di esempio NYC Taxi-green per i dati Parquet.

I prezzi usati nel seguente esempio sono ipotetici e non intendono indicare l'esatto prezzo reale. Servono solo a dimostrare come è possibile stimare, pianificare e gestire i costi dei progetti Data Factory in Microsoft Fabric. Inoltre, poiché le capacità di Fabric hanno prezzi specifici per ogni regione, vengono usati i prezzi con pagamento in base al consumo per una capacità infrastruttura negli Stati Uniti occidentali 2 (una tipica area di Azure), a $0,18 per CU all'ora. Fare riferimento qui a Microsoft Fabric - Prezzi per esplorare altre opzioni di determinazione dei prezzi della capacità di Fabric.

Impostazione

Per eseguire lo scenario è necessario creare una pipeline con i seguenti elementi:

  1. Inizializzare il flusso di dati: ottenere dati di file Parquet da 2 GB dall'account di archiviazione di ADLS Gen2.
  2. Configurare Power Query:
    1. Spostarsi a Power Query.
    2. Verificare che l’opzione per la gestione temporanea della query sia abilitata.
    3. Procedere con la combinazione dei file Parquet.
  3. Trasformazione dei dati:
    1. Aumentare di livello le intestazioni per una maggior chiarezza.
    2. Rimuovere le colonne non necessarie.
    3. Regolare i tipi di dati della colonna in base alle esigenze.
  4. Definire la destinazione dei dati di output:
    1. Configurare Lakehouse come destinazione di output dei dati.
    2. In questo esempio è stato creato e utilizzato un Lakehouse all’interno di Fabric.

Stima dei costi con l'app Fabric Metrics

Screenshot che mostra la durata e l'utilizzo CU del processo nell'app Fabric Metrics.

Screenshot che mostra i dettagli della durata dell’aggiornamento di Dataflow Gen2 e del consumo di CU.

Screenshot che mostra i dettagli della durata della query dell’endpoint SQL e del consumo di cu usati nell'esecuzione.

Screenshot che mostra i dettagli della durata di calcolo di Warehouse e dell’utilizzo di OneLake Compute e CU usati nell’esecuzione.

Screenshot che mostra i dettagli relativi alla durata dell’aggiornamento su richiesta di query e set di dati e al consumo CU e alla query dell’endpoint SQL usata nell’esecuzione.

Screenshot che mostra i dettagli di una seconda durata dell’aggiornamento su richiesta del set di dati e del consumo di CU usati nell’esecuzione.

Screenshot che mostra i dettagli di OneLake Compute e 2 High Scale Dataflow Compute Duration e CU consumption usati nell’esecuzione.

Il contatore di calcolo del flusso di dati a scalabilità elevata ha registrato un’attività trascurabile. Il contatore di calcolo standard per le operazioni di aggiornamento di Dataflow Gen2 usa 112.098,540 unità di calcolo (CU). È importante considerare che altre operazioni, tra cui Query warehouse, query dell'endpoint SQL e aggiornamento on demand del set di dati, costituiscono aspetti dettagliati dell'implementazione di Dataflow Gen2 attualmente trasparenti e necessarie per le rispettive operazioni. Tuttavia, queste operazioni verranno nascoste negli aggiornamenti futuri e devono essere ignorate quando si stimano i costi per Dataflow Gen2.

Nota

Anche se segnalata come metrica, la durata effettiva dell'esecuzione non è rilevante quando si calcolano le ore CU effettive con l'app Fabric Metrics la metrica dei secondi CU segnala già la durata.

Metric Livello di calcolo Standard Calcolo su larga scala
Totale secondi CU 112.098,54 SECONDI CU 0 secondi
Ore CU effettive fatturate 112.098,54 / (60*60) = 31,14 ORE CU 0 / (60*60) = 0 ore cu

Costo totale esecuzione a $0,18/ore-CU = (31,14 ore-CU) * ($0,18/ore-CU) ~= $5,60