次の方法で共有


マッピング データ フローでのウィンドウ変換

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

データ フローは、Azure Data Factory および Azure Synapse Pipelines の両方で使用できます。 この記事は、マッピング データ フローに適用されます。 変換を初めて使用する場合は、概要の記事「マッピング データ フローを使用してデータを変換する」を参照してください。

ウィンドウ変換では、データ ストリームに含まれる列のウィンドウ ベースの集計を定義します。 式ビルダーでは、LEAD、LAG、NTILE、CUMEDIST、RANK など、データまたは時間ウィンドウ (SQL OVER 句) に基づくさまざまな種類の集計を定義できます。 これらの集計を含む新しいフィールドが出力に生成されます。 省略可能な group-by フィールドを含めることもできます。

メニューから選択された [ウィンドウ化] を示しているスクリーンショット。

Over

ウィンドウ変換のために列データのパーティション分割を設定します。 SQL では Over 句の Partition By がこれに相当します。 パーティション分割に使う計算または式を作成する場合は、列名をポイントして [計算列] を選ぶと、行うことができます。

[Over] タブが選択されている [ウィンドウ化設定] を示しているスクリーンショット。

並べ替え

Over 句の別の部分では、Order By を設定します。 この句は、データの並べ替え順序を設定します。 この列フィールドの計算値を並べ替えるための式を作成することもできます。

[並べ替え] タブが選択されている [ウィンドウ化設定] を示しているスクリーンショット。

Range By

次に、ウィンドウ枠を無制限または制限ありに設定します。 無制限のウィンドウ枠を設定するには、スライダーを両端の [Unbounded]\(無制限\) に設定します。 [Unbounded]\(無制限\) と [現在の行] の間の設定にする場合は、オフセットの開始値と終了値を設定する必要があります。 どちらの値も正の整数です。 相対値か、自分のデータの値を使用できます。

ウィンドウのスライダーでは 2 つの値を設定します。現在の行よりも前の値と、現在の行より後の値です。 開始と終了の間のオフセットは、スライダーの 2 つのセレクターと一致します。

[Range by]\(範囲\) タブが選択されている [ウィンドウ化設定] を示しているスクリーンショット。

ウィンドウの列

最後に、式ビルダーを使って、RANK、COUNT、MIN、MAX、DENSE RANK、LEAD、LAG など、データ ウィンドウで使用する集計を定義します。

式ビルダーを通じて Data Flow 記述言語で使用できる集計関数と分析関数の全一覧については、「マッピング データ フローでのデータ変換式」をご覧ください。

単純なグループ別集計が必要な場合は、集計変換を使います