概要: ノートブックからデータに対してクエリを実行して視覚化する
この概要記事では、Azure Databricks ノートブックを使用して、SQL、Python、Scala、R を使って Unity Catalog に格納されているサンプル データのクエリを実行し、ノートブックでクエリの結果を視覚化する手順について説明します。
要件
この記事のタスクを完了するには、次の要件を満たす必要があります。
- ワークスペースで Unity Catalog が有効になっている必要があります。 Unity Catalog の概要については、「Unity Catalog の設定と管理」を参照してください。
- 既存のコンピューティング リソースを使用するか、新しいコンピューティング リソースを作成するためのアクセス許可が必要です。 「はじめに: アカウントとワークスペースのセットアップ」を参照するか、Databricks 管理者に問い合わせてください。
手順 1: 新しいノートブックを作成する
ワークスペースにノートブックを作成するには、サイドバーの [新規] をクリックしてから、[ノートブック] をクリックします。 ワークスペースに空のノートブックが開きます。
ノートブックの作成と管理について詳しくは、「Notebooks を管理する」を参照してください。
手順 2: テーブルを照会する
任意の言語を使用して、Unity Catalog の samples.nyctaxi.trips
テーブルに対してクエリを実行します。
次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の
samples.nyctaxi.trips
テーブルに対してクエリを実行した結果を表示します。SQL
SELECT * FROM samples.nyctaxi.trips
Python
display(spark.read.table("samples.nyctaxi.trips"))
Scala
display(spark.read.table("samples.nyctaxi.trips"))
R
library(SparkR) display(sql("SELECT * FROM samples.nyctaxi.trips"))
Shift+Enter
キーを押してセルを実行してから、次のセルに移動します。クエリの結果がノートブックに表示されます。
手順 3: データを表示する
乗車距離別の平均運賃金額を、乗車場所郵便番号でグループ化して表示します。
[テーブル] タブの横にある + をクリックして、[視覚化] をクリックします。
視覚化エディターが表示されます。
[視覚化の種類] ドロップダウンで、[バー] が選ばれていることを確認します。
[X 列] の
fare_amount
を選択します。[Y 列] の
trip_distance
を選択します。集計の種類として
Average
を選択します。[グループ化] 列として
pickup_zip
を選択します。[保存] をクリックします。
次のステップ
- CSV ファイルから Unity Catalog にデータを追加し、データを視覚化する方法については、「概要: ノートブックから CSV データをインポートして視覚化する」を参照してください。
- Apache Spark を使用して Databricks にデータを読み込む方法については、「チュートリアル: Apache Spark DataFrames を使用してデータを読み込んで変換する」を参照してください。
- Databricks へのデータの取り込みについては、「Databricks レイクハウスにデータを取り込む」を参照してください。
- Databricks を使用したデータへのクエリの実行の詳細については、データのクエリに関する記事を参照してください。
- 視覚化について詳しくは、「Databricks ノートブックでの視覚化」を参照してください。