主要な概念を理解する

完了

Azure Databricks は、大規模なデータ操作を可能にする複数のテクノロジを備えた単一のサービス プラットフォームです。 Azure Databricks を使う場合は、重要な概念をいくつか理解する必要があります。

ワークスペース

ワークスペースは、すべての Databricks アセットにアクセスするための環境です。 これには、ノートブック、ライブラリ、実験を管理するためのユーザー インターフェイスが用意されています。 ワークスペースをフォルダーに整理し、チーム メンバー間で共有すると、コラボレーションとリソース管理が容易になります。

ノートブック

Databricks ノートブックは、実行可能なコード、視覚化、説明テキストを含むインタラクティブなドキュメントです。 これは、同じノートブック内で同時に使用できる、Python、R、Scala、SQL などの複数の言語をサポートしています。 ノートブックは共同プロジェクトの中心となるもので、探索的データ分析、データ視覚化、複雑なデータ ワークフローに適しています。

クラスター

クラスターは、Azure Databricks の計算エンジンです。 ユーザーは、必要な計算リソースに応じてクラスターを作成およびスケーリングできます。 クラスターは手動で構成することも、ワークロードに基づいて自動スケーリングに設定することもできます。 さまざまなタスクに対応できるように、ドライバー ノードやワーカー ノードなど、さまざまな種類のノードをサポートしており、リソースの効率的な利用が実現します。

ジョブ

Azure Databricks のジョブは、自動化されたタスクのスケジュール設定と実行に使用されます。 これらのタスクには、ノートブックの実行、Spark ジョブ、任意のコード実行などがあります。 ジョブはスケジュールに従ってトリガーしたり、特定のイベントに応じて実行したりできるため、ワークフローや定期的なデータ処理タスクの自動化が容易になります。

Databricks ランタイム

Databricks Runtime は、Apache Spark のパフォーマンス最適化バージョン セットです。 これには、標準的な Spark を超えるパフォーマンス向上と追加機能のための機能強化が含まれています。たとえば、機械学習ワークロード、グラフ処理、ゲノミクス向け最適化などです。

Delta Lake

Delta Lake は、データ レイクに信頼性とスケーラビリティをもたらすオープンソースのストレージ レイヤーです。 ACID トランザクション、スケーラブルなメタデータ処理、ストリーミングおよびバッチ データ処理の統合など、大規模なデータを一貫したフォールト トレラントな方法で管理するうえで不可欠な機能を提供します。

Databricks SQL

Databricks SQL は、Azure Databricks 内のデータに対して SQL クエリを実行する方法を提供します。 これにより、データ アナリストは、ビッグ データに対してアドホック クエリをすばやく実行し、レポートを直接作成できます。 これには、SQL エディター、ダッシュボード、自動視覚化ツールが含まれており、SQL 環境に慣れているユーザーにとって使いやすいものになっています。

MLflow

MLflow は、エンド ツー エンドの機械学習ライフサイクルを管理するためのオープンソース プラットフォームです。 これには、実験の追跡、モデル管理、デプロイのための機能が含まれており、従事者が ML モデルと実験を効率的に管理および共有するのに役立ちます。