Azure Databricks ワークロードを特定する
Azure Databricks には、Machine Learning と大規模言語モデル (LLM)、Data Science、Data Engineering、BI とデータ ウェアハウス、ストリーミング処理など、さまざまなワークロード向けの機能が用意されています。
データ サイエンスとデータ エンジニアリング
このワークロードは、複雑なデータ処理タスクで共同作業を行う必要があるデータ サイエンティストやエンジニア向けに設計されています。 データ レイクハウスでのビッグ データ処理用に Apache Spark と統合された環境を提供し、Python、R、Scala、SQL などの複数の言語をサポートします。 このプラットフォームにより、データの探索、視覚化、およびデータ パイプラインの開発が容易になります。
Machine Learning
Azure Databricks の Machine Learning ワークロードは、大規模な機械学習モデルの構築、トレーニング、デプロイに最適化されています。 これには、実験、再現性、デプロイなど、ML ライフサイクルを管理するためのオープンソース プラットフォームである MLflow が含まれています。 また、TensorFlow、PyTorch、Scikit-learn などのさまざまな ML フレームワークもサポートされているため、さまざまな ML タスクに対応できます。
SQL
SQL ワークロードは、主に SQL を介してデータを操作するデータ アナリスト向けです。 Azure Databricks 内でデータを直接分析して視覚化するための、使いやすい SQL エディター、ダッシュボード、自動視覚化ツールが用意されています。 このワークロードは、クイック アドホック クエリを実行したり、大規模なデータセットからレポートを作成したりするのに最適です。