Databricks での AI および機械学習の概要

[アーティクル]
10/14/2024

この記事では、Mosaic AI (旧 Databricks Machine Learning) に用意されている AI および ML システムの構築に役立つツールについて説明します。この図は、Databricks プラットフォームのさまざまな製品が、AI および ML システムを構築してデプロイするためのエンドツーエンドワークフローの実装にどのように役立つかを示しています

機械学習の図: Databricks でのモデルの開発とデプロイ

Databricks における生成 AI

Mosaic AI は、データ収集と準備から、モデル開発と LLMOps、サービス提供と監視に至るまで、AI のライフサイクルを統合します。次の機能は、特に生成 AI アプリケーションの開発を促進するために最適化されています。

データ、機能、モデル、関数を対象にした、ガバナンス、検出、バージョン管理、アクセス制御のための Unity Catalog。
モデル開発の追跡と LLM 評価用の MLflow。
LLM を展開するための Mosaic AI Model Serving。特に生成 AI モデルにアクセスするためのモデル提供エンドポイントを構成できます。
- Foundation Model API を使用した最新のオープン LLM。
- Databricks の外部でホストされているサードパーティモデル。「Mosaic AI Model Serving の外部モデル」を参照してください。
Mosaic AI ベクトル検索には、埋め込みベクトルを保存するクエリ可能なベクトルデータベースが用意されており、ナレッジベースと自動的に同期するように構成できます。
推論テーブルによる自動ペイロードログを使って、データの監視と、モデルの予測品質とドリフトを追跡するためのレイクハウス監視。
Databricks ワークスペースから生成 AI モデルをテストするための AI プレイグラウンド。システムプロンプトや推論パラメーターなどの設定をプロンプト表示、比較、調整することができます。
独自のデータを使用して基礎モデルをカスタマイズし、そのパフォーマンスを特定のアプリケーション用に最適化するための Mosaic AI モデルトレーニング (旧 Foundation Model Training)。
取得拡張生成 (RAG) アプリケーションなどの運用品質のエージェントを構築して配置する Mosaic AI エージェントフレームワーク。
RAG アプリケーションやチェーンを含め、生成 AI アプリケーションの品質、コスト、待機時間を評価する Mosaic AI エージェント評価。

生成 AI とは

生成 AI は、画像、テキスト、コード、合成データなどのコンテンツを作成するためにモデルを使用するコンピューターの機能に焦点を当てた人工知能の一種です。

生成 AI アプリケーションは、生成 AI モデル (大規模言語モデル (LLM) や基盤モデル) 上に構築されます。

LLM は、優れた言語処理タスクを行うために膨大なデータセットを消費してトレーニングを行うディープラーニングモデルです。 LLM は、そのトレーニングデータに基づいて、自然言語を模倣した新しいテキストの組み合わせを作成します。
基盤モデルは、より具体的な言語理解と生成タスクのために微調整されることを意図して事前にトレーニングされた大規模な機械学習モデルです。これらのモデルは、入力データのパターンを識別するために使用されます。

これらのモデルは、学習プロセスを完了した後、一緒にプロンプトが表示されたときに統計的に確率の高い出力を生成し、次のようなさまざまなタスクを達成するために採用できます。

既存の画像に基づく画像生成、またはある画像のスタイルを利用して新しい画像を修正または作成します。
文字起こし、翻訳、質問と回答の生成、テキストの意図や意味の解釈などの音声タスク。

重要

多くの LLM やその他の生成型 AI モデルにはセーフガードが用意されていますが、それでも有害、または不正確な情報が生成される可能性があります。

生成 AI には、次の設計パターンがあります。

プロンプトエンジニアリング: LLM の動作のガイド専用のプロンプトの作成
検索拡張生成 (RAG): LLM と外部ナレッジの検索の組み合わせ
微調整: ドメインの特定のデータセットへの事前トレーニング済み LLM の適応
事前トレーニング: LLM のゼロからのトレーニング

Databricks での機械学習

Databricks を使うと、生データから、提供されるモデルのすべての要求と応答が保存される推論テーブルまで、ML の開発とデプロイのすべてのステップが、1 つのプラットフォームで提供されます。データサイエンティスト、データエンジニア、ML エンジニア、DevOps は、同じツールセットと、データの信頼できる唯一の情報源を使って、自分の仕事を行うことができます。

Mosaic AI は、データレイヤーと ML プラットフォームを統合します。モデルや関数など、すべてのデータ資産と成果物は、1 つのカタログで検出でき、管理されます。データとモデルに 1 つのプラットフォームを使うと、生データから運用モデルまでの系列を追跡できます。組み込まれたデータとモデルモニタリングは、プラットフォームにも格納されるテーブルに品質メトリックを保存するため、モデルのパフォーマンスの問題の根本原因を簡単に特定できます。 Databricks が ML の完全なライフサイクルと MLOps をサポートする方法について詳しくは、「Azure Databricks での MLOps ワークフロー」と「MLOps スタック: コードとしてのモデル開発プロセス」をご覧ください。

データインテリジェンスプラットフォームの主要なコンポーネントの一部を次に示します。

タスク	コンポーネント
データ、機能、モデル、特徴量のガバナンスと管理。検出、バージョン管理、系列も。	Unity Catalog
データ、データ品質、モデル予測品質の変化を追跡する	レイクハウス監視、推論テーブル
特徴の開発と管理	特徴エンジニアリングとサービス提供。
モデルをトレーニングする	Databricks AutoML、Databricks ノートブック
モデル開発の追跡	MLflow 追跡
カスタムモデルを提供する	Mosaic AI Model Serving
自動化されたワークフローと運用対応の ETL パイプラインの構築	Databricks ジョブ
Git 統合	Databricks Git フォルダー

Databricks でのディープラーニング

ディープラーニングアプリケーションのインフラストラクチャを構成することは容易でない場合があります。 Databricks Runtime for Machine Learning は、TensorFlow、PyTorch、Keras などの最も一般的なディープラーニングライブラリの互換性のあるバージョンが組み込まれたクラスターを使用して、これを処理します。

Databricks Runtime ML クラスターには、ドライバーとサポートライブラリを含む、事前に構成された GPU サポートも組み込まれています。また、ML ワークフローや ML アプリケーションをスケーリングするための計算処理を並列化する Ray のようなライブラリもサポートしています。

Databricks Runtime ML クラスターには、ドライバーとサポートライブラリを含む、事前に構成された GPU サポートも組み込まれています。 Mosaic AI Model Serving を使用すると、追加の構成なしでディープラーニングモデル用のスケーラブルな GPU エンドポイントを作成できます。

機械学習アプリケーションの場合、Databricks では、Databricks Runtime for Machine Learning を実行するクラスターを使用することをお勧めします。「Databricks Runtime ML を使用してクラスターを作成する」を参照してください。

Databricks でディープラーニングを開始するには、以下を参照してください。

次の手順

作業を開始するには、次のトピックをご覧ください。

チュートリアル: AI と機械学習の使用を開始する

Databricks Mosaic AI の推奨 MLOps ワークフローについては、次を参照してください。

Azure Databricks での MLOps ワークフロー

Databricks Mosaic AI の主な機能については、以下を参照してください。

次の方法で共有

Databricks での AI および機械学習の概要

Databricks における生成 AI

生成 AI とは

Databricks での機械学習

Databricks でのディープラーニング

次の手順

フィードバック

その他のリソース

次の方法で共有

Databricks での AI および機械学習の概要

Databricks における生成 AI

生成 AI とは

Databricks での機械学習

Databricks でのディープ ラーニング

次の手順

フィードバック

その他のリソース

Databricks でのディープラーニング