運用環境での推論のためのエンドポイント

[アーティクル]
09/04/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

機械学習モデルまたはパイプラインをトレーニングした後、またはモデルカタログでニーズに合ったモデルを見つけた後は、運用環境にそれらをデプロイして、他のユーザーが "推論" に使用できるようにする必要があります。推論とは、機械学習モデルまたはパイプラインに新しい入力データを適用して出力を生成するプロセスです。通常、これらの出力は "予測" と呼ばれますが、推論を使うと、分類やクラスタリングなどの他の機械学習タスク用の出力を生成できます。 Azure Machine Learning では、エンドポイントを使って推論を実行します。

エンドポイントとデプロイ

エンドポイントは、モデルの要求または呼び出しに使用できる、安定した持続的な URL です。エンドポイントに必要な入力を提供して、出力を取得します。 Azure Machine Learning では、サーバーレス API エンドポイント、オンラインエンドポイント、バッチエンドポイントを実装できます。エンドポイントから提供されるもの:

安定した持続的な URL (例: endpoint-name.region.inference.ml.azure.com)
認証メカニズム
承認メカニズム。

デプロイは、実際の推論を行うモデルやコンポーネントをホストするのに必要なリソースとコンピューティングのセットです。エンドポイントにはデプロイが含まれており、オンラインエンドポイントとバッチエンドポイントの場合は、1 つのエンドポイントに複数のデプロイを含めることができます。デプロイでは、独立した資産をホストし、資産のニーズに基づいてさまざまなリソースを使用できます。さらに、エンドポイントには、要求をそのデプロイのいずれかに送信できるルーティングメカニズムがあります。

一方では、Azure Machine Learning の一部の種類のエンドポイントでは、デプロイで専用のリソースが使われます。これらのエンドポイントを実行するには、Azure サブスクリプションにコンピューティングクォータが必要です。もう一方で、特定のモデルはサーバーレスデプロイをサポートしており、サブスクリプションのクォータを消費せずに実行できます。サーバーレスデプロイの場合、使用量に基づいて課金されます。

直感

与えられた写真から車の種類と色を予測するアプリケーションについての作業を行っているとします。このアプリケーションでは、特定の資格情報を持つユーザーが URL に対して HTTP 要求を行い、要求の一部として車の画像を提供します。そして、ユーザーは車の種類と色を文字列値として含む応答を取得します。このシナリオでは、URL はエンドポイントとして機能します。

エンドポイントの概念を示す図。

さらに、データ科学者の Alice がアプリケーションの実装作業を行っているとします。 Alice は TensorFlow のことをよく知っており、TensorFlow Hub から Keras シーケンシャル分類子と RestNet アーキテクチャを使ってモデルを実装することにしました。モデルをテストした後、Alice はその結果に満足し、モデルを使って車の予測の問題を解決することにします。モデルはサイズが大きく、実行するには 8 GB のメモリと 4 つのコアが必要です。このシナリオでは、Alice のモデルと、モデルを実行するために必要なコードやコンピューティングなどのリソースが、エンドポイントの下のデプロイを構成します。

デプロイの概念を示す図。

組織は、数か月後に、理想的な照明条件を満たしていない画像では、アプリケーションのパフォーマンスが低下することを発見するとします。もう 1 人のデータ科学者の Bob は、その点について堅牢なモデルを構築するのに役立つデータ拡張手法について多くの知識があります。しかし、Bob は、Torch を使ってモデルを実装し、Torch で新しいモデルをトレーニングする方を好んでいます。 Bob は、組織が古いモデルを廃止できるようになるまで、このモデルを運用環境で段階的に試そうと考えます。また、新しいモデルは、GPU にデプロイするとパフォーマンスが向上するため、デプロイには GPU を含める必要があります。このシナリオでは、Bob のモデルと、モデルを実行するために必要なコードやコンピューティングなどのリソースは、同じエンドポイントの下の別のデプロイを構成します。

複数のデプロイがあるエンドポイントの概念を示す図。

エンドポイント: サーバーレス API、オンライン、バッチ

Azure Machine Learning では、サーバーレス API エンドポイント、オンラインエンドポイント、バッチエンドポイントを実装できます。

"サーバーレス API エンドポイント" と "オンラインエンドポイント" は、リアルタイム推論用に設計されています。エンドポイントを呼び出すたびに、エンドポイントの応答で結果が返されます。サーバーレス API エンドポイントはサブスクリプションのクォータを消費せず、代わりに従量課金制で課金されます。

"バッチエンドポイント" は、実行時間が長いバッチ推論用に設計されています。バッチエンドポイントを呼び出すたびに、実際の作業を実行するバッチジョブが生成されます。

サーバーレス API、オンライン、バッチの各エンドポイントを使用すべきとき

サーバーレス API エンドポイント:

サーバーレス API エンドポイントは、リアルタイム推論に既製の大きな基本モデルを使用したり、そのようなモデルを微調整したりするために使います。すべてのモデルをサーバーレス API エンドポイントへのデプロイに使用できるわけではありません。次の場合は、このデプロイモードを使うことをお勧めします。

モデルは、サーバーレス API デプロイに使用できる基本モデル、または基本モデルの微調整バージョンです。
クォータのないデプロイにメリットがあります。
モデルの実行に使われる推論スタックをカスタマイズする必要がありません。

オンラインエンドポイント:

オンラインエンドポイントを使用して、同期型低遅延要求のリアルタイム推論用のモデルを運用化します。次の場合に使用することをお勧めします。

モデルは基本モデルまたは基本モデルの微調整バージョンですが、サーバーレス API エンドポイントではサポートされていません。
低遅延の要件がある。
モデルが比較的短時間で要求に応答できる。
モデルの入力が要求の HTTP ペイロードに適合する。
要求の数に関してスケールアップする必要がある。

バッチエンドポイント:

バッチエンドポイントを使用して、実行時間の長い非同期型推論用のモデルまたはパイプラインを運用化します。次の場合に使用することをお勧めします。

実行に長い時間がかかるコストの高いモデルまたはパイプラインがある。
機械学習パイプラインを運用化し、コンポーネントを再利用したいと考えている。
複数のファイルに分散された大量のデータに対して推論を実行する必要がある。
低遅延を必要としない
モデルの入力が、ストレージアカウントまたは Azure Machine Learning データアセットに格納される。
並列処理の恩恵を受けることができる

サーバーレス API、オンライン、バッチの各エンドポイントの比較

すべてのサーバーレス API、オンライン、バッチエンドポイントはエンドポイントの概念に基づいているため、それらの間を簡単に移行できます。オンラインおよびバッチエンドポイントには、同じエンドポイントの複数のデプロイを管理する機能もあります。

エンドポイント

次の表は、サーバーレス API、オンライン、バッチの各エンドポイントで利用できる、エンドポイントレベルのさまざまな機能の概要です。

機能	サーバーレス API エンドポイント	オンラインエンドポイント	バッチエンドポイント
安定した呼び出し URL	はい	イエス	はい
複数のデプロイのサポート	いいえ	イエス	はい
デプロイのルーティング	なし	トラフィックの分割	既定値への切り替え
安全なロールアウトのためのトラフィックのミラーリング	いいえ	有効	いいえ
Swagger のサポート	はい	はい	いいえ
認証	キー	キーと Microsoft Entra ID (プレビュー)	Microsoft Entra ID
プライベートネットワークのサポート (レガシ)	いいえ	イエス	はい
マネージドネットワーク分離	はい	はい	はい (必要な追加構成を参照)
カスタマーマネージドキー	NA	はい	はい
コスト基準	エンドポイント単位で分あたり ¹	なし	なし

¹ サーバーレス API エンドポイントの 1 分あたりの課金はわずかな額です。トークンごとに課金される使用量関連の料金については、デプロイに関するセクションをご覧ください。

デプロイ

次の表は、サーバーレス API、オンライン、バッチの各エンドポイントで利用できる、デプロイレベルのさまざまな機能の概要です。これらの概念は、オンラインとバッチエンドポイントの下の各デプロイと、サーバーレス API エンドポイント (デプロイの概念はエンドポイントに組み込まれています) に適用されます。

機能	サーバーレス API エンドポイント	オンラインエンドポイント	バッチエンドポイント
デプロイのタイプ	モデル	モデル	モデルとパイプラインコンポーネント
MLflow モデルのデプロイ	なし。カタログ内の特定のモデルのみ	はい	はい
カスタムモデルのデプロイ	なし。カタログ内の特定のモデルのみ	はい (スコアリングスクリプトを使用)	はい (スコアリングスクリプトを使用)
モデルパッケージ展開 ²	組み込み	はい (プレビュー)	いいえ
推論サーバー ³	Azure AI Model Inference API	- Azure Machine Learning 推論サーバー - Triton - カスタム (BYOC を使用)	バッチ推論
使用されるコンピューティングリソース	なし (サーバーレス)	インスタンスまたは詳細なリソース	クラスターインスタンス
コンピューティングの種類	なし (サーバーレス)	マネージドコンピューティングと Kubernetes	マネージドコンピューティングと Kubernetes
優先順位の低いコンピューティング	NA	いいえ	はい
コンピューティングのゼロへのスケーリング	組み込み	いいえ	はい
コンピューティングの自動スケーリング ⁴	組み込み	はい (リソースの使用に基づく)	はい (ジョブ数に基づく)
過剰容量の管理	Throttling	Throttling	キューイング
コスト基準 ⁵	トークンごと	デプロイごと: 実行中のコンピューティングインスタンス	ジョブごと: ジョブで使用されるコンピューティングインスタンス (クラスターのインスタンス数の上限まで)
デプロイのローカルテスト	いいえ	有効	いいえ

² 送信インターネット接続またはプライベートネットワークなしで MLflow モデルをエンドポイントに展開するには、まず、モデルをパッケージ化する必要があります。

³ "推論サーバー" とは、要求を受け取り、それらを処理して、応答を作成するサービステクノロジのことを指します。推論サーバーでは、入力の形式と予想される出力も指定されます。

⁴ "自動スケーリング" とは、デプロイの割り当てられたリソースを負荷に基づいて動的にスケールアップまたはスケールダウンする機能です。オンラインデプロイとバッチデプロイでは、自動スケーリングに使われる戦略が異なります。オンラインデプロイではリソース使用率 (CPU、メモリ、要求など) に基づいてスケールアップおよびスケールダウンしますが、バッチエンドポイントでは作成されたジョブの数に基づいてスケールアップまたはスケールダウンします。

⁵ オンラインデプロイとバッチデプロイの両方とも、使用されたリソースに基づいて課金されます。オンラインデプロイの場合、リソースはデプロイ時にプロビジョニングされます。バッチデプロイでは、リソースはデプロイ時ではなく、ジョブの実行時に消費されます。そのため、バッチデプロイ自体に関連するコストはありません。同様に、キューに登録されたジョブでもリソースは消費されません。

開発者インターフェイス

エンドポイントは、組織が Azure Machine Learning で運用レベルのワークロードを運用できるように設計されています。エンドポイントは堅牢でスケーラブルなリソースであり、MLOps ワークフローを実装するのに最適な機能を提供します。

複数の開発者ツールを使って、バッチエンドポイントとオンラインエンドポイントを作成および管理できます。

Azure CLI および Python SDK
Azure Resource Manager/REST API
Azure Machine Learning スタジオ Web ポータル
Azure portal (IT および管理者)
Azure CLI インターフェイスと REST および ARM インターフェイスを使用した、CI/CD MLOps パイプラインのサポート

次の方法で共有

運用環境での推論のためのエンドポイント

エンドポイントとデプロイ

直感

エンドポイント: サーバーレス API、オンライン、バッチ

サーバーレス API、オンライン、バッチの各エンドポイントを使用すべきとき

サーバーレス API、オンライン、バッチの各エンドポイントの比較

エンドポイント

デプロイ

開発者インターフェイス

フィードバック

その他のリソース

次の方法で共有

運用環境での推論のためのエンドポイント

エンドポイントとデプロイ

直感

エンドポイント: サーバーレス API、オンライン、バッチ

サーバーレス API、オンライン、バッチの各エンドポイントを使用すべきとき

サーバーレス API、オンライン、バッチの各エンドポイントの比較

エンドポイント

デプロイ

開発者インターフェイス

関連するコンテンツ

フィードバック

その他のリソース