Azure AI モデル推論での展開の種類

[アーティクル]
10/30/2024

Azure AI サービスの Azure AI モデル推論では、ビジネスパターンと使用パターンに合ったホスティング構造を選択できます。このサービスで提供されるデプロイの 2 つの主要な種類は、標準とプロビジョニング済みです。標準にはグローバルデプロイオプションが用意されており、トラフィックをグローバルにルーティングしてスループットを向上させます。プロビジョニング済みはグローバルデプロイオプションでも提供されており、お客様はプロビジョニングされたスループットユニットを購入して Azure グローバルインフラストラクチャ全体にデプロイできます。

実行される推論操作はどのデプロイもまったく同じですが、課金、スケール、パフォーマンスは大きく異なります。ソリューション設計の一環として、2 つの重要な決定を行う必要があります。

データ所在地のニーズ: グローバルリソースまたはリージョンリソース
呼び出しボリューム: 標準またはプロビジョニング済み

展開の種類に対するサポートは、モデルとモデルプロバイダーによって異なります。

グローバルとリージョンのデプロイの種類

標準およびプロビジョニング済みデプロイに関しては、リソース内での構成の種類としてグローバルまたはリージョンという 2 つの選択肢があります。グローバル標準は、初めて使用する場合に推奨されます。

グローバル展開では、Azure のグローバルインフラストラクチャが使用され、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータセンターに動的にルーティングされます。これは、グローバルでは最高の初期スループット制限と最適なモデル可用性が手に入るだけでなく、アップタイムに関する SLA と低い待機時間が提供されることを意味します。標準およびグローバル標準上の指定された使用レベルを超える大量のワークロードでは、待機時間の変動が増加する可能性があります。大規模なワークロードを使って変化の小さい待ち時間を必要とするお客様には、プロビジョニング済みスループットを購入することをお勧めします。

グローバル展開は、すべての新しいモデルと機能にとっての最初の場所になります。非常に大きいスループットが必要なお客様は、プロビジョニングされたデプロイオファリングを検討する必要があります。

Standard

標準デプロイでは、選択されたモデルで呼び出し単位の支払いの課金モデルが提供されます。消費した分だけ支払うので、最も早く使い始めることができます。各リージョンで使用できるモデルとスループットは、制限される場合があります。

標準デプロイは、バースト性が高い中程度以下のボリューム用に最適化されています。一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。

この展開の種類は、Azure OpenAI モデルでのみサポートされます。

グローバル標準

グローバル展開は、非グローバル展開種類と同じ Azure AI サービスリソースで利用できます。ただし、Azure のグローバルインフラストラクチャを使って、トラフィックを要求ごとに最適な可用性のデータセンターに動的にルーティングできます。グローバル標準では、最大の既定クォータが提供され、複数のリソース間での負荷分散の必要がなくなります。

一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。しきい値はモデルごとに設定されます。大規模なワークロードの使用時に、変動の少ない待ち時間を必要とするアプリケーションには、プロビジョニング済みスループットが利用できる場合は購入することをお勧めします。

グローバルプロビジョニング済み

グローバル展開は、非グローバル展開種類と同じ Azure AI サービスリソースで利用できます。ただし、Azure のグローバルインフラストラクチャを活用して、トラフィックを要求ごとに最適な可用性のデータセンターに動的にルーティングできます。グローバルなプロビジョニング済みデプロイでは、Azure グローバルインフラストラクチャを使用して、予測可能な高いスループットを実現するための予約済みのモデル処理容量が提供されます。

この展開の種類は、Azure OpenAI モデルでのみサポートされます。

次の方法で共有

Azure AI モデル推論での展開の種類

グローバルとリージョンのデプロイの種類

Standard

グローバル標準

グローバルプロビジョニング済み

フィードバック

その他のリソース

次の方法で共有

Azure AI モデル推論での展開の種類

グローバルとリージョンのデプロイの種類

Standard

グローバル標準

グローバル プロビジョニング済み

フィードバック

その他のリソース

グローバルプロビジョニング済み