Azure AI モデル推論での展開の種類
Azure AI サービスの Azure AI モデル推論では、ビジネス パターンと使用パターンに合ったホスティング構造を選択できます。 このサービスで提供されるデプロイの 2 つの主要な種類は、標準とプロビジョニング済みです。 標準にはグローバル デプロイ オプションが用意されており、トラフィックをグローバルにルーティングしてスループットを向上させます。 プロビジョニング済みはグローバル デプロイ オプションでも提供されており、お客様はプロビジョニングされたスループット ユニットを購入して Azure グローバル インフラストラクチャ全体にデプロイできます。
実行される推論操作はどのデプロイもまったく同じですが、課金、スケール、パフォーマンスは大きく異なります。 ソリューション設計の一環として、2 つの重要な決定を行う必要があります。
- データ所在地のニーズ: グローバル リソースまたはリージョン リソース
- 呼び出しボリューム: 標準またはプロビジョニング済み
展開の種類に対するサポートは、モデルとモデル プロバイダーによって異なります。
グローバルとリージョンのデプロイの種類
標準およびプロビジョニング済みデプロイに関しては、リソース内での構成の種類としてグローバルまたはリージョンという 2 つの選択肢があります。 グローバル標準は、初めて使用する場合に推奨されます。
グローバル展開では、Azure のグローバル インフラストラクチャが使用され、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 これは、グローバルでは最高の初期スループット制限と最適なモデル可用性が手に入るだけでなく、アップタイムに関する SLA と低い待機時間が提供されることを意味します。 標準およびグローバル標準上の指定された使用レベルを超える大量のワークロードでは、待機時間の変動が増加する可能性があります。 大規模なワークロードを使って変化の小さい待ち時間を必要とするお客様には、プロビジョニング済みスループットを購入することをお勧めします。
グローバル展開は、すべての新しいモデルと機能にとっての最初の場所になります。 非常に大きいスループットが必要なお客様は、プロビジョニングされたデプロイ オファリングを検討する必要があります。
Standard
標準デプロイでは、選択されたモデルで呼び出し単位の支払いの課金モデルが提供されます。 消費した分だけ支払うので、最も早く使い始めることができます。 各リージョンで使用できるモデルとスループットは、制限される場合があります。
標準デプロイは、バースト性が高い中程度以下のボリューム用に最適化されています。 一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。
この展開の種類は、Azure OpenAI モデルでのみサポートされます。
グローバル標準
グローバル展開は、非グローバル展開種類と同じ Azure AI サービス リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを使って、トラフィックを要求ごとに最適な可用性のデータ センターに動的にルーティングできます。 グローバル標準では、最大の既定クォータが提供され、複数のリソース間での負荷分散の必要がなくなります。
一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 大規模なワークロードの使用時に、変動の少ない待ち時間を必要とするアプリケーションには、プロビジョニング済みスループットが利用できる場合は購入することをお勧めします。
グローバル プロビジョニング済み
グローバル展開は、非グローバル展開種類と同じ Azure AI サービス リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを活用して、トラフィックを要求ごとに最適な可用性のデータ センターに動的にルーティングできます。 グローバルなプロビジョニング済みデプロイでは、Azure グローバル インフラストラクチャを使用して、予測可能な高いスループットを実現するための予約済みのモデル処理容量が提供されます。
この展開の種類は、Azure OpenAI モデルでのみサポートされます。