Azure Container Apps で RAG を使用して Azure OpenAI for JavaScript チャットをスケーリングする

[アーティクル]
12/30/2024

アプリケーションに負荷分散を追加して、Azure OpenAI トークンとモデルクォータの制限を超えてチャットアプリを拡張する方法について説明します。この方法では、Azure Container Apps を使用して 3 つの Azure OpenAI エンドポイントを作成し、3 つのエンドポイントのいずれかに受信トラフィックを送信するプライマリコンテナーを作成します。

この記事では、次の 2 つの個別のサンプルをデプロイする必要があります。

チャットアプリ
- チャットアプリをまだデプロイしていない場合は、ロードバランサーのサンプルがデプロイされるまで待ちます。
- チャットアプリを既に 1 回デプロイしている場合は、ロードバランサーのカスタムエンドポイントをサポートするように環境変数を変更し、再デプロイします。
- チャットアプリは、次の言語で利用できます。
  - .NET
  - JavaScript
  - Python
ロードバランサーアプリ

手記

この記事では、記事の例とガイダンスの基礎として 1 つ以上の AI アプリテンプレートを使用します。 AI アプリテンプレートを使用すると、AI アプリの高品質な開始点を確保するのに役立つ、保守性が高く、簡単にデプロイできる参照実装が提供されます。

Azure Container Apps を使用して Azure OpenAI を負荷分散するためのアーキテクチャ

Azure OpenAI リソースには特定のトークンとモデルのクォータ制限があるため、単一の Azure OpenAI リソースを使用するチャットアプリでは、これらの制限により会話エラーが発生する傾向があります。

Azure OpenAI リソースが強調表示されたチャットアプリのアーキテクチャを示す図。

これらの制限に達せずにチャットアプリを使用するには、Azure Container Apps で負荷分散ソリューションを使用します。このソリューションは、Azure Container Apps からチャットアプリサーバーに単一のエンドポイントをシームレスに公開します。

3 つの Azure OpenAI リソースの前に Azure Container Apps を使用したチャットアプリのアーキテクチャを示す図。

Azure Container アプリは、一連の Azure OpenAI リソースの前に配置されます。 Container Apps は、通常と調整の 2 つのシナリオを解決します。トークンとモデルのクォータを使用できる通常のシナリオでは、Azure OpenAI リソースはコンテナーアプリとアプリサーバーを通じて 200 を返します。

通常のシナリオを表示する図。通常のシナリオでは、3 つの Azure OpenAI エンドポイントグループが示され、2 つのエンドポイントの最初のグループでトラフィックが成功します。

リソースがクォータ制限などの調整されたシナリオにある場合、Azure Container アプリは、別の Azure OpenAI リソースをすぐに再試行して、元のチャットアプリ要求を満たすことができます。

429 エラー応答コードと、クライアントが再試行までに待機する秒数を示す応答ヘッダーを含む調整シナリオを表示している図。

前提条件

Azure サブスクリプション。無料で作成できる
目的の Azure サブスクリプションで Azure OpenAI に付与されるアクセス。

現時点では、このサービスへのアクセスはアプリケーションによってのみ付与されます。 Azure OpenAI へのアクセスを申請するには、https://aka.ms/oai/accessのフォームに入力します。
開発コンテナーは両方のサンプルで使用でき、この記事を完了するために必要なすべての依存関係があります。開発コンテナーは、GitHub Codespaces (ブラウザー) で実行することも、Visual Studio Code を使用してローカルで実行することもできます。
- Codespaces (推奨)
- Visual Studio Code
- GitHub アカウント
- Docker Desktop - Docker Desktop がまだ実行されていない場合は起動します
- Visual Studio Code
- 開発コンテナー拡張機能

GitHub Codespaces は、Web 用の Visual Studio Code ユーザーインターフェイスとして GitHub によって管理される開発コンテナーを実行します。最も簡単な開発環境では、GitHub Codespaces を使用して、この記事を完了するために正しい開発者ツールと依存関係がプレインストールされるようにします。

でこのプロジェクトを開きます

重要

すべての GitHub アカウントでは、コアインスタンスが 2 つあり、毎月最大 60 時間無料で Codespaces を使用できます。詳細については、GitHub Codespaces の月間ストレージとコア時間の内容に関してはおよびを参照してください。

Azure Container Apps ロードバランサーをデプロイする

Azure Developer CLI にサインインして、プロビジョニングとデプロイの手順に対する認証を提供します。
```
azd auth login --use-device-code
```
プロビジョニング後の手順で Azure CLI 認証を使用するように環境変数を設定します。
```
azd config set auth.useAzCliAuth "true"
```
ロードバランサーアプリをデプロイします。
```
azd up
```
デプロイのサブスクリプションとリージョンを選択する必要があります。これらは、チャットアプリと同じサブスクリプションとリージョンである必要はありません。
デプロイが完了するまで待ってから続行します。

デプロイエンドポイントを取得する

次のコマンドを使用して、Azure Container アプリのデプロイされたエンドポイントを表示します。
```
azd env get-values
```
CONTAINER_APP_URL 値をコピーします。次のセクションで使用します。

ロードバランサーエンドポイントを使用してチャットアプリを再デプロイする

これらは、チャットアプリのサンプルで完了します。

初期配置
再デプロイ

次のいずれかの選択肢を使用して、チャットアプリサンプルの開発コンテナーを開きます。

言語 Codespaces Visual Studio Code

.NET で開く

JavaScript で開く

パイソンで開く
Azure Developer CLI (AZD) にサインインします。
```
azd auth login
```
サインイン手順を完了します。
chat-appなどの名前を持つ AZD 環境を作成します。
```
azd env new <name>
```
次の環境変数を追加します。これは、OpenAI 要求にカスタム URL を使用するようにチャットアプリのバックエンドに指示します。
```
azd env set OPENAI_HOST azure_custom
```
前のセクションの URL の <CONTAINER_APP_URL> を置き換えて、次の環境変数を追加します。このアクションは、OpenAI 要求のカスタム URL の値がチャットアプリのバックエンドに通知されます。
```
azd env set AZURE_OPENAI_CUSTOM_URL <CONTAINER_APP_URL>
```
チャットアプリを展開します。
```
azd up
```

言語	Codespaces	Visual Studio Code
.NET	で開く
JavaScript	で開く
パイソン	で開く

次のいずれかの選択肢を使用して、チャットアプリサンプルの開発コンテナーをもう一度開きます。

言語 Codespaces Visual Studio Code

.NET で開く

JavaScript で開く

パイソンで開く
次の環境変数を追加します。これは、OpenAI 要求にカスタム URL を使用するようにチャットアプリのバックエンドに指示します。
```
azd env set OPENAI_HOST azure_custom
```
次の環境変数を追加します。これは、OpenAI 要求のカスタム URL の値がチャットアプリのバックエンドに通知されます。
```
azd env set CONTAINER_APP_URL <CONTAINER_APP_URL>
```
チャットアプリを展開します。
```
azd up
```
このプロセスが完了するまで待ってから続行します。

言語	Codespaces	Visual Studio Code
.NET	で開く
JavaScript	で開く
パイソン	で開く

これで、チャットアプリは、クォータを使い切ることなく、多くのユーザーにスケーリングできるように構築されているという確信を持って使用できるようになりました。

ログをストリーミングしてロードバランサーの結果を確認する

Azure portalで、リソースグループを検索します。
グループ内のリソースの一覧から、コンテナーアプリリソースを選択します。
[監視] - >[ログ配信] を選択してログを表示します。
チャットアプリを使用して、ログにトラフィックを生成します。
Azure OpenAI リソースを参照するログを探します。 3 つの各リソースのログコメントには、Proxying to https://openai3で始まる数値 ID があり、3 は 3 番目の Azure OpenAI リソースを示します。
チャットアプリを使用すると、ロードバランサーが要求がクォータを超えたという状態を受信すると、ロードバランサーは自動的に別のリソースにローテーションされます。

TPM クォータを構成する

既定では、ロードバランサー内の各 Azure OpenAI インスタンスは、1 分あたり 30,000 トークン (TPM) の容量でデプロイされます。チャットアプリは、クォータを使い切ることなく、多くのユーザー間でスケーリングできるように構築されているという確信を持って使用できます。この値は、次の場合に変更します。

デプロイ容量エラーが発生する: 値を小さくします。
より高い容量が必要ですので、値を上げてください。

次のコマンドを使用して値を変更します。
```
azd env set OPENAI_CAPACITY 50
```
ロードバランサーを再デプロイします。
```
azd up
```

リソースのクリーンアップ

チャットアプリとロードバランサーの両方を使い終わったら、リソースをクリーンアップします。この記事で作成した Azure リソースは、Azure サブスクリプションに課金されます。今後これらのリソースが必要になるとは思わない場合は、削除して、より多くの料金が発生しないようにします。

チャットアプリリソースをクリーンアップする

これらのリソースをクリーンアップするには、チャットアプリの記事に戻ります。

アップロードバランサーのリソースをクリーンアップする

次の Azure Developer CLI コマンドを実行して、Azure リソースを削除し、ソースコードを削除します。

azd down --purge --force

スイッチは次の機能を提供します。

purge: 削除されたリソースは直ちに消去されます。これにより、Azure OpenAI TPM を再利用できます。
force: 削除は、ユーザーの同意を必要とせずに、自動的に行われます。

GitHub Codespaces をクリーンアップする

GitHub Codespaces
Visual Studio Code

GitHub Codespaces 環境を削除すると、アカウントに対して取得するコア時間単位の無料エンタイトルメントの量を最大化できます。

重要

GitHub アカウントの権利の詳細については、「GitHub Codespaces の月単位に含まれるストレージとコア時間」を参照してください。

GitHub Codespaces ダッシュボード (https://github.com/codespaces) にサインインします。
azure-samples/openai-aca-lb GitHub リポジトリをソースとして現在実行中の Codespaces を見つけます。
コードスペースのコンテキストメニューを開き、[の削除] 選択します。

ヘルプを受ける

Azure API Management ロードバランサーのデプロイで問題が発生した場合は、リポジトリの Issuesに問題を記録します。

サンプルコード

この記事で使用されるサンプルは次のとおりです。

`RAG を使用した JavaScript チャットアプリ`
Azure Container Apps を使用したロードバランサー

次の手順

Azure Load Testing を使用してチャットアプリをロードテストする

次の方法で共有