共用方式為


Azure OpenAI 部署類型

Azure OpenAI 可讓客戶選擇符合其商務和使用模式的裝載結構。 此服務提供兩種主要部署類型:標準和布建。 針對指定的部署類型,客戶可以選擇 Azure 地理位置(或Provisioned)、Microsoft 指定的數據區 (DataZone-Standard), 或全域 (StandardGlobal-StandardGlobal Provisioned-Managed) 處理選項,以符合其數據處理需求。

所有部署都可以執行完全相同的推斷作業,但計費、規模和效能大不相同。 在解決方案設計中,您必須做出兩項重要決策:

  • 數據處理位置
  • 通話量

Azure OpenAI 部署數據處理位置

針對標準部署,有三種部署類型選項可供選擇- 全域、數據區域和 Azure 地理位置。 針對布建的部署,有兩個部署類型選項可供選擇 - 全域和 Azure 地理位置。 全域標準是建議的起點。

全域部署會利用 Azure 的全域基礎結構,以動態方式將客戶流量路由至數據中心,並針對客戶的推斷要求提供最佳可用性。 這表示您將取得全域最高的初始輸送量限制和最佳模型可用性,同時仍提供我們的執行階段 SLA 和低延遲。 對於標準與全域標準上指定使用量層級以上的大量工作負載,您可能會遇到更多延遲變化。 對於在大型工作負載使用量上需要較低延遲差異的客戶,建議您利用布建的部署類型。

我們的全域部署將是所有新模型和功能的第一個順位。 根據通話量,具有大量和低延遲差異需求的客戶應考慮我們的布建部署類型。

數據區部署會利用 Azure 的全域基礎結構,以動態方式將客戶流量路由傳送至數據中心,並針對Microsoft所定義之數據區域內的客戶推斷要求提供最佳可用性。 位於 Azure 地理位置與全域部署供應項目之間,數據區部署可提供提高配額限制,同時在 Microsoft 指定的數據區域內保留數據處理。 待用數據會繼續保留在 Azure OpenAI 資源的地理位置中(例如,針對在瑞典中部 Azure 區域中建立的 Azure OpenAI 資源,Azure 地理位置為瑞典)。

如果您的數據區部署中使用的 Azure OpenAI 資源位於 美國,則會在 美國 內處理數據。 如果您的數據區部署中使用的 Azure OpenAI 資源位於歐盟成員國家/地區,則會在歐盟成員國家/地區內處理數據。 針對所有 Azure OpenAI 服務部署類型,任何待用數據都會繼續保留在 Azure OpenAI 資源的地理位置中。 Azure 數據處理和合規性承諾仍適用。

對於標示為「全域」的任何 部署類型 ,可以在部署相關 Azure OpenAI 模型的任何地理位置中處理提示和回應(深入瞭解 模型的區域可用性)。 針對標示為 『DataZone』 的任何部署類型,提示和回應可能會在指定數據區域內的任何地理位置中處理,如Microsoft所定義。 如果您在位於 美國 的 Azure OpenAI 資源中建立 DataZone 部署,可能會處理 美國 內的任何位置的提示和回應。 如果您在位於歐盟成員國家/地區的 Azure OpenAI 資源中建立 DataZone 部署,可能會在該或任何其他歐盟成員國家中處理提示和回應。 針對 Global 和 DataZone 部署類型,任何待用數據儲存的數據,例如上傳的數據,都會儲存在客戶指定的地理位置中。 當客戶在 Azure OpenAI 服務中使用全域部署類型或 DataZone 部署類型時,只會影響處理的位置;Azure 數據處理和合規性承諾仍適用。

部署類型

Azure OpenAI 提供三種類型的部署。 這些類型提供各種功能層級,以供取捨:輸送量、SLA 和價格。 以下是選項的摘要,後面接著每個選項的更深入描述。

供應項目 全域-批次 全域-標準 全域佈建 標準 已佈建
最適用於 離線評分

不具延遲敏感性且可在數小時內完成的工作負載。

客戶的建議起始位置。

「全域-標準」會有比「標準」更高的預設配額和更大的可用模型數目。
大型一致數量的即時評分。 包含最高承諾用量和限制。 對於具有資料落地需求的客戶。 已針對低到中等數量進行最佳化。 大型一致數量的即時評分。 包含最高承諾用量和限制。 適用於具有資料落地需求的使用案例
運作方式 透過檔案離線處理 流量可能會在世界各地路由傳送 流量可能會在世界各地路由傳送
開始使用 全域-批次 模型部署 佈建的上線 模型部署 佈建的上線
成本 成本最低的選項
成本比全域標準價格低 50%。 以更大的配額配置存取所有新模型。
全域部署定價 可能因一致的使用方式而節省成本 區域定價 可能因一致的使用方式而節省成本
得到的結果 比全域標準明顯更多的折扣 輕鬆存取所有具有最高預設通話付費限制的新模型。

高使用量的客戶可能會看到更高的延遲變化性
跨 Azure 全域基礎結構存取可預測的高輸送量。 使用提供的容量計算機來判斷每個 PTU 的輸送量。 可用性的 SLA。 已針對高度高載的低到中等數量工作負載進行最佳化。

具有高額一致數量的客戶可能會遇到更大的延遲變化性。
具有非常高且可預測輸送量的區域存取。 使用提供的容量計算機來判斷每個 PTU 的輸送量
無法取得的項目 ❌即時通話效能

❌資料處理保證

儲存的待用資料會保留在指定的 Azure 地理位置中,同時可能會在任何 Azure OpenAI 位置中處理資料進行推斷。 深入了解資料落地
❌資料處理保證

儲存的待用資料會保留在指定的 Azure 地理位置中,同時可能會在任何 Azure OpenAI 位置中處理資料進行推斷。 深入了解資料落地
❌按通話付費彈性

❌資料處理保證

儲存的待用資料會保留在指定的 Azure 地理位置中,同時可能會在任何 Azure OpenAI 位置中處理資料進行推斷。 深入了解資料落地
❌一致低延遲的高額數量 ❌按通話付費彈性
每次通話延遲 不適用 (以檔案為基礎的非同步流程) 已針對即時呼叫和低到中等數量使用量進行最佳化。 高使用量的客戶可能會看到更高的延遲變化性。 每個模型設定的閾值 已針對即時呼叫和大量使用量進行最佳化。 已針對即時呼叫和低到中等數量使用量進行最佳化。 高使用量的客戶可能會看到更高的延遲變化性。 每個模型設定的閾值 已針對即時呼叫和大量使用量進行最佳化。
程式碼中的 Sku 名稱 GlobalBatch GlobalStandard GlobalProvisionedManaged Standard ProvisionedManaged
計費模型 按權杖付費 按權杖付費 選擇性購買每月或每年保留的每小時計費 按權杖付費 選擇性購買每月或每年保留的每小時計費

全域標準

重要

儲存的待用資料會保留在指定的 Azure 地理位置中,同時可能會在任何 Azure OpenAI 位置中處理資料進行推斷。 深入了解資料落地

全域部署可在與非全域部署類型相同的 Azure OpenAI 資源中使用,但可讓您利用 Azure 的全域基礎結構,以動態方式將流量路由傳送至資料中心,並針對每個要求提供最佳可用性。 全域標準將提供最高的預設配額,且無需跨多個資源進行負載平衡。

具有高額一致數量的客戶可能會遇到更大的延遲變化性。 每個模型都會設定閾值。 請參閱配額頁面進行深入了解。 對於在大型工作負載使用量上需要較低延遲變異的應用程式,我們建議購買已佈建的輸送量。

全域佈建

重要

儲存的待用資料會保留在指定的 Azure 地理位置中,同時可能會在任何 Azure OpenAI 位置中處理資料進行推斷。 深入了解資料落地

全域部署可在與非全域部署類型相同的 Azure OpenAI 資源中使用,但可讓您利用 Azure 的全域基礎結構,以動態方式將流量路由傳送至資料中心,並針對每個要求提供最佳可用性。 全域佈建的部署會使用 Azure 全域基礎結構,為可預測的高輸送量提供保留的模型處理容量。

全域批次

重要

儲存的待用資料會保留在指定的 Azure 地理位置中,同時可能會在任何 Azure OpenAI 位置中處理資料進行推斷。 深入了解資料落地

全域批次的設計目的是要有效率地處理大規模和大量處理工作。 以個別配額處理要求的非同步群組 (目標往返時間為 24 小時),且成本比全域標準低 50%。 使用批次處理時,不是一次傳送一個要求,而是在單一檔案中傳送大量要求。 全域批次要求有個別加入佇列的權杖配額,可避免任何線上工作負載中斷。

關鍵使用案例包括:

  • 大規模資料處理:以平行方式快速分析廣泛的資料集。

  • 內容產生:建立大量文字,例如產品描述或文章。

  • 文件檢閱和摘要:自動檢閱和摘要冗長文件。

  • 客戶支援自動化:同時處理許多查詢,以更快做出回應。

  • 資料擷取和分析:從大量的非結構化資料擷取和分析資訊。

  • 自然語言處理 (NLP) 工作:在大型資料集上執行情感分析或翻譯等工作。

  • 行銷與個人化:大規模產生個人化內容和建議。

數據區標準

重要

待用時儲存的數據會保留在指定的 Azure 地理位置中,而數據可能會進行處理,以便推斷Microsoft指定數據區域內的任何 Azure OpenAI 位置。 深入了解資料落地

數據區標準部署可在與所有其他 Azure OpenAI 部署類型相同的 Azure OpenAI 資源中使用,但可讓您利用 Azure 全域基礎結構,以動態方式將流量路由傳送至Microsoft定義之數據區域內的數據中心,並針對每個要求提供最佳可用性。 數據區標準提供比 Azure 地理位置型部署類型更高的預設配額。

具有高額一致數量的客戶可能會遇到更大的延遲變化性。 每個模型都會設定閾值。 若要深入瞭解,請參閱配額和限制頁面。 對於需要大量低延遲變異數的工作負載,建議您利用布建的部署供應專案。

標準

標準部署會對所選的模型提供按通話付費計費模型。 提供最快速的方式,您只需支付所取用項目的費用,即可開始使用。 每個區域可用的模型以及輸送量可能會受限。

標準部署已針對高度高載的低到中等數量工作負載進行最佳化。 具有高額一致數量的客戶可能會遇到更大的延遲變化性。

已佈建

已佈建的部署可讓您指定部署中所需的輸送量。 服務接著會配置必要的模型處理容量,並確定它已可供您使用。 輸送量會以佈建的輸送量單位 (PTU) 定義,這是表示部署輸送量的標準化方式。 每個模型與版本組都需要部署不同的 PTU 數量,並為每個 PTU 提供不同的輸送量。 若要深入了解,請參閱佈建的輸送量概念一文。

如何停用訂用帳戶中全域部署的存取

Azure 原則有助於強制執行組織標準及大規模評估合規性。 其合規性儀表板會提供彙總檢視,以評估環境的整體狀態,並能夠向下切入至每個資源和每個原則的細微性。 也可透過對現有資源進行大規模補救,以及自動對新資源進行補救來協助您的資源達到合規性。 深入了解適用於 AI 服務的 Azure 原則和特定內建控制項

您可使用下列原則來停用對 Azure OpenAI 全域標準部署的存取。 若要停用對 Azure 全域佈建或全域批次部署的存取,請將 GlobalStandard 取代為 GlobalProvisionedManagedGlobalBatch 以作為預定的 SKU 名稱。

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

部署模型

顯示 Azure AI Studio 中模型部署對話框的螢幕快照,其中已醒目提示三種部署類型。

若要了解如何建立資源和部署模型,請參閱資源建立指南

另請參閱