模型服務限制和區域
本文摘要說明 Mosaic AI 模型服務和支援的端點類型的限制和區域可用性。
限制
Mosaic AI 模型服務會強制執行預設限制,以確保可靠的效能。 如果您有這些限制的意見反應,請連絡您的 Databricks 客戶團隊。
下表摘要說明模型服務端點的資源和酬載限制。
功能 | 細微性 | 限制 |
---|---|---|
承載大小 | 依據要求 | 16 MB。 對於服務基礎模型或外部模型的端點,限制為 4 MB。 |
每秒查詢數 (QPS) | 每個工作區 | 200 QPS。 您可連絡 Databricks 客戶團隊,以增加到 3000 或以上。 |
模型執行持續時間 | 依據要求 | 120 秒 |
CPU 端點模型記憶體使用量 | 每個端點 | 4GB |
GPU 端點模型記憶體使用量 | 每個端點 | 大於或等於指派的 GPU 記憶體,具體取決於 GPU 工作負載大小 |
佈建的並行 | 每個工作區 | 200 並行。 您可透過連絡您的 Databricks 客戶團隊來增加。 |
額外負荷延遲 | 依據要求 | 小於 50 毫秒 |
基礎模型 API (按權杖付費) 速率限制 | 每個工作區 | 如果下列限制不足以用於您的使用案例,Databricks 建議使用佈建的輸送量。 - Llama 3.1 70B Instruct 有每秒 2 個查詢和每小時 1200 個查詢的限制。 - Llama 3.1 405B Instruct 有每秒 1 個查詢和每小時 1200 個查詢的限制。 - DBRX Instruct 模型有每秒 1 個查詢的限制。 - Llama 2 70B Chat 和 Mixtral-8x 7B Instruct 有每秒有 2 個查詢的預設速率限制。 - GTE Large (En) 有每秒 150 個查詢的速率限制 - BGE Large (En) 有每秒 600 個查詢的速率限制。 |
基礎模型 API (佈建的輸送量) 速率限制 | 每個工作區 | 與上面所列模型服務 QPS 限制相同。 |
模型服務端點受到存取控制的保護,並遵守工作區設定的網路相關輸入規則,例如 IP 允許清單及私人連結。
也存在其他限制:
- 工作區可部署在支援的區域中,但可由不同區域中的控制平面提供服務。 這些工作區不支援模型服務,並產生錯誤訊息,指出您的工作區不受支援。 如需詳細資訊,請連絡 Azure Databricks 客戶團隊。
- 模型服務不支援 init 指令。
- 根據預設,模型服務不支援外部端點的私人連結 (例如 Azure OpenAI)。 對這項功能的支援會根據每個區域進行評估和實作。 如需詳細資訊,請連絡 Azure Databricks 客戶團隊。
基礎模型 API 限制
注意
作為提供基礎模型 API 的一部分,Databricks 可能會處理資料來源區域以外的資料,但不在相關地理位置之外。
下列為與基礎模型 API 工作負載相關的限制:
- 佈建的輸送量支援 HIPAA 合規性設定檔,而且應該用於需要合規性認證的工作負載。
- 按權杖付費工作負載不符合 HIPAA 或合規性安全性設定檔規範。
- 針對基礎模型 API 端點,只有工作區管理員可變更治理設定,例如速率限制。 若要變更速率限制,請使用下列步驟:
- 開啟工作區中的 [服務 UI],以查看您的服務端點。
- 從您要編輯的基礎模型 API 端點的 Kebab 功能表中,選取 [檢視詳細資料]。
- 從端點詳細資料頁面右上角的 Kebab 功能表中,選取 [變更速率限制]。
- 若要針對 [佈建的輸送量] 工作負載使用 DBRX 模型架構,您的服務端點必須位於下列其中一個區域:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- 只有 GTE Large (En) 和 Meta Llama 3.1 70B Instruct 模型可在下列按權杖付費歐盟和美國的支援區域中使用。
- 下列 [按權杖付費] 模型僅在基礎模型 API 按權杖付費支援的美國區域受到支援:
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (En)
- Llama 2 70B Chat
區域可用性
注意
如果您需要不支援區域中端點,請連絡您的 Azure Databricks 客戶團隊。
如需功能區域可用性的詳細資訊,請參閱模型服務區域可用性。