共用方式為


模型服務限制和區域

本文摘要說明 Mosaic AI 模型服務和支援的端點類型的限制和區域可用性。

限制

Mosaic AI 模型服務會強制執行預設限制,以確保可靠的效能。 如果您有這些限制的意見反應,請連絡您的 Databricks 客戶團隊。

下表摘要說明模型服務端點的資源和酬載限制。

功能 細微性 限制
承載大小 依據要求 16 MB。 對於服務基礎模型外部模型的端點,限制為 4 MB。
每秒查詢數 (QPS) 每個工作區 200 QPS。 您可連絡 Databricks 客戶團隊,以增加到 3000 或以上。
模型執行持續時間 依據要求 120 秒
CPU 端點模型記憶體使用量 每個端點 4GB
GPU 端點模型記憶體使用量 每個端點 大於或等於指派的 GPU 記憶體,具體取決於 GPU 工作負載大小
佈建的並行 每個工作區 200 並行。 您可透過連絡您的 Databricks 客戶團隊來增加。
額外負荷延遲 依據要求 小於 50 毫秒
基礎模型 API (按權杖付費) 速率限制 每個工作區 如果下列限制不足以用於您的使用案例,Databricks 建議使用佈建的輸送量。

- Llama 3.1 70B Instruct 有每秒 2 個查詢和每小時 1200 個查詢的限制。
- Llama 3.1 405B Instruct 有每秒 1 個查詢和每小時 1200 個查詢的限制。
- DBRX Instruct 模型有每秒 1 個查詢的限制。
- Llama 2 70B Chat 和 Mixtral-8x 7B Instruct 有每秒有 2 個查詢的預設速率限制。
- GTE Large (En) 有每秒 150 個查詢的速率限制
- BGE Large (En) 有每秒 600 個查詢的速率限制。
基礎模型 API (佈建的輸送量) 速率限制 每個工作區 與上面所列模型服務 QPS 限制相同。

模型服務端點受到存取控制的保護,並遵守工作區設定的網路相關輸入規則,例如 IP 允許清單及私人連結

也存在其他限制:

  • 工作區可部署在支援的區域中,但可由不同區域中的控制平面提供服務。 這些工作區不支援模型服務,並產生錯誤訊息,指出您的工作區不受支援。 如需詳細資訊,請連絡 Azure Databricks 客戶團隊。
  • 模型服務不支援 init 指令。
  • 根據預設,模型服務不支援外部端點的私人連結 (例如 Azure OpenAI)。 對這項功能的支援會根據每個區域進行評估和實作。 如需詳細資訊,請連絡 Azure Databricks 客戶團隊。

基礎模型 API 限制

注意

作為提供基礎模型 API 的一部分,Databricks 可能會處理資料來源區域以外的資料,但不在相關地理位置之外。

下列為與基礎模型 API 工作負載相關的限制:

  • 佈建的輸送量支援 HIPAA 合規性設定檔,而且應該用於需要合規性認證的工作負載。
  • 按權杖付費工作負載不符合 HIPAA 或合規性安全性設定檔規範。
  • 針對基礎模型 API 端點,只有工作區管理員可變更治理設定,例如速率限制。 若要變更速率限制,請使用下列步驟:
    1. 開啟工作區中的 [服務 UI],以查看您的服務端點。
    2. 從您要編輯的基礎模型 API 端點的 Kebab 功能表中,選取 [檢視詳細資料]
    3. 從端點詳細資料頁面右上角的 Kebab 功能表中,選取 [變更速率限制]
  • 若要針對 [佈建的輸送量] 工作負載使用 DBRX 模型架構,您的服務端點必須位於下列其中一個區域:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • 只有 GTE Large (En)Meta Llama 3.1 70B Instruct 模型可在下列按權杖付費歐盟和美國的支援區域中使用。
  • 下列 [按權杖付費] 模型僅在基礎模型 API 按權杖付費支援的美國區域受到支援:
    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Mixtral-8x7B Instruct
    • BGE Large (En)
    • Llama 2 70B Chat

區域可用性

注意

如果您需要不支援區域中端點,請連絡您的 Azure Databricks 客戶團隊。

如需功能區域可用性的詳細資訊,請參閱模型服務區域可用性