Databricks Foundation Model API
本文提供 Azure Databricks 中基礎模型 API 的概觀。 其中包含使用需求、支援的模型和限制。
什麼是 Databricks 基礎模型 API?
Mosaic AI 模型服務 現在支援基礎模型 API,可讓您從服務端點存取和查詢最先進的開放模型。 透過基礎模型 API,您可以快速且輕鬆地建置利用高品質產生 AI 模型的應用程式,而不需要維護自己的模型部署。
基礎模型 API 以兩種定價模式提供:
- 按權杖付費:這是在 Databricks 上開始存取基礎模型的最簡單方式,建議您使用基礎模型 API 開始旅程。 此模式不是針對高輸送量應用程式或高效能的生產工作負載所設計。
- 佈建的輸送量:建議針對所有生產工作負載使用此模式,特別是需要高輸送量、效能保證、微調模型或具有其他安全性需求的工作負載。 佈建的輸送量端點可透過 HIPAA 等合規性認證來取得。
如需如何使用這兩種模式和支援的模型指引,請參閱使用基礎模型 API。
您可以使用基礎模型 API:
- 查詢一般化 LLM,以在投資更多資源之前,先確認專案的有效性。
- 在投資訓練和部署自定義模型之前,先查詢一般化 LLM,以建立 LLM 型應用程式的快速概念證明。
- 使用基礎模型以及向量資料庫,使用擷取增強式產生 (RAG) 來建置聊天機器人。
- 將專屬模型取代為開放式替代方案,以最佳化成本和效能。
- 有效率地比較 LLM 以查看哪一個是使用案例的最佳候選項目,或將生產模型交換為較佳的執行模型。
- 在可調整、SLA 支援的 LLM 服務解決方案之上建置 LLM 應用程式,以支援生產流量尖峰。
需求
注意
如需使用 DBRX 基礎模型的佈建輸送量工作負載,請參閱區域可用性的基礎模型 API 限制。
使用基礎模型 API
您有多個使用基礎模型 API 的選項。
API 與 OpenAI 相容,因此您可以使用 OpenAI 使用者端進行查詢。 您也可以使用UI、基礎模型 API Python SDK、MLflow 部署 SDK 或 REST API 來查詢支援的模型。 Databricks 建議使用 OpenAI 用戶端 SDK 或 API 進行延伸互動,以及嘗試此功能的 UI。
請參閱查詢基礎模型和外部模型的評分範例。
按權杖付費基礎模型 API
您可以在 Azure Databricks 工作區中存取每一權杖付費模型,並建議開始使用。 若要在您的工作區中存取它們,請瀏覽至左側側邊欄中的 [服務] 索引標籤。 基礎模型 API 位於 [端點] 清單檢視的頂端。
下表總結了按權杖付費的支援模式。 如需其他模型資訊,請參閱依權杖付費的支援模型。
如果您想要測試這些模型並與其聊天,您可以使用 AI 遊樂場來執行此動作。 請參閱使用 AI 遊樂場與 LLM 和原型 GenAI 應用程式聊天。
重要
- 從 2024 年 7 月 23 日起,Meta-Llama-3.1-70B-Instruct 會取代基礎模型 API 中依權杖付費端點中對 Meta-Llama-3-70B-Instruct 的支援。
- Meta-Llama-3.1-405B-指示是最大的開放可用的大型語言模型,由 Meta 所建置和訓練,並由 Azure 機器學習使用 AzureML 模型目錄散發。
- Llama 2 70B 聊天模型計劃淘汰。 在 2024 年 10 月 30 日之後,將不再支援此模型。
- MPT 7B Instruct 和 MPT 30B Instruct 模型現已淘汰。 如需建議的替代模型,請參閱淘汰的模型。
Model | 工作類型 | 端點 | 備註 |
---|---|---|---|
GTE 大型 (英文) | 內嵌 | databricks-gte-large-en |
不會產生標準化的內嵌。 |
Meta-Llama-3.1-70B-Instruct | 聊天 | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-2-70B-Chat | 聊天 | databricks-llama-2-70b-chat |
如需區域可用性,請參閱基礎模型 API 限制。 |
Meta-Llama-3.1-405B-Instruct* | 聊天 | databricks-meta-llama-3-1-405b-instruct |
如需區域可用性,請參閱基礎模型 API 限制。 |
DBRX Instruct | 聊天 | databricks-dbrx-instruct |
如需區域可用性,請參閱基礎模型 API 限制。 |
Mixtral-8x7B Instruct | 聊天 | databricks-mixtral-8x7b-instruct |
如需區域可用性,請參閱基礎模型 API 限制。 |
BGE 大型 (英文) | 內嵌 | databricks-bge-large-en |
如需區域可用性,請參閱基礎模型 API 限制。 |
*
如果您在使用此模型時遇到端點失敗或穩定錯誤,請連絡 Databricks 帳戶小組。
- 如需如何查詢基礎模型 API 的指引,請參閱查詢基礎模型和外部模型。
- 如需必要參數和語法,請參閱基礎模型 REST API 參考。
佈建的輸送量基礎模型 API
佈建的輸送量為需要效能保證的基礎模型工作負載提供端點最佳化推論。 Databricks 建議為生產工作負載佈建輸送量。 如需如何在佈建整個模式中部署基礎模型 API 的逐步指南,請參閱佈建的輸送量基礎模型 API。
佈建的輸送量支援包括:
- 所有大小的基礎模型,例如 DBRX 基礎。 您可以使用 Databricks 市集來存取基礎模型,或者您也可以從 Hugging Face 或其他外部來源下載模型,並在 Unity 目錄中註冊模型。 後者的方法適用於所支援模型的任何微調變體,不論採用的微調方法為何。
- 基礎模型的微調變體,例如 LlamaGuard-7B。 這包括微調專屬資料的模型。
- 完全自定義權數和令牌化工具,例如使用基底模型架構(例如 CodeLlama)從頭開始定型或繼續預先定型或其他變化的人員。
下表摘要說明佈建輸送量支援的模型架構。
重要
Meta Llama 3.2 根據 LLAMA 3.2 Community License 獲得授權,Copyright © Meta Platforms, Inc。著作權所有,並保留一切權利。 客戶須負責確保其遵守此授權的條款,以及 Llama 3.2 可接受的使用原則。
Meta Llama 3.1 根據 LLAMA 3.1 Community License 獲得授權,Copyright © Meta Platforms, Inc。著作權所有,並保留一切權利。 客戶應負責確保遵循適用的模型授權。
模型架構 | 工作類型 | 備註 |
---|---|---|
Meta Llama 3.2 3B | 聊天或完成 | |
Meta Llama 3.2 1B | 聊天或完成 | |
Meta Llama 3.1 | 聊天或完成 | |
Meta Llama 3 | 聊天或完成 | |
Meta Llama 2 | 聊天或完成 | |
DBRX | 聊天或完成 | 如需區域可用性,請參閱基礎模型 API 限制。 |
Mistral | 聊天或完成 | |
Mixtral | 聊天或完成 | |
MPT | 聊天或完成 | |
GTE v1.5 (英文) | 內嵌 | 不會產生標準化的內嵌。 |
BGE v1.5 (英文) | 內嵌 |
限制
請參閱 基礎模型 API 限制。