Databricks 上的 AI 和機器學習
本文說明 Mosaic AI (先前稱為 Databricks 機器學習) 提供的可協助您建置 AI 和 ML 系統的工具。 此圖顯示 Databricks 平台上的各種產品如何協助您實作端對端工作流程,以建置和部署 AI 和 ML 系統
Databricks 上的生成式 AI
Mosaic AI 會統一 AI 生命週期,從資料收集和準備,到模型開發和 LLMOps,再到服務與監視。 下列功能經過特別最佳化,以利開發生成式 AI 應用程式:
- Unity Catalog,用於資料、功能、模型和函式的治理、探索、版本控制及訪問控制。
- 用於模型開發追蹤的 MLflow 。
- 馬賽克 AI 閘道,用於控管和監視支援之生成式 AI 模型及其相關的模型服務端點的存取權。
-
Mosaic AI 模型服務,用於部署 LLM。 您可以特別設定用於存取產生式 AI 模型的模型服務端點:
- 使用基礎模型 API 的最新開放式 LLM。
- 託管於 Databricks 外部的第三方模型。 請參閱 Mosaic AI 模型服務中的外部模型。
- 馬賽克 AI 向量搜尋 提供可查詢向量資料庫,可儲存內嵌向量,並可設定為自動 sync 至知識庫。
- Lakehouse Monitoring,使用 自動承載記錄搭配推斷 tables,來監視和追蹤模型預測品質和漂移。
- AI 遊樂場,用於從 Databricks 工作區測試生成式 AI 模型。 您可以提示、比較和調整設定,例如系統提示和推斷 parameters。
- 基礎模型微調(現在是馬賽克 AI 模型訓練的一部分),以使用您自己的數據自定義基礎模型,以 optimize 特定應用程式的效能。
- Mosaic AI 代理程式架構,用於建置和部署生產品質的代理程式,例如擷取擴增生成 (RAG) 應用程式。
- Mosaic AI 代理程式評估,用於評估生成式 AI 應用程式的品質、成本和延遲,包括 RAG 應用程式和鏈結。
什麼是生成式 AI?
生成式 AI 是一種人工智慧,著重於電腦使用模型來建立影像、文字、程式碼和綜合資料等內容的能力。
生成式 AI 應用程式是以生成式 AI 模型:大型語言模型 (LLM) 和基礎模型為基礎建置的。
- LLM 是深度學習模型,可取用和訓練大量資料集,在語言處理工作中有絕倫的表現。 它們會根據其訓練資料建立模擬自然語言的新文字組合。
- 產生 AI 模型或基礎模型是預先定型的大型 ML 模型 ,目的是要針對更特定的語言理解和產生工作進行微調。 這些模型被用來辨別輸入資料內的模式。
在這些模型完成其學習程序之後,這些模型會在出現提示時 generate 統計上可能輸出,並可用來完成各種工作,包括:
- 根據現有影像來產生影像,或使用一個影像的樣式來修改或建立新的影像。
- 語音工作,例如轉譯、翻譯、問答產生,以及文字意圖或意義的解譯。
重要
雖然許多 LLM 或其他產生式 AI 模型都有保護,但它們仍然可以 generate 有害或不正確的資訊。
生成式 AI 具有下列設計模式:
- 提示工程:製作專業提示以引導 LLM 行為
- 擷取擴增生成 (RAG):結合 LLM 與外部知識擷取
- 微調:將預先訓練的 LLM 調整為特定網域資料集
- 預訓練:從頭開始訓練 LLM
Databricks 上的機器學習
使用馬賽克 AI 時,單一平臺會提供 ML 開發和部署的每個步驟,從原始數據到推斷 tables,以儲存服務模型的每個要求和回應。 數據科學家、數據工程師、ML 工程師和DevOps可以使用相同 set 工具和單一事實來源來執行其工作。
Mosaic AI 會統一資料圖層和 ML 平台。 所有數據資產和成品,例如,模型和函式,都可以在單一 catalog中發現並管理。 針對資料和模型使用單一平台,因此可以追蹤從未經處理資料到生產模型的譜系。 內建的數據和模型監控會將品質指標儲存到作為平臺一部分的 tables,讓您更輕鬆地識別模型效能問題的根本原因。 如需關於 Databricks 如何支援完整 ML 生命週期和 MLOps 的詳細資訊,請參閱 Azure Databricks 上的 MLOps 工作流程和 MLOps Stacks:將開發程序建模為程序碼。
資料智慧平台的一些重要元件包括:
工作 | 元件 |
---|---|
控管和管理資料、功能、模型和函式。 此外,探索、版本設定和譜系。 | Unity Catalog |
追蹤資料變更、資料品質及模型預測品質 | Lakehouse Monitoring,自定義模型的推斷 tables |
功能開發和管理 | 特徵工程與服務。 |
定型模型 | AutoML、 Databricks 筆記本 |
追蹤模型開發 | MLflow 追蹤 |
服務自訂模型 | Mosaic AI 模型服務。 |
建置自動化工作流程和生產就緒的 ETL 管線 | Databricks 工作 |
Git 整合 | Databricks Git 資料夾 |
Databricks 上的深度學習
設定深度學習應用程式的基礎結構可能很困難。 適用於機器學習的 Databricks Runtime 會利用內建相容版本的最常見深度學習程式庫 (例如 TensorFlow、PyTorch 和 Keras) 的叢集為您解決此問題。
Databricks Runtime ML 叢集也支援具有驅動程式和支援程式庫的預先設定 GPU。 它也支援 Ray 之類的程式庫,以平行處理用於調整 ML 工作流程和 ML 應用程式的計算處理。
Databricks Runtime ML 叢集也支援具有驅動程式和支援程式庫的預先設定 GPU。 Mosaic AI 模型服務可讓您針對沒有額外組態的深度學習模型建立可調整的 GPU 端點。
針對機器學習應用程式,Databricks 建議使用執行適用於機器學習的 Databricks Runtime 的叢集。 請參閱使用 Databricks Runtime ML 建立叢集。
若要 get 開始使用 Databricks 上的深度學習,請參閱:
下一步
若要啟動 get,請參閱:
如需有關 Databricks Mosaic AI 的建議 MLOps 工作流程,請參閱:
若要了解重要的 Databricks Mosaic AI 功能,請參閱: