瞭解資料科學程序
從資料擷取深入解析的常見方式是將資料視覺化。 每當您有複雜的資料集時,您可能會想要深入探討,並嘗試尋找資料中複雜的模式。
身為資料科學家,您可以定型機器學習模型,以尋找資料中的模式。 您可以使用這些模式來產生新的深入解析或預測。 例如,您可以預測預期在未來一周銷售的產品數目。
雖然定型模型很重要,但它不是資料科學專案中的唯一工作。 在探索典型的資料科學程序之前,讓我們來探索您可以定型的常見機器學習模型。
探索常見的機器學習模型
機器學習的目的是要定型模型,以識別大量資料中的模式。 然後,您可以使用模式進行預測,以提供您可以採取動作的新深入解析。
機器學習的可能性可能無止盡,因此讓我們從了解四種常見的機器學習模型類型開始:
- 分類: 預測類別值,例如客戶是否可能會流失。
- 迴歸: 預測數值,例如產品的價格。
- 叢集: 將類似的資料點分組到叢集或群組。
- 預測: 根據時間序列資料預測未來的數值,例如未來月份的預期銷售額。
若要決定您需要定型的機器學習模型類型,您必須先瞭解商務問題和可用的資料。
瞭解資料科學程序
若要定型機器學習模型,此程序通常涉及下列步驟:
- 定義問題:與商務使用者和分析師一起,決定模型應該預測的內容,以及其成功時機。
- 取得資料:尋找資料來源,並將您的資料儲存在 Lakehouse 中,以取得存取權。
- 準備資料:從 Lakehouse 將資料讀取到筆記本,以探索資料。 根據模型的需求,清理和轉換資料。
- 訓練模型:使用 MLflow 追蹤實驗,透過嘗試和錯誤經驗來選擇演算法和超參數值。
- 產生深入解析:使用模型批次評分來產生要求的預測。
作為資料科學家,您大多的時間都花在準備資料和定型模型上。 如何準備資料,以及您選擇定型模型的演算法,可能會影響模型的成功。
您可以使用可供您選擇的語言使用的開放原始碼程式庫來準備和定型模型。 例如,如果您使用 Python,您可以使用 Pandas 和 Numpy 準備資料,並使用 Scikit-Learn、 PyTorch或 SynapseML等程式庫來定型模型。
實驗時,您想要保留您已定型之所有不同模型的概觀。 您想要瞭解選擇如何影響模型的成功。 透過在 Microsoft Fabric 中使用 MLflow 追蹤實驗,您可以輕鬆地管理和部署您已定型的模型。