數據採礦解決方案的相關專案
適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性。
數據採礦解決方案所需的最小值是數據採礦專案,其會定義數據源、數據源檢視、採礦結構和採礦模型。 不過,在日常決策中使用數據採礦模型時,請務必將數據採礦與預測性分析解決方案的其他部分整合,其中包括這些流程和元件:
準備和選取數據和變數。 包括數據清理、元數據管理和多個數據源的整合,以及將數據轉換成數據倉儲、合併及上傳數據。
分析報告、預測呈現,以及數據採礦活動的稽核/追蹤。
使用多維度模型或表格式模型來探索結果。
精簡數據採礦解決方案以支援新的數據,或目前分析所驅動之支援基礎結構中的變更。
本主題描述 SQL Server 2017 的其他功能,這些功能通常是預測性分析解決方案的一部分、支援數據準備和數據採礦的程式,或藉由提供分析和動作的工具來支持使用者。
SQL Server Integration Services
Integration Services 提供數據準備和訓練階段數據採礦專案所需的元件和功能。 雖然您可以使用其他工具來執行許多數據清理或準備工作,例如腳本,但 Integration Services 對於數據採礦有許多優點:
表示工作流程中的工作,可重複、自動化、分支和擴充。
提供廣泛的稽核支援,以及擷取錯誤和記錄事件的多種方式。
除了擷取數據歷程之外,您還可以監視整個數據轉換管線的數據變更。
您也可以將 SSIS 工作流程與 SQL Server 中支援異動數據擷取功能的功能整合。
數據採礦可以併入 Integration Services 工作流程,以智慧方式將傳入的數據分成多個數據表。 例如,您可以使用預測查詢,將新客戶分割成不同的群組,以在郵件行銷活動中設為目標。
下列清單提供 Integration Services 元件的連結,這些元件最常用於支援數據採礦。
控制流程元件
數據流元件
SQL Server Reporting Services
雖然 Reporting Services 通常不會被視為數據採礦解決方案的重要元件,但它提供下列功能來呈現數據採礦解決方案很有用。
從複雜報表中的多個來源整合數據。 針對分析師的模型內容建立查詢,以及顯示終端使用者預測和趨勢的報告。
能夠建立報表,讓使用者直接查詢現有的採礦模型。
與 SQL Server Analysis Services 整合,以支援從 OLAP 模型建立的數據採礦維度和數據採礦 Cube 的鑽研和探索。
Reporting Services 中可用的參數化和格式化功能。
如需如何使用 Reporting Services 搭配 DMX 查詢作為數據源的詳細資訊,請參閱下列連結:
從數據採礦模型 (DMX) (SSRS) 擷取數據
Analysis Services DMX 查詢設計工具使用者介面
DMX 的 Analysis Services 連線類型 (SSRS)
不過,不需要使用 DMX 做為數據源。 數據採礦的 Integration Services 元件也支援將預測查詢的結果儲存至關係資料庫。 如果您有使用 Integration Services 更新模型的已建立工作流程,請將預測和其他數據採礦查詢結果保存至 SQL Server,可讓您使用 Power View 進行報告,以及未與 DMX 介面的其他工具。
如需使用 Reporting Services 作為數據源呈現層的詳細資訊,請參閱 將 Reporting Services 整合到應用程式。
Data Quality Services
Data Quality Services (DQS) 是 SQL Server 2017 的新功能。 因為數據問題可能會使數據採礦變得不可能,因此執行重複分析或在具有複雜數據源的大型組織中工作的數據礦工,預期會發現使用 DQS 的妥善規劃數據專案是比使用 Transact-SQL 或其他腳本對數據進行臨機操作清理更可靠的解決方案。
DQS 的下列功能應該考慮在數據採礦解決方案中的數據準備和數據完整性。
分析源數據並建議變更的計算機輔助數據清理程式。
DQS 可以將源數據與數據品質提供者維護及保證的雲端式參考數據進行比較。
DQS 也可以分析原始源數據,並從用戶數據建立知識庫。 已處理的數據會分類,然後向用戶顯示以供進一步處理。 清理程式是互動式的,這表示數據管理員可以核准、拒絕或修改計算機輔助數據清理程式提議的數據。
此程式的結果是一個知識庫,您可以持續改善,或在多個數據增強階段中重複使用。
如需詳細資訊,請參閱 資料清理。
分析源數據並建議變更的計算機輔助比對程式。
若要防止資料重複,您可以執行數據源的加法清理,以識別確切和近似的相符專案。 這些元件可讓您指定比對規則,以及套用規則的臨界值。
藉由尋找數據相符專案,您可以移除重複專案,這可能會對數據採礦造成問題。 數據刪除不是自動的;數據管理人或 IT 專業人員必須確認知識庫中的知識,以及要對數據進行的變更。
建立初始 DQS 項目之後,您可以使用 Integration Services 元件將許多工作自動化。
如需詳細資訊,請參閱 資料比對。
在數據質量項目中執行清理和比對活動時,您可以取得 DQS 所處理之數據的即時統計數據和資訊。 數據分析可協助您評估數據清理或比對有助於改善數據品質的程度,並瞭解所做的變更。 如需資料分析和通知的相關信息,請參閱 DQS 中的數據分析和通知。
代表三種知識類型的知識庫:現成的知識、DQS 伺服器所產生的知識,以及使用者所產生的知識。
建立知識庫之後,您可以反覆地使用它來清理和驗證其他數據。
您可以將新數據匯入至多個來源的知識庫數據、來自參考提供者的已知清除數據,或與知識庫中現有數據相符的原始數據。
如需數據質量專案中清理活動的詳細資訊,請參閱數據清理(DQS)。
您也可以將知識庫中的知識套用至其他來源,以在其他程式中執行數據清理。 這類數據清理可協助識別使用者輸入錯誤、傳輸或記憶體損毀,或數據字典定義不符。
如需詳細資訊,請參閱 DQS 知識庫和定義域。
Full-Text 搜尋
SQL Server 中的 Full-Text 搜尋可讓應用程式和使用者針對 SQL Server 數據表中的字元型資料執行全文檢索查詢。 啟用全文搜索時,您可以針對文字數據執行搜尋,這些文字數據是由語言特定規則所增強的文字數據,這些文字或片語的多種形式會增強。 您也可以設定搜尋條件,例如多個字詞之間的距離,並使用函式來限制傳回結果的可能性。
由於全文檢索查詢是 SQL Server 引擎所提供的功能,因此您可以在文字數據源上使用全文搜尋功能,在數據採礦中建立參數化查詢、產生自定義數據集或詞彙向量。
如需全文檢索查詢如何與全文檢索索引互動的詳細資訊,請參閱 使用 Full-Text Search 查詢。
使用 SQL Server 全文搜尋功能的優點是,您可以利用所有 SQL Server 語言隨附於斷詞工具和字幹分析器中的語言智慧。 藉由使用提供的斷詞工具和字幹分析器,您可以確保使用適用於每種語言的字元來分隔單字,而且不會忽略以讀音符號或正交變化為基礎的同義字(例如日文中的多種數位格式)。
除了控管文字界限的語言智慧之外,每個語言的字幹分析器還可以根據該語言的結合和正交變化規則知識,將單一字詞的變異減少為單一字詞。 每個語言的語言分析規則不同,並根據對真實生活主體的廣泛研究而開發。
如需詳細資訊,請參閱 設定及管理搜尋的斷詞工具和字幹分析器。
全文檢索索引之後所儲存的文字版本是壓縮格式的標記。 全文檢索索引的後續查詢會根據該語言的規則產生特定單字的多個轉折形式,以確保進行所有可能的相符專案。 例如,雖然儲存的令牌可能是 “run”,但查詢引擎也會尋找 “running”、“ran” 和 “runner” 等詞彙,因為這些是根字 “run” 的定期衍生形態變化。
您也可以建立並建置同義字的用戶來儲存同義字,並啟用更好的搜尋結果或字詞分類。 藉由開發專為全文檢索數據量身打造的同義字,您可以有效地擴大該數據全文檢索查詢的範圍。 如需詳細資訊,請參閱 設定及管理 Full-Text 搜尋的同義字檔案。
使用全文搜尋的需求包括:
資料庫管理員必須在數據表上建立全文檢索索引。
每個數據表只允許一個全文檢索索引。
您索引的每個數據行都必須有唯一索引鍵。
只有具有這些數據類型的數據行才支援全文檢索索引:char、varchar、nchar、nvarchar、text、ntext、image、xml、varbinary 和 varbinary(max)。 如果數據行是 varbinary、varbinary(max)、image 或 xml,您必須在個別的類型數據行中指定可編製索引文件的擴展名(.doc、.pdf、.xls等等)。
語意索引編製
語意搜尋是以 SQL Server 中現有的全文搜尋功能為基礎,但會使用其他功能和統計數據來啟用自動關鍵詞擷取和探索相關文件的案例。 例如,您可以使用語意搜尋來建立組織的基底分類法,或分類文件主體。 或者,您可以使用叢集或判定樹模型中擷取詞彙和檔相似度分數的組合。
成功啟用語意搜尋並編製數據行索引之後,您可以使用原生提供的函式搭配語意索引來執行下列動作:
傳回具有分數的單字關鍵詞組。
傳回包含指定關鍵片語的檔。
傳回相似度分數,以及參與分數的字詞。
如需詳細資訊,請參閱使用語意搜尋 在檔案中尋找關鍵片語組
如需支援語意索引的資料庫物件詳細資訊,請參閱 在資料表和資料行上啟用語意搜尋。
使用語意搜尋的需求包括下列各項:
也會啟用全文搜索。
安裝語意搜尋元件也會建立無法重新命名、改變或取代的特殊系統資料庫。
您使用服務編製索引的文件必須儲存在 SQL Server、任何支援全文檢索索引的資料庫物件中,包括數據表和索引檢視表。
並非所有全文檢索語言都支援語意索引。 如需支援的語言清單,請參閱 sys.fulltext_semantic_languages (Transact-SQL)。