Verwandte Projekte für Data Mining-Lösungen
Gilt für: SQL Server 2019 und früher Analysis Services Azure Analysis Services Fabric/Power BI Premium
Wichtig
Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.
Eine Data Mining-Projektmappe erfordert mindestens das Data Mining-Projekt, in dem Datenquellen, Datenquellenansichten, Miningstrukturen und Miningmodelle definiert werden. Wenn Data Mining-Modelle jedoch für die tägliche Entscheidungsfindung eingesetzt werden, ist es wichtig, Data Mining in andere Teile der vorhersagenden Analytiklösung zu integrieren, die die folgenden Prozesse und Komponenten enthalten kann:
Vorbereitung und Auswahl der Daten und Variablen. Schließt Datenbereinigung, Metadatenverwaltung, Integration mehrerer Datenquellen, Konvertierung, Zusammenführung und das Hochladen von Daten in ein Data Warehouse ein.
Das Berichten über die Analyse, Präsentation von Vorhersagen und die Überwachung/Nachverfolgung von Data Mining-Aktivitäten.
Mehrdimensionale Modelle oder tabellarische Modelle, um den Treffer zu untersuchen.
Eingrenzung der Data Mining-Projektmappe für die Unterstützung neuer Daten oder Änderungen in der Unterstützungsinfrastruktur, die von der aktuellen Analyse verwendet wird.
In diesem Thema werden die weiteren Features von SQL Server 2017 beschrieben, die häufig Teil einer Predictive Analytics-Lösung sind, entweder zur Unterstützung der Prozesse der Datenaufbereitung und des Data Minings oder zur Unterstützung von Benutzern durch Bereitstellung von Analyse- und Aktionstools.
SQL Server Integration Services
Integration Services stellt Komponenten und Features bereit, die für die Datenvorbereitungs- und Trainingsphasen eines Data Mining-Projekts erforderlich sind. Obwohl Sie viele Datenbereinigungs- oder Vorbereitungsaufgaben mit anderen Tools, z. B. Skripts, ausführen können, bietet Integration Services zahlreiche Vorteile für Data Mining:
Stellt Aufgaben als Teil eines Workflows dar, die wiederholt, automatisiert, verzweigt und erweitert werden können.
Bietet eine ausführliche Unterstützung für die Überwachung und mehrere Wege, Fehler zu erfassen und Ereignisse zu protokollieren.
Zusätzlich zum Erfassen der Datenherkunft können Änderungen an den Daten mithilfe der Data Transformation Pipeline überwacht werden.
Sie können auch Ihre SSIS-Workflows in die Funktionen integrieren, die die Change Data Capture-Funktionalität in SQL Server unterstützen.
Data Mining kann in den Integration Services-Workflow integriert werden, um eingehende Daten intelligent in mehrere Tabellen zu trennen. Beispielsweise könnten Sie eine Vorhersageabfrage verwenden, um neue Kunden in unterschiedliche Gruppen für eine E-Mail-Kampagne aufzuteilen.
Die folgenden Listen enthalten Links zu den Integration Services-Komponenten, die bei der Unterstützung von Data Mining am häufigsten verwendet werden.
Ablaufsteuerungskomponenten
Datenfluss Komponenten
SQL Server Reporting Services
Obwohl Reporting Services in der Regel nicht als kritische Komponente von Data Mining-Lösungen angesehen wird, bietet es die folgenden Features, die für die Präsentation von Data Mining-Lösungen nützlich sind.
Integration der Daten von mehreren Quellen in komplexen Berichten. Erstellen von Abfragen des Modellinhalts für Analytiker und von Berichten, die Endbenutzern Vorhersagen und Trends anzeigen.
Fähigkeit, einen Bericht zu erstellen, mit dem Benutzer direkt Abfragen gegen ein vorhandenes Miningmodell ausführen können.
Integration mit SQL Server Analysis Services, um Drillthrough und Untersuchung von Data Mining-Dimensionen und Data Mining-Cubes zu unterstützen, die aus OLAP-Modellen erstellt wurden.
Parametrisierungs- und Formatierungsfeatures, die in Reporting Services verfügbar sind.
Weitere Informationen zum Verwenden von Reporting Services mit DMX-Abfragen als Datenquelle sind diesen Links zu entnehmen:
Abrufen von Daten aus einem Data Mining-Modell (DMX) (SSRS)
Benutzeroberfläche des DMX-Abfrage-Designers für Analysis Services
Analysis Services-Verbindungstyp für DMX (SSRS)
Es ist jedoch nicht notwendig, DMX als Datenquelle zu verwenden. Die Integration Services-Komponenten für Data Mining unterstützen auch das Speichern der Ergebnisse einer Vorhersageabfrage in einer relationalen Datenbank. Wenn Sie über einen etablierten Workflow zum Aktualisieren von Modellen mithilfe von Integration Services verfügen, können Sie Durch das Beibehalten von Vorhersagen und anderen Data Mining-Abfrageergebnissen in SQL Server Sie Power View für die Berichterstellung sowie andere Tools verwenden können, die keine Schnittstelle mit DMX haben.
Weitere Informationen über die Verwendung von Reporting Services als Darstellungsschicht für Datenquellen finden Sie unter Integrating Reporting Services into Applications.
Data Quality Services
Data Quality Services (DQS) ist neu in SQL Server 2017. Da Datenprobleme Das Data Mining unmöglich machen können, wird erwartet, dass Data Miner, die wiederholte Analysen durchführen oder in großen Organisationen mit komplexen Datenquellen arbeiten, feststellen, dass ein gut geplantes Datenprojekt mit DQS eine zuverlässigere Lösung für die Unterstützung von Data Mining ist als die Ad-hoc-Bereinigung von Daten mithilfe von Transact-SQL oder anderen Skripts.
Die folgenden Funktionen von DQS sollten für Datenvorbereitung und Datenintegrität in einer Data Mining-Projektmappe in Betracht gezogen werden.
Ein computerunterstützter Datenbereinigungsprozess, der Quelldaten analysiert und Änderungen vorschlägt.
DQS kann Quelldaten mit Cloud-basierten Verweisdaten vergleichen, die von Datenqualitätsanbietern gewartet und garantiert werden.
DQS kann auch unformatierte Quelldaten analysieren und eine Wissensdatenbank aus Benutzerdaten erstellen. Die verarbeiteten Daten werden kategorisiert und werden dem Benutzer dann zur weiteren Verarbeitung angezeigt. Der Bereinigungsprozess ist interaktiv. Der Data Steward kann demzufolge die vom computerunterstützten Datenbereinigungsprozess vorgeschlagenen Daten genehmigen, ablehnen oder ändern.
Das Ergebnis des Prozesses ist eine Wissensdatenbank, die Sie kontinuierlich verbessern können, oder in mehreren Datenerweiterungsphasen erneut verwenden können.
Weitere Informationen finden Sie unter Data Cleansing.
Ein computerunterstützter Abgleichungsprozess, der Quelldaten analysiert und Änderungen vorschlägt.
Zum Verhindern von Datenverdoppelung können Sie eine zusätzliche Bereinigung der Datenquelle ausführen, um genaue und ungefähre Übereinstimmungen zu identifizieren. Mit diesen Komponenten können Sie die Abgleichsregeln bestimmen sowie die Schwellenwerte, ab wann sie angewendet werden sollen.
Indem Sie Datenübereinstimmungen suchen, können Sie Duplikate entfernen, die ein Problem für Data Mining sein können. Die Datendeduplizierung erfolgt nicht automatisch. Sowohl der Data Steward als auch der IT-Spezialist müssen die Informationen in der Wissensdatenbank und die vorzunehmenden Änderungen an den Daten überprüfen.
Nachdem Sie das anfängliche DQS-Projekt erstellt haben, können Sie viele Aufgaben mithilfe von Integration Services-Komponenten automatisieren.
Weitere Informationen finden Sie unter Data Matching.
Beim Ausführen der Bereinigungs- und Abgleichsaktivitäten in einem Data Quality-Projekt können Sie Statistiken und Informationen über die von DQS verarbeiteten Daten in Echtzeit abrufen. Mithilfe der Datenprofilerstellung können Sie das Ausmaß bewerten, inwiefern die Datenbereinigung oder der -abgleich dabei behilflich waren, die Datenqualität zu verbessern und um die vorgenommenen Änderungen zu verstehen. Weitere Informationen zur Datenprofilerstellung und zu Benachrichtigungen finden Sie unter Data Profiling and Notifications in DQS.
Eine Wissensdatenbank, die drei Typen an Informationen darstellt: Standardinformationen, vom DQS-Server generierte Informationen und vom Benutzer generierte Informationen.
Wenn Sie eine Wissensdatenbank erstellt haben, können Sie sie iterativ für die Bereinigung und Überprüfung anderer Daten verwenden.
Sie können neue Daten in die Wissensdatenbankdaten von mehreren Quellen importieren, und zwar entweder in Form bekannter bereinigter Daten von Verweisanbietern oder in Form von Rohdaten, die in der Wissensdatenbank mit vorhandenen Daten abgeglichen werden.
Ausführliche Informationen zur Bereinigungsaktivität in einem Datenqualitätsprojekt finden Sie unter „Datenbereinigung (DQS)“.
Sie können die Informationen in der Wissensdatenbank auch auf andere Quellen anwenden, um eine Datenbereinigung innerhalb anderer Prozesse auszuführen. Solche Datenbereinigungen können dabei helfen, Eingabefehler, Übertragungsfehler bzw. Beschädigungen beim Speichern oder von nicht übereinstimmenden Definitionen in Datenwörterbüchern zu identifizieren.
Weitere Informationen finden Sie unter DQS Knowledge Bases and Domains.
Volltextsuche
Mit der Volltextsuche in SQL Server können von Anwendungen und Benutzern Volltextabfragen für zeichenbasierte Daten in SQL Server-Tabellen ausgeführt werden. Wenn die Volltextsuche aktiviert ist, können Sie Suchvorgänge für Textdaten ausführen, die durch sprachspezifische Regeln über mehrere Formen eines Worts oder Ausdrucks erweitert werden. Sie können auch Suchbedingungen konfigurieren, beispielsweise die Abweichung zwischen mehreren Begriffen, und Funktionen verwenden, um die Ergebnisse einzuschränken, die in Reihenfolge der Wahrscheinlichkeit zurückgegeben werden.
Da Volltextabfragen eine von der SQL Server-Engine bereitgestellte Funktion sind, können Sie parametrisierte Abfragen erstellen, benutzerdefinierte Datasets generieren oder Vektoren benennen, indem Sie Funktionen für die Volltextsuche für eine Textdatenquelle und diese Quellen in Data Mining verwenden.
Weitere Informationen über die Interaktion von Volltextabfragen mit dem Volltextindex finden Sie unter Abfragen mit Volltextsuche.
Ein Vorteil, die Funktionen für die Volltextsuche von SQL Server zu verwenden, besteht darin, dass Sie von der linguistischen Intelligenz profitieren können, die in den Wörtertrennungen und Wortstammerkennungen für alle SQL Server-Sprachen enthalten sind. Mit den angegebenen Wörtertrennungen und den Wortstammerkennungen können Sie sicherstellen, dass Wörter mit den für jede Sprache angemessenen Zeichen getrennt werden und dass Synonyme, die auf diakritischen Zeichen oder orthografischen Variationen (wie die Vielzahl an Zahlenformaten auf Japanisch) basieren, nicht übersehen werden.
Zusätzlich zur linguistischen Intelligenz, die die Wortgrenzen regelt, können die Wortstammerkennungen für jede Sprache Varianten eines Worts auf einen einzelnen Begriff reduzieren, und zwar anhand der Regeln für Konjugation und orthografische Variation in dieser Sprache. Die Regeln für die linguistische Analyse unterscheiden sich für jede Sprache und werden auf Grundlage umfangreicher Forschung auf wirklichen Korpera entwickelt.
Weitere Informationen finden Sie unter Konfigurieren und Verwalten von Wörtertrennungen und Wortstammerkennungen für die Suche.
Die Version eines Worts, das nach der Volltextindizierung gespeichert wird, ist ein Token in komprimierter Form. Nachfolgende Abfragen für den Volltextindex generieren mehrere flektierte Formen eines bestimmten Worts, und zwar anhand der Regeln dieser Sprache, um sicherzustellen, dass alle wahrscheinlichen Abgleiche vorgenommen wurden. Obwohl das gespeicherte Token beispielsweise "ausführen" sein kann, sucht die Abfrage-Engine auch nach den Begriffen "running", "ran" und "runner", da dies regelmäßig abgeleitete morphologische Variationen des Stammworts "run" sind.
Sie können auch einen Benutzerthesaurus erstellen, um Synonyme zu speichern und um bessere Suchergebnisse oder eine bessere Kategorisierung der Begriffe zu ermöglichen Indem Sie einen Thesaurus entwickeln, der genau auf Ihre Volltextdaten abgestimmt ist, können Sie den Bereich der Volltextabfragen für diese Daten effektiv erweitern. Weitere Informationen finden Sie unter Konfigurieren und Verwalten von Thesaurusdateien für die Volltextsuche.
Anforderungen zum Verwenden der Volltextsuche schließen Folgendes ein:
Der Datenbankadministrator muss für die Tabelle einen Volltextindex erstellen.
Nur ein Volltextindex pro Tabelle ist zulässig.
Jede von Ihnen indizierte Spalte muss über einen eindeutigen Schlüssel verfügen.
Die Volltextindizierung wird nur für Spalten mit den folgenden Datentypen unterstützt: „char“, „varchar“, „nchar“, „nvarchar“, „text“, „ntext“, „image“, „xml“, „varbinary“ und „varbinary(max)“. Wenn die Spalte „varbinary“, „varbinary(max)“, „image“ oder „xml“ ist, müssen Sie die Dateierweiterung des indizierbaren Dokuments (DOC-, PDF-, XLS-Datei usw.) in einer separaten Typspalte angeben.
Semantische Indizierung
Die semantische Suche basiert auf der vorhandenen Volltextsuchfunktion in SQL Server, verwendet aber zusätzliche Funktionalitäten und Statistiken, um Szenarien wie die automatische Schlüsselwortextraktion und die Ermittlung verwandter Dokumente zu ermöglichen. Sie könnten beispielsweise mithilfe der semantischen Suche eine Basistaxonomie für eine Organisation erstellen oder einen Dokumentenkorpus klassifizieren. Sie könnten die Kombination von extrahierten Begriffen und Dokumentähnlichkeitsergebnissen alternativ in Cluster- oder Entscheidungsstrukturmodellen verwenden.
Nachdem Sie die semantische Suche erfolgreich aktiviert und Ihre Datenspalten indiziert haben, können Sie die nativ bereitgestellten Funktionen mit der semantischen Indizierung verwenden, um wie folgt vorzugehen:
Rückgabe von aus einem Wort bestehenden Schlüsselausdrücken mit ihrem Ergebnis.
Rückgabe von Dokumenten, die einen spezifischen Schlüsselausdruck enthalten.
Rückgabe von Ähnlichkeitsergebnissen und den Begriffen, die zum Ergebnis beitragen.
Weitere Informationen finden Sie unter Suchen von Schlüsselausdrücken in Dokumenten mit der semantischen Suche und Suchen von ähnlichen und verwandten Dokumenten mit semantischer Suche.
Weitere Informationen zu den Datenbankobjekten, die semantische Indizierung unterstützen, finden Sie unter Aktivieren der semantischen Suche in Tabellen und Spalten.
Für die Verwendung der semantischen Suche ist Folgendes zu beachten:
Die Volltextsuche wird auch aktiviert.
Bei der Installation der Komponenten der semantischen Suche wird zudem eine spezielle Systemdatenbank erstellt, die nicht umbenannt, geändert oder ersetzt werden kann.
Mithilfe des Diensts indizierte Dokumente müssen in SQL Server gespeichert werden, und zwar in sämtlichen Datenbankobjekten, die für die Volltextindizierung unterstützt werden, einschließlich Tabellen und indizierte Ansichten.
Nicht alle Volltextsprachen unterstützen die semantische Indizierung. Eine Liste der unterstützten Sprachen finden Sie unter sys.fulltext_semantic_languages (Transact-SQL).