Data Mining-Konzepte
Data Mining wird oft als "der Prozess des Extrahierens gültiger, authentischer und aussagefähiger Informationen aus großen Datenbanken" beschrieben. Data Mining ist demnach ein Prozess, der Muster und Trends in Daten aufdeckt. Diese Muster und Trends lassen sich zusammenfassen und als Miningmodell definieren. Miningmodelle werden u. a. auf folgende Geschäftsszenarien angewendet:
- Erstellen von Verkaufsprognosen
- Durchführen von Direktmarketingaktionen, die auf einen bestimmten Kundenkreis abzielen
- Ermitteln von Produkten mit Cross-Selling-Potenzial
- Ermitteln der Reihenfolge, in der Kunden Produkte in den Einkaufswagen legen
Die Erstellung eines Miningmodells muss als Teil eines größeren Prozesses verstanden werden, der sich von der Definition der zentralen Problemstellung bis hin zur Implementierung des Modells in einer Arbeitsumgebung erstreckt. Ein Data Mining-Prozess besteht im Wesentlichen aus sechs Schritten:
- Definieren der Problemstellung
- Vorbereiten der Daten
- Durchsuchen von Daten
- Erstellen von Modellen
- Durchsuchen und Validieren von Modellen
- Bereitstellen und Aktualisieren von Modellen
Das folgende Diagramm beschreibt das Beziehungsgefüge dieser Schritte und die Technologien in Microsoft SQL Server 2005, mit denen Sie den jeweiligen Schritt ausführen können.
Obwohl der im Diagramm verdeutlichte Ablauf zirkulär verläuft, folgt nicht jeder Schritt logisch auf den nächsten. Ein Data Mining-Modell ist kein starres Ablaufmodell, sondern ein dynamischer und sich wiederholender Prozess. Nachdem Sie die Daten durchsucht haben, kommen Sie u. U. zu dem Ergebnis, dass Ihr Datenmaterial nicht ausreicht, um die geeigneten Miningmodelle zu erstellen, und dass Sie deshalb nach weiteren Daten suchen müssen. Vielleicht erstellen Sie auch mehrere Modelle und stellen dann fest, dass diese nicht das Problem adressieren, das beim Definieren der Problemstellung formuliert wurde, und dass Sie deshalb das Problem neu definieren müssen. Möglicherweise müssen die Modelle nach ihrer Implementierung angepasst werden, da mehr Daten zur Verfügung stehen. Daher ist es wichtig, das Erstellen von Data Mining-Modellen als Prozess zu verstehen, in dem jeder Schritt so oft wiederholt werden kann, wie für die Erstellung eines qualifizierten Modells nötig.
SQL Server 2005 stellt mit Business Intelligence Development Studio eine integrierte Umgebung für die Erstellung und Verwendung von Data Mining-Modellen zur Verfügung. Sie beinhaltet Data Mining-Algorithmen und Tools, die es einfach machen, eine umfassende Lösung für ein breites Spektrum an Projekten zu entwickeln. Weitere Informationen zum Verwenden von BI Development Studio finden Sie unter Entwickeln von Projektmappen und Projekten von Analysis Services.
Weitere Informationen zum Anwenden der SQL Server-Tools auf die weiter oben aufgeführten Geschäftsszenarien finden sie unter Data Mining-Lernprogramm.
Definieren der Problemstellung
Wie das folgende Diagramm verdeutlicht, besteht der erste Schritt des Data Mining-Prozesses darin, die Problemstellung des Unternehmens exakt zu definieren.
Dieser Schritt schließt das Analysieren der Geschäftsanforderungen, das Festlegen des Problemumfangs, das Definieren der Erfolgsfaktoren für die Modellbewertung und das Formulieren der zentralen Zielsetzung des Data Mining-Projekts ein. Diese Tasks lassen sich u. a. in folgende Fragen übersetzen:
- Wonach suchen Sie?
- Welche Attribute des Datasets möchten Sie vorhersagen?
- Welche Art von Beziehung versuchen Sie ausfindig zu machen?
- Möchten Sie mit dem Data Mining-Modell Vorhersagen machen oder nur interessante Muster oder Zusammenhänge aufdecken?
- Wie sind die Daten gestreut?
- Wie sind die Spalten miteinander verknüpft, oder wie sind die Tabellen miteinander verknüpft (wenn es mehrere Tabellen gibt)?
Um diese Fragen zu beantworten, müssen Sie u. U. im Rahmen einer Datenverfügbarkeitsstudie den Bedarf von Geschäftsanwendern im Hinblick auf die verfügbaren Daten ermitteln. Wenn die Daten den Bedarf der Benutzer nicht unterstützen, müssen Sie das Projekt evtl. neu definieren.
Vorbereiten der Daten
Wie das folgende Diagramm verdeutlicht, besteht der zweite Schritt des Data Mining-Prozesses im Konsolidieren und Bereinigen der im Schritt Definieren der Problemstellung identifizierten Daten.
Microsoft SQL Server 2005 Integration Services (SSIS) enthält alle Tools, die Sie für die Durchführung dieses Schrittes benötigen. Darin eingeschlossen sind auch die Transformationen zum Automatisieren des Daten-Cleanups und der Datenkonsolidierung.
Daten können im gesamten Unternehmen verstreut und in unterschiedlichen Formaten gespeichert sein. Mitunter weisen sie Inkonsistenzen wie fehlerhafte oder fehlende Einträge auf. Es kann beispielsweise vorkommen, dass den Daten zufolge ein Produkt gekauft wurde, bevor der Kunde überhaupt geboren war, oder die Daten zeigen, dass ein Kunde regelmäßig in einem Geschäft 2000 Meilen von seinem Wohnsitz entfernt Einkäufe tätigt. Diese Probleme müssen vor der Modellierung beseitigt werden. In der Regel haben Sie es mit sehr umfangreichen Datasets zutun und können nicht jede Transaktion durchsehen. Deshalb müssen Sie zum Durchsuchen der Daten und Aufdecken von Inkonsistenzen auf automatisierte Funktionen zurückgreifen, wie sie beispielsweise in Integration Services zur Verfügung gestellt werden.
Durchsuchen der Daten
Wie das nachstehende Diagramm verdeutlicht, besteht der dritte Schritt des Data Mining-Prozesses im Durchsuchen der vorbereiteten Daten.
Nur wenn Sie Ihre Datensituation verstanden haben, können Sie beim Erstellen der Modelle sinnvolle Entscheidungen treffen. Zu den Durchsuchungstechniken gehören das Berechnen von Mindest- und Maximalwerten, das Ermitteln von mittleren Abweichungen und Standardabweichungen und das Analysieren der Datenstreuung. Nachdem Sie die Daten durchsucht haben, können Sie entscheiden, ob das Dataset kompromittierte Daten enthält. Anschließend können Sie eine Strategie für die Beseitigung des Problems entwerfen.
Der Datenquellensicht-Designer in BI Development Studio enthält mehrere Tools zum Durchsuchen von Daten.
Erstellen von Modellen
Wie das nachstehende Diagramm verdeutlicht, besteht der vierte Prozssschritt des Data Mining-Prozesses im Generieren von Miningmodellen.
Bevor Sie ein Modell generieren, müssen Sie die vorbereiteten Daten nach dem Zufallsprinzip in Trainings- und Test-Datasets unterteilen. Mit dem Trainings-Dataset wird das Modell generiert, während das Test-Dataset mithilfe von Vorhersageabfragen die Genauigkeit des Modells testet. Sie können die Transformation für Prozentwert-Stichproben in Integration Services verwenden, um das Dataset zu teilen.
Sie werden die im Schritt Durchsuchen von Daten gewonnenen Erkenntnisse verwenden, um ein Miningmodell zu definieren und zu erstellen. Ein Modell besteht im Allgemeinen aus Eingabespalten, einer identifizierenden Spalte und einer vorhersagbaren Spalte. Sie können diese Spalten dann mithilfe der Data Mining-Erweiterungen (Data Mining Extensions, DMX) oder mit dem Data Mining-Assistenten in BI Development Studio in einem neuen Modell definieren. Weitere Informationen zum Verwenden von DMX finden Sie unter Data Mining-Erweiterungen (DMX) – Referenz. Weitere Informationen zum Verwenden des Data Mining-Assistenten finden Sie unter Data Mining-Assistent.
Nachdem Sie die Struktur des Miningmodells festgelegt haben, verarbeiten Sie das Modell, indem Sie die leere Struktur mit den Mustern auffüllen, die das Modell beschreiben. Dies wird auch als Trainieren des Modells bezeichnet. Muster werden aufgedeckt, indem die Originaldaten mit einem mathematischen Algorithmus bearbeitet werden. SQL Server 2005 stellt für jeden Modelltyp, den Sie generieren können, einen anderen Algorithmus zur Verfügung. Mithilfe von Parametern kann jeder Algorithmus angepasst werden.
Ein Miningmodell besteht aus einem Data Mining-Strukturobjekt, einem Data Mining-Modellobjekt und einem Data Mining-Algorithmus.
Weitere Informationen:Miningstrukturen (Analysis Services), Data Mining-Algorithmen
Microsoft SQL Server 2005 Analysis Services (SSAS) beinhaltet folgende Algorithmen:
- Microsoft Decision Trees-Algorithmus
- Microsoft Clustering-Algorithmus
- Microsoft Naive Bayes-Algorithmus
- Microsoft Association-Algorithmus
- Microsoft Sequence Clustering-Algorithmus
- Microsoft Time Series-Algorithmus
- Microsoft Neural Network-Algorithmus (SSAS)
- Microsoft Logistic Regression-Algorithmus
- Microsoft Linear Regression-Algorithmus
Durchsuchen und Validieren von Modellen
Wie das folgende Diagramm verdeutlicht, besteht der fünfte Schritt des Data Mining-Prozesses im Durchsuchen der von Ihnen generierten Modelle und im Testen ihrer Wirksamkeit.
Sie sollten kein Modell in einer Produktionsumgebung implementieren, ohne einen Testlauf vorzuschalten, der zeigt, ob das Prognosemodell der gestellten Aufgabe gerecht wird. Möglicherweise haben Sie auch mehrere Modelle erstellt und müssen jetzt entscheiden, welches Modell die besten Ergebnisse erzielt. Wenn keines der Modelle, die Sie im Schritt Erstellen von Modellen erstellt haben, seiner Aufgabe gerecht wird, müssen Sie u. U. zu einem vorhergehenden Prozessschritt zurückkehren, indem Sie entweder das Problem neu definieren oder die Daten im ursprünglichen Dataset neu analysieren.
Die von den Algorithmen ermittelten Trends und Muster können mit den Viewern im Data Mining-Designer in BI Development Studio analysiert werden. Darüber hinaus können Sie testen, wie gut die Modelle Vorhersagen erstellen. Für diese Tasks stehen im Designer Tools wie das Liftdiagramm und die Klassifikationsmatrix zur Verfügung. Für diese Tools benötigen Sie die Testdaten, die Sie vom ursprünglichen Dataset im Modellierungsschritt abgetrennt hatten.
Weitere Informationen finden Sie unter:Anzeigen eines Data Mining-Modells, Überprüfen von Data Mining-Modellen, Liftdiagramm, Klassifikationsmatrix
Bereitstellen und Aktualisieren von Modellen
Wie das folgende Diagramm verdeutlicht, besteht der letzte Schritt des Data Mining-Prozesses darin, in einer Produktionsumgebung diejenigen Modelle bereitzustellen, die die besten Ergebnisse erzielen.
Sobald die Miningmodelle in eine Produktionsumgebung integriert wurden, stehen sie je nach Bedarf für zahlreiche Tasks zur Verfügung. Sie können u. a. folgende Tasks ausführen:
- Mithilfe der Modelle Vorhersagen erstellen, die für Geschäftsentscheidung herangezogen werden können. SQL Server stellt die DMX-Sprache zur Verfügung, die Sie zum Erstellen von Vorhersageabfragen verwenden können. Darüber hinaus unterstützt Sie der Generator für Vorhersagebabfragen beim Erstellen der Abfragen.
- Data Mining-Funktionen in eine Anwendung integrieren. Sie können Analysis Management Objects (AMO) hinzufügen oder ein Assembly mit mehreren Objekten einbetten. Mit diesen Objekten kann Ihre Anwendung Miningstrukturen und -modelle erstellen, ändern, verarbeiten und löschen. Alternativ können Sie XMLA-Nachrichten (XML for Analysis) direkt an eine Instanz von Analysis Services senden.
- Mit Integration Services ein Paket erstellen, in dem mithilfe eines Miningmodells eingehende Daten eigenständig aufgeteilt und mehreren Tabellen zugeordnet werden. Wenn eine Datenbank beispielsweise fortlaufend mit potenziellen Neukunden aktualisiert wird, können Sie ein Miningmodell zusammen mit Integration Services dazu verwenden, die eingehenden Daten zwei verschiedenen Kundengruppen zuzuordnen: Einer Gruppe, deren Kunden wahrscheinlich ein Produkt kaufen, und einer anderen, deren Kunden wahrscheinlich kein Produkt kaufen.
- Erstellen Sie einen Bericht, mit dem Abfragen direkt für ein vorhandenes Miningmodell ausgeführt werden können.
Die Modellaktualisierung ist Teil der Bereitstellungsstrategie. Mit wachsendem Datenbestand des Unternehmens müssen Sie die Modelle neu verarbeiten, um auf diese Weise ihre Effizienz zu optimieren.
Weitere Informationen finden Sie unter:Verarbeitung in Analysis Services, Erstellen von DMX-Vorhersageabfragen, Data Mining-Erweiterungen (DMX) – Referenz, Analysis Services Administration Programming (SSAS)
Siehe auch
Konzepte
Verwenden von Data Mining
Verwenden der Data Mining-Tools
Andere Ressourcen
Konzepte von Analysis Services