Udostępnij za pośrednictwem


Podczas badania sekwencji klastrowanie w modelu (Analysis Services — wyszukiwanie danych)

Podczas tworzenia kwerendy przed model wyszukiwanie danych, można utworzyć albo zawartości kwerendę, która zawiera szczegółowe informacje dotyczące informacji przechowywanych w modelu, lub można utworzyć kwerendę przewidywanie, która używa desenie w modelu, aby prognoz na podstawie nowych danych, podane.Sekwencji numerów klastrowanie modelu kwerendy zawartości zapewniają zazwyczaj dodatkowe informacje szczegółowe na temat klastrów, które zostały wykryte, lub przejść w ramach tych klastrów.Można również pobierać metadane dotyczące modelu przy użyciu kwerendy.

przewidywanie kwerendy dotyczące sekwencji zwykle klastrowanie modelu zalecenia oparte na sekwencje i przejścia na innej niż kolejność atrybutów, które zostały uwzględnione w modelu lub na kombinacji sekwencji i innej niż kolejność atrybutów.

W tej sekcji wyjaśniono, jak tworzyć kwerendy dla modeli, które są oparte na kolejność Microsoft klastrowanie algorytmu.Aby uzyskać ogólne informacje dotyczące tworzenia kwerend Zobacz Podczas badania modeli wyszukiwania danych (Analysis Services — wyszukiwanie danych).

Kwerendy zawartości

  • Za pomocą zestaw zestaw wierszy schematu wyszukiwanie danych zwracanych parametrów modelu

    Uzyskiwanie listy sekwencje dla stanu

    Podczas badania modelu przy użyciu systemu przechowywanych procedur

  • Profile klastra i przykładowe sprawy

  • Właściwości klastra i klastra dyskryminacji

Kwerendy przewidywanie

Przewidywanie lub Państw dalej4

Znajdowanie informacji o sekwencji klastrowanie modelu

Do tworzenia kwerend znaczenie zawartości model wyszukiwania, należy zrozumieć strukturę zawartości modelu i typy węzłów, które są przechowywane jaki rodzaj informacji.Aby uzyskać więcej informacji zobaczMining Model Content for Sequence Clustering Models (Analysis Services - Data Mining).

Powrót do początku

Przykładowa kwerenda 1: Za pomocą zestaw zestaw wierszy schematu wyszukiwanie danych zwracanych parametrów modelu

Za pomocą kwerend wysyłanych do zestaw zestaw wierszy schematu wyszukiwanie danych, można znajdować różnego rodzaju informacje o modelu, w tym podstawowe metadane, data i czas, model został utworzony i ostatnio przetwarzane, nazwa konstrukcji wyszukiwania na podstawie modelu oraz kolumna, która jest używana jako atrybut przewidywalne.

Następująca kwerenda zwraca parametry, które były używane do tworzenia i przeszkolić w modelu [Sequence Clustering]. Można utworzyć modelu w 5 lekcji Podstawowe wyszukiwanie danych — samouczek.

SELECT MINING_PARAMETERS 
from $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'Sequence Clustering'

Przykład wyniki:

MINING_PARAMETERS

CLUSTER_COUNT = 15, MINIMUM_SUPPORT = 10 MAXIMUM_STATES = 100 MAXIMUM_SEQUENCE_STATES = 64

Należy zauważyć, że ten model został zbudowany przy użyciu domyślnej wartości 10 dla CLUSTER_COUNT.Po określeniu niezerową liczbę klastrów do CLUSTER_COUNT algorytm traktuje ten numer jako wskazówkę dla przybliżoną liczbę klastrów do znalezienia.Jednak w trakcie analizy, algorytm może się okazać klastrów więcej lub mniej.W takim przypadek algorytmu znalezione, że 15 klastrów, najważniejsze mieszczą się w danych szkoleniowych.W związku z tym na liście wartości parametrów dla modelu zakończonych raportów liczba klastrów, oznaczona za pomocą algorytmu, a nie wartość przekazany podczas tworzenia modelu.

Czym różni się to zachowanie od możliwości algorytmu, określają najlepsze liczba klastrów?Jak doświadczenia można utworzyć innego modelu klastrów, korzystającej z tych samych danych, ale CLUSTER_COUNT należy ustawić na 0.W tym celu algorytm wykrywa 32 klastrów.Z tego powodu przy użyciu domyślnej wartości 10 dla CLUSTER_COUNT, ograniczyć liczbę wyniki.

Wartość 10 jest używana domyślnie, ponieważ zmniejszenie liczby klastrów ułatwia większość osób na przeglądanie i zrozumienie grupowania danych.Jednak każdy model i zestaw danych jest inny.Możesz wypróbować różne liczby klastrów, aby wyświetlić wartość parametru, która daje w wyniku najbardziej dokładne modelu.

Powrót do początku

Przykładowa kwerenda 2: Trwa uzyskiwanie listy sekwencje dla Państwo

Wyszukiwania model zawartości magazyny sekwencji, które znajdują się w danych szkoleniowych w pierwszym stanie w połączeniu z listą wszystkich powiązanych stanów drugiego.Pierwszym stanie jest używany jako etykiety w serii, a pokrewnych drugiego stanów są nazywane przejścia.

Na przykład poniższa kwerenda zwraca pełną listę stanów pierwszego w modelu, przed sekwencji są grupowane w klastrach.Tej listy można uzyskać, przywracając na liście sekwencji (NODE_TYPE = 13), których modelu głównym węzłem nadrzędnym (PARENT_UNIQUE_NAME = 0).Słowo kluczowe FLATTENED sprawia, że wyniki są łatwiejsze do czytania.

Uwaga

Nazwy kolumn, PARENT_UNIQUE_NAME, obsługa i prawdopodobieństwo muszą być ujęte w nawiasy, aby odróżnić je od zastrzeżonych słów kluczowych o takiej samej nazwie.

SELECT FLATTENED NODE_UNIQUE_NAME,
(SELECT ATTRIBUTE_VALUE AS [Product 1],
[Support] AS [Sequence Support], 
[Probability] AS [Sequence Probability]
FROM NODE_DISTRIBUTION) AS t
FROM [Sequence Clustering].CONTENT
WHERE NODE_TYPE = 13
AND [PARENT_UNIQUE_NAME] = 0

Częściowe wyniki:

NODE_UNIQUE_NAME

Produkt 1

Obsługa sekwencji

Prawdopodobieństwo sekwencji

1081327

Brak

0

#######

1081327

Uniwersalny stojak Bike

17

0.00111

1081327

Rower samochodowa

64

0.00418

1081327

(wiersze 4-36 pominięty)

  

  

1081327

Women's Mountain Shorts

506

0.03307

Na liście sekwencji w modelu jest zawsze sortowany alfabetycznie w kolejności rosnącej.Porządkowanie sekwencji jest ważne, ponieważ można znaleźć powiązanych przejścia, patrząc na numer zamówienia w sekwencji.The Missing value is always transition 0.

Na przykład w poprzednich wynikach produkt "Przez kobiety Mountain Shorts" jest numerem 37 w modelu.Można użyć tych informacji do wyświetlenia wszystkich produktów, które kiedykolwiek zostały zakupione od "przez kobiety Mountain Shorts. „

Aby to zrobić, najpierw należy odwołanie wartość zwracana dla NODE_UNIQUE_NAME w poprzedniej kwerendy, aby móc pobrać identyfikator węzła, który zawiera wszystkie sekwencje dla modelu.Tej wartości do kwerendy są przekazywane jako identyfikator węzła nadrzędnego, aby przejść w tym węźle, co się dzieje z zawierają listę al sekwencji dla modelu.Jednak jeśli chce się zobaczyć listę przejść do określonego klastra, może przekazać identyfikator węzła klastra, a Zobacz tylko sekwencji, skojarzone z tym klastrem.

SELECT NODE_UNIQUE_NAME
FROM [Sequence Clustering].CONTENT
WHERE NODE_DESCRIPTION = 'Transition row for sequence state 37'
AND [PARENT_UNIQUE_NAME] = '1081327'

Przykład wyniki:

NODE_UNIQUE_NAME

1081365

Węzeł, reprezentowane przez ten identyfikator zawiera listę sekwencje, które należy wykonać produktu "Mountain przez kobiety Shorts" wraz z wartościami pomocy technicznej i prawdopodobieństwo.

SELECT FLATTENED
(SELECT ATTRIBUTE_VALUE AS Product2,
[Support] AS [P2 Support],
[Probability] AS [P2 Probability]
FROM NODE_DISTRIBUTION) AS t
FROM [Sequence Clustering].CONTENT
WHERE NODE_UNIQUE_NAME = '1081365'

Przykład wyniki:

t.Product2

t.P2 obsługi technicznej

t.P2 prawdopodobieństwa

Brak

230.7419

0.456012

Klasyczny Vest

8.16129

0.016129

Cykliczne wielkich liter

60.83871

0.120235

Rękawice pół Finger

30.41935

0.060117

Tuleja długo Logo Jersey

86.80645

0.171554

Gry wyścigowe SOCKS

28.93548

0.057185

Tuleja krótkich klasyczny Jersey

60.09677

0.118768

Należy zauważyć, że obsługa sekwencji różnych, powiązanych z Shorts Mountain przez kobiety 506 w modelu.Wartości pomocy technicznej dla przejścia także dodać do 506.Jednak numery nie są liczby całkowite, które wydaje się nieco nieparzystej, jeżeli oczekujesz, że obsługa po prostu reprezentująca liczbę przypadków, zawierające każdego przejścia.Jednak ponieważ metoda tworzenia klastrów oblicza częściowe członkostwa, prawdopodobieństwo wszelkie przejścia w klastrze musi ważone przez jego prawdopodobieństwo należących do określonego klastra.

Na przykład jeśli istnieją cztery klastrów, określonej sekwencji może być szansę 40 % należących do klastra 1, szansę 30 % należących do klastra 2, 20 % szansę należących do klastra 3 i szansę 10 % należących do klastra 4.Po algorytm określa przejścia jest przeważnie może należeć do klastra, przeprowadzi prawdopodobieństw w klastrze przez wcześniejsze prawdopodobieństwo klastra.

Powrót do początku

Przykładowa kwerenda 3: Podczas badania modelu przy użyciu procedury składowane w systemie

Można wyświetlić te przykłady kwerendy będącej złożonych informacji przechowywanych w modelu i może być konieczne utworzenie wielu kwerendy w celu uzyskania informacji, które są potrzebne.Jednak przeglądarkę Microsoft sekwencji usługa klastrowania zapewnia zaawansowany zestaw narzędzi graficznie przeglądanie informacji zawartych w kolejności od klastrowanie modelu i umożliwia także Podgląd wyszukiwania i przechodzić do modelu.

W większości przypadków informacje, które są prezentowane w przeglądarce Microsoft sekwencji usługa klastrowania jest tworzony przy użyciu usług Analysis Services procedury składowane w systemie kwerendy w modelu.Można zapisywać kwerend wyszukiwania rozszerzenia danych (DMX) względem zawartość modelu, aby pobrać te same informacje, jednak usług Analysis Services procedury składowane w systemie zapewniają wygodny skrótów po eksploracji lub do testowania modeli.

Uwaga

procedury składowane w systemie są używane do wewnętrznego przetwarzania przez serwer i klienci, którzy firma Microsoft udostępnia dla interakcji z serwera usług Analysis Services.Dlatego firma Microsoft zastrzega sobie prawo do zmiany argumenty i działania w dowolnym momencie.Mimo że są one opisane w tym polu dla wygody użytkowników, firma Microsoft nie obsługują ich użycia w środowisku produkcyjnym.W celu zapewnienia stabilności i zgodności w środowisku produkcyjnym, należy zawsze wpisać własne kwerendy przy użyciu DMX.

W tej części podano niektóre przykłady używania procedur przechowywanych system do tworzenia kwerend względem sekwencji klastrowanie modelu:

Powrót do początku

Profile klastra i przykładowe sprawy

Kartę Profile klastra zawiera listę klastrów w modelu, rozmiar każdego klastra i histogramu, wskazująca, przez Państwa w klastrze.Istnieją dwie procedury składowane w systemie, których można używać w kwerendach w celu pobrania podobne informacje:

  • GetClusterProfile Zwraca wartość właściwości klastra, wszystkie informacje, które znajduje się w tabela NODE_DISTRIBUTION dla klastra.

  • GetNodeGraph Zwraca węzłów i krawędzie, które mogą być używane do konstruowania reprezentacji wykresu matematycznych klastrów, odpowiadający Zobacz na pierwszej karcie widoku klastrowanie w sekwencji.Węzły są klastrów, a krawędziami reprezentują wagi lub siłę.

Poniższy przykład ilustruje sposób użycia systemu procedura przechowywana, GetClusterProfiles, do zwrócenia wszystkich klastrów w modelu z ich odpowiednich profilów. Ta procedura przechowywana wykonuje serię DMX instrukcji, które zwracają kompletny zestaw profilów w modelu.Jednak aby używać tej procedura przechowywana, trzeba znać adres modelu.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles('Sequence Clustering', 2147483647, 0)

W poniższym przykładzie pokazano, jak pobrać profilu dla konkretnego klastra klastrowania 12, za pomocą systemu procedura przechowywana GetNodeGraph, a określając identyfikator klastra, który jest zwykle taka sama, jak numer w nazwie klastra.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetNodeGraph('Sequence Clustering','12',0)

Jeżeli pominięto identyfikator klastra, jak pokazano w następującej kwerendzie GetNodeGraph Zwraca uporządkowanej listy spłaszczone wszystkie profile klastra:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetNodeGraph('Sequence Clustering','',0)

The Cluster Profile tab also displays a histogram of model sample cases.Tych przypadkach próbki stanowią idealized przypadkach dla modelu.Tych przypadkach nie są przechowywane w modelu w taki sam sposób, jak dane szkolenia, należy użyć składni specjalne pobrać przypadkach próbki dla modelu.

SELECT * FROM [Sequence Clustering].SAMPLE_CASES WHERE IsInNode('12')

Aby uzyskać więcej informacji zobaczModel, SELECT FROM < > .SAMPLE_CASES (DMX).

Powrót do początku

Właściwości klastra i klastra dyskryminacji

The Cluster Characteristics tab summarizes the main attributes of each cluster, ranked by probability.Można sprawdzić liczbę przypadków należeć do klastra, a co przypomina rozkład przypadków w klastrze: Każdy cecha niektórych obsługuje. Aby wyświetlić właściwości z konkretnym klastrem, musisz znać identyfikator klastra.

W poniższych przykładach użyto systemu procedura przechowywana, GetClusterCharacteristics, aby przywrócić wszystkie właściwości 12 klastrów, które o wyniku prawdopodobieństwo przez określony próg 0,0005.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('Sequence Clustering','12',0.0005)

Aby przywrócić właściwości wszystkich klastrów, można pozostawić identyfikator klastra puste.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('Sequence Clustering','',0.0005)

W poniższym przykładzie wywołuje systemowa procedura składowana GetClusterDiscrimination do porównywania cech klastrowania 1 do 12 klastra.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('Sequence Clustering','1','12',0.0005,true)

Jeśli chcesz wpisać własną kwerendę w DMX porównać dwa klastry lub porównywania klastra z jego dopełnieniem musi najpierw pobrać zestaw właściwości, a następnie pobrać właściwości dla określonego klastra są zainteresowani i porównać dwa zestawy.W tym scenariuszu jest bardziej skomplikowany i zwykle wymaga, aby niektóre klient przetwarzania.

Państwa i przejścia

The State Transitions tab of the Microsoft Sequence klastrowanie performs complicated queries on the back end to retrieve and compare the statistics for different clusters.Aby odtworzyć te wyniki wymaga bardziej złożoną kwerendę i niektórych klientów przetwarzania.

Jednak można użyć kwerendy DMX opisaną w Przykład 2 pobieranie prawdopodobieństw i Stany sekwencji lub dla poszczególnych przejścia.

Powrót do początku

przewidywanie kwerendy w sekwencji, usługa klastrowania modelu

przewidywanie kwerendy dotyczące sekwencji klastrowanie modelu, można użyć wielu funkcji przewidywanie, które są używane z innych modeli klastrów.Ponadto można użyć funkcja specjalnych przewidywanie PredictSequence (DMX), aby zalecenia lub prób o stanach następnej.

Powrót do początku

Przykładowa kwerenda 4: Przewidywanie lub dalej Państw

Można użyć PredictSequence (DMX) funkcja służy do przewidywania następnego stanu najprawdopodobniej danej wartości. Również można przewidzieć wielu następnego stanów: na przykład można przywrócić wykaz najwyższego trzy produkty, które klient prawdopodobnie do zakupu, aby przedstawić listę zaleceń.

W następującej kwerendzie przykładowej jest pojedyncza kwerendę przewidywanie, która zwraca górną prognoz pięciu wraz z ich prawdopodobieństwa.Ponieważ model zawiera zagnieżdżoną tabela, należy użyć tabela zagnieżdżonej [v Assoc Seq Line Items], jak odwołanie do kolumna podczas wprowadzania prognoz. Ponadto, gdy wartości są podane jako danych wejściowych, należy dołączyć zarówno przypadek tabela, jak i kolumny tabela zagnieżdżonej przedstawiony zagnieżdżonych instrukcji SELECT.

SELECT FLATTENED PredictSequence([v Assoc Seq Line Items], 7)
FROM [Sequence Clustering]
NATURAL PREDICTION JOIN
(SELECT  (SELECT 1 as [Line Number],
   'All-Purpose Bike Stand' as [Model]) AS [v Assoc Seq Line Items]) 
AS t

Przykład wyniki:

Wyrażenie. $ sekwencji

Numer wyrażenie.Line

wyrażenie.Model

1

  

Cykliczne wielkich liter

2

  

Cykliczne wielkich liter

3

  

Sport-100

4

  

Logo Tulejowe długo Jersey

5

  

Rękawice pół Finger

6

  

Uniwersalny stojak Bike

7

  

Uniwersalny stojak Bike

Istnieją trzy kolumna w wynikach, nawet wtedy, gdy tylko może oczekiwana jednej kolumnie, gdyż zawsze zwraca kolumna przypadek tabela.W tym miejscu są spłaszczane wyniki; w przeciwnym razie kwerenda zwróci pojedyncza kolumna, która zawiera dwie kolumny tabela zagnieżdżonej.

Sekwencja $ kolumna jest zwracany domyślnie przez kolumna PredictSequence Funkcja w celu uporządkowania wyniki przewidywanie. kolumna [Line Number], wymagana jest dostosowując do sekwencji klawiszy w modelu, ale klucze nie są dane wyjściowe.

Interestingly górny sekwencji przewidywane po All-Purpose Bike wstrzymania są cykliczne wielkich liter i cykliczne wielkich liter.Nie jest błąd.W zależności od tego, w jaki sposób przedstawiania danych do klienta i sposób grupowania, kiedy szkolenia w modelu jest bardzo może być sekwencji tego typu.Na przykład klient może zakupu cycling wpuszczone (czerwony) i następnie innego cykliczne Caps (niebieski) lub w wierszu zakupu, gdyby można określić ilość.

Wartości w wierszach, 6 i 7 są symbolami zastępczymi.Po osiągnięciu ostatniego łańcucha możliwe przejścia, a nie powoduje zakończenie przewidywanie, wartość, która została przekazana jako dane wejściowe są dodawane do wyniki.Na przykład jeżeli zwiększeniu numeru prognoz do 20, wartości dla wierszy 6-20 wszystkie będzie taka sama, All-Purpose Bike wstrzymania.

Powrót do początku

Lista funkcja

Wszystkie Microsoft algorytmy obsługują wspólny zestaw funkcji. Jednak Microsoft Algorytm klastrowanie sekwencji obsługuje inne funkcje, które są wymienione w poniższej tabela.

Aby uzyskać listę funkcji, które są wspólne dla wszystkich Microsoft algorytmy, zobacz Mapowanie funkcji do kwerendy typy (DMX). Aby zapoznać się ze składnią określonych funkcji zobacz Odwołanie do funkcja wyszukiwanie danych rozszerzeń (DMX).

Historia zmian

Microsoft Learning

Dodać łącza nawigacyjne, które ułatwiają przeglądanie próbek kwerendy.

Stałe błąd w danych, na przykład zwróciła 2.