Udostępnij za pośrednictwem


Zaznaczenie funkcji w wyszukiwanie danych

Funkcja wyboru jest koniecznością dla każdego produktu wyszukiwanie danych.Jest to konieczne, ponieważ podczas tworzenia model wyszukiwanie danych do danych często zawiera więcej informacji niż potrzeba do budowania modelu.Na przykład zestaw danych może zawierać 500 kolumny, które opisują właściwości odbiorców, ale być może tylko 50 tych kolumn są używane do budowania określonego modelu.Jeżeli zachowasz zbędne kolumny podczas budowania modelu więcej czasu PROCESORA i pamięci są wymagane podczas procesu kształcenia i więcej miejsca jest wymagana dla zakończonego modelu.

Nawet wtedy, gdy zasoby nie mogą być problemem, zwykle należy usunąć zbędne kolumny, ponieważ mogą one obniżenia jakości wykrytych deseni z następujących powodów:

  • Niektóre kolumny są zbędne lub wiele szumów.Szum to utrudnia wykrywanie znaczenie wzorców danych;

  • Do wykrywania wzorów jakości, większość algorytmów wyszukiwanie danych wymaga dużo większy szkoleniowy zestaw danych w pełnym wymiarowa zestawu danych.Jednak dane szkolenia jest bardzo mała w niektórych aplikacjach wyszukiwanie danych.

Funkcja wyboru pozwala rozwiązać ten problem, występowanie zbyt dużej ilości danych, które są niewielkiej wartości lub mających za mało danych, które jest dużą wartość.

Zaznaczenie funkcji w wyszukiwanie danych usług Analysis Services

Ogólnie rzecz biorąc funkcja zaznaczenia polega na obliczenie wyniku dla każdego atrybut, a następnie wybierając tylko te atrybuty, które mają uzyskać najlepsze wyniki.Można dopasować próg górny wyników.Zaznaczenie funkcji jest zawsze przeprowadzane przed szkolony model, aby automatycznie wybrać atrybuty w zestawie danych, które są najbardziej mogą być używane w modelu.

SQL Server 2008 Analysis Services (SSAS)c oferuje wiele metod wybór funkcji.Dokładne metoda zaznaczania atrybutów o najwyższej wartości zależy od algorytm używany w modelu i wszystkie parametry, które zestaw w modelu.Wybór funkcji jest stosowany do danych wejściowych przewidywalne atrybuty lub stany, kolumna.Atrybuty i stwierdza, że wybór algorytmu znajdują się w proces budowania modelu i mogą być używane do przewidywanie.Przewidywalne kolumny, które są ignorowane przez funkcję zaznaczenia są używane do przewidywanie, ale prognoz dotyczą tylko statystyki globalne, które istnieje w modelu.

Uwaga   Zaznaczenie funkcji dotyczy tylko kolumny, które są używane w modelu i nie ma wpływu na przechowywanie struktura wyszukiwania.Kolumny, które są wykluczone z modeli wyszukiwania są nadal dostępne w strukturę i dane w kolumnach struktura wyszukiwania będą buforowane.

Definicja funkcji wyboru metody

Istnieje wiele sposobów wykonania wyboru funkcji, w zależności od typu danych, z którą pracuje i algorytm wybrany dla analizy.Program SQL Server Analysis Services oferuje kilka metod popularne i określone dla Punktacja atrybutów.Metoda, która jest stosowana w dowolnym algorytmu lub zestaw danych zależy od typów danych i sposób użycia kolumna.

The interestingness score is used to rank and sort attributes in columns that contain nonbinary continuous numeric data.

Dla kolumny, które zawierają dane discrete i discretized można wybierać Entropia Shannon firmy oraz dwóch punktów Bayesian; jednak, jeśli model zawiera żadnych kolumn ciągłe, wynik interestingness posłuży do oceny wprowadzania wszystkich kolumn, aby zapewnić spójność.

W tej sekcji opisano każdą z tych metod zaznaczenia funkcji.

Wynik interestingness

Funkcja jest interesujące, jeśli o niektórych użyteczną informacją w dzienniku.Ponieważ definicja, co jest przydatne może się różnić w zależności od scenariusza, w przemyśle wyszukiwanie danych przygotowała różne sposoby miara interestingness.Na przykład Nowości mogą być interesujące poboczna wykrycia, ale możliwość rozróżnić ściśle powiązane elementy lub Waga różnicująca, może być bardziej interesujące dla klasyfikacji.

Jest miarą interestingness, która jest używana w usługach Analysis Services programu SQL Server oparte na entropii, co oznacza, że atrybuty z losowego dystrybucje mają entropii wyższe i niższe informacji uzyskanie; dlatego te atrybuty są mniej interesujące.Entropia wszelkie określonego atrybut jest porównywany z entropii wszystkich innych atrybut w następujący sposób:

Interestingness(atrybut) =-(m - Entropy(atrybut)) * (m - Entropy(atrybut))

Entropia centralnej, lub m, oznacza entropii funkcja całego zestaw.Odejmując entropii atrybutu docelowego z centralnego entropii można oceniać ilość informacji zawiera atrybut.

Za każdym razem, gdy kolumna zawiera nonbinary ciągłego dane liczbowe, domyślnie używany jest ten wynik.

Entropy Shannon firmy

Entropia firmy Shannon środków niepewność zmienną losową dla określonego wyniku.Na przykład entropii z toss monety może być reprezentowany jako funkcja prawdopodobieństwa go mieszczących się głowic.

Usługi Analysis Services używa następującej formuły do obliczania entropii Shannon firmy:

H(X) = - ∑ P(xi) log(P(xi))

Ta metoda tworzenia wyników jest dostępna dla atrybutów discrete i discretized.

Bayesian z K2 Prior

Usługi Analysis Services zawiera dwa wyniki wyboru funkcji, oparte na sieci Bayesian.Sieć Bayesian Przekierowanie or acykliczne Wykres stanów i przejść między stanów, co oznacza, że niektóre stany są zawsze przed bieżącym stanie, niektóre stany są przebiegu i na wykresie powoduje nie powtarzaj lub pętli.Z definicji sieci Bayesian zezwala na używanie wiedza.Jednak dla algorytmu projektu, wydajność i dokładność ważne jest pytanie, które stany wcześniejszego należy użyć do obliczenia prawdopodobieństw później stanów.

Algorytm K2 naukę z sieci Bayesian został opracowany przez Cooper i Herskovits i jest często używana w wyszukiwanie danych.Jest skalowalna i może analizować wielu zmiennych, ale wymaga kolejności zmienne używane jako dane wejściowe.Aby uzyskać więcej informacji zobacz Nauka Bayesian sieci Chickering, Geiger i Heckerman.

Ta metoda tworzenia wyników jest dostępna dla atrybutów discrete i discretized.

Odpowiedniki Dirichlet Bayesian z Uniform Prior

Wynik Bayesian Dirichlet Equivalent (BDE) używa również analizy Bayesian do analizowania sieci, biorąc pod uwagę zestawu danych.BDE, punktacja metoda został opracowany przez Heckerman i jest oparta na opracowanych przez Cooper i Herskovits Metryka BD.Rozkład Dirichlet jest dystrybucji wielomian, opisujących prawdopodobieństwo warunkowego każdą ze zmiennych w sieci i ma wiele właściwości, które są przydatne do nauki.

Bayesian Dirichlet Equivalent metodą Uniform poprzedni (BDEU) zakłada szczególny przypadek rozkładu Dirichlet, stała matematyczną służy do tworzenia rozkładu stały lub jednolitego uprzedniego stanów.Wynik BDE zakłada również prawdopodobieństwo równoważności, co oznacza, że dane nie można oczekiwać do dyskryminacji równoważne struktur.Innymi słowy Jeśli wynik dla Jeśli to B jest taka sama, jak wynik dla Jeśli B Then A, struktury nie mogą być wyróżnione w zależności od danych i nie można wywnioskować przyczyny.

Aby uzyskać więcej informacji o sieciach Bayesian i stosowania tych metod tworzenia wyników Zobacz Nauka Bayesian sieci.

Funkcja wyboru metody używane przez algorytmy usług analiz

Poniższa tabela zawiera listę algorytmów, które obsługują funkcję zaznaczenia, funkcja metod zaznaczania używanych przez algorytm i parametry, które zestaw kontroli funkcji wyboru zachowania:

Algorytm

Metoda analizy

Komentarze

Naive Bayes

Entropy Shannon firmy

Bayesian z K2 Prior

Bayesian Dirichlet z jednolitego przed (domyślnie)

Algorytm Bayes Naïve Microsoft akceptowane są tylko atrybuty discrete lub discretized; dlatego nie można użyć wyniku interestingness.

Aby uzyskać więcej informacji na temat tego algorytmu zobacz Informacje techniczne algorytm Bayes Naive firmy Microsoft.

Drzewa decyzji

Wynik interestingness

Entropy Shannon firmy

Bayesian z K2 Prior

Bayesian Dirichlet z jednolitego przed (domyślnie)

Jeśli żadnych kolumn nie zawierają wartości ciągłego innych niż plik binarny, wynik interestingness jest używana dla wszystkich kolumn, aby zapewnić spójność.W przeciwnym wypadku używany jest domyślna metoda zaznaczenia funkcji lub metody, określone podczas tworzenia modelu.

Aby uzyskać więcej informacji na temat tego algorytmu zobacz Informacje techniczne algorytm drzewa decyzji firmy Microsoft.

Neuronowe sieci

Wynik interestingness

Entropy Shannon firmy

Bayesian z K2 Prior

Bayesian Dirichlet z jednolitego przed (domyślnie)

Algorytm neuronowe sieci Microsoft Networks można użyć obu metodach ciągłego kolumny zawierają dane.

Aby uzyskać więcej informacji na temat tego algorytmu zobacz Microsoft Network neuronowe algorytm informacje techniczne.

regresja logistyczne

Wynik interestingness

Entropy Shannon firmy

Bayesian z K2 Prior

Bayesian Dirichlet z jednolitego przed (domyślnie)

Mimo że algorytm Regresja logistyczne Microsoft opiera się na algorytm neuronowe sieci firmy Microsoft, można dostosować logistyczne regresji modeli w celu sterowania zachowaniem zaznaczenia funkcji; dlatego domyślnie funkcja wyboru zawsze do metoda, która jest najbardziej odpowiednia dla atrybut.

Jeśli wszystkie atrybuty discrete lub discretized, wartością domyślną jest BDEU.

Aby uzyskać więcej informacji na temat tego algorytmu zobacz Regresja logistyczne algorytm informacje techniczne firmy Microsoft.

Klastrowanie

Wynik interestingness

Algorytm klastrowania firmy Microsoft mogą używać discrete lub discretized danych.Jednak ponieważ wynik każdego z atrybut jest obliczana jako odległości i jest reprezentowany jako liczba ciągłych, wynik interestingness muszą być używane.

Aby uzyskać więcej informacji na temat tego algorytmu zobacz Informacje techniczne algorytm klastrowanie Microsoft.

W regresja liniowej

Wynik interestingness

Algorytm regresja liniowa firmy Microsoft można używać tylko wynik interestingness, ponieważ obsługuje tylko ciągłego kolumn.

Aby uzyskać więcej informacji na temat tego algorytmu zobacz Microsoft Technical Reference algorytm regresja liniowa.

Skojarzenie reguł

Sekwencja klastrowanie

Nie używane

Funkcja wyboru nie jest wywoływana z tych algorytmów.

Można jednak kontrolować zachowanie algorytmu i zmniejszyć rozmiar danych wejściowych w razie potrzeby, należy ustawić wartość parametrów MINIMUM_SUPPORT i MINIMUM_PROBABILIITY.

Aby uzyskać więcej informacji zobacz Informacje techniczne algorytm skojarzenia firmy Microsoft i Sekwencja Microsoft klastrowanie algorytm informacje techniczne.

Szeregu czasowego

Nie używane

Funkcja wyboru nie ma zastosowania do czas serii modeli.

Aby uzyskać więcej informacji na temat tego algorytmu zobacz Informacje techniczne algorytm serii czasowych firmy Microsoft.

Kontrolowanie zachowania Wybieranie funkcji

Algorytmy, które obsługują funkcję zaznaczenie można kontrolować przy włączonej funkcji zaznaczenie przy użyciu następujących parametrów.Każdy algorytm ma wartość domyślną dla numeru produkcji, które są dozwolone, i można zastąpić to ustawienie domyślne i określić liczbę atrybutów.

MAXIMUM_INPUT_ATTRIBUTES

Jeśli model zawiera więcej kolumn niż liczba określona w MAXIMUM_INPUT_ATTRIBUTES parametr, algorytm ignoruje wszystkie kolumny, które jest ona obliczana jest uninteresting.

MAXIMUM_OUTPUT_ATTRIBUTES

Podobnie jeśli model zawiera bardziej przewidywalny kolumn niż liczba określona w MAXIMUM_OUTPUT_ATTRIBUTES parametr, algorytm ignoruje wszystkie kolumny, które jest ona obliczana jest uninteresting.

MAXIMUM_STATES

Jeśli model zawiera więcej przypadków niż określono w MAXIMUM_STATES parametr, najmniej popularnych stany są grupowane i traktowane jako Brak. Jeśli którykolwiek z tych parametrów jest zestaw na 0, funkcja zaznaczenia jest wyłączone, mające wpływ na czas przetwarzania i wydajności.

Historia zmian

Microsoft Learning

Zawartość zreorganizowanych najpierw przedstawić uzasadnienie funkcji zaznaczenia, a następnie podaj szczegółowe informacje dotyczące wdrażania.Zaktualizowane ustawienia domyślne dla każdego typu modelu.

Łącza dodane tematy zawierają informacje techniczne każdy algorytm