Udostępnij za pośrednictwem


Microsoft Technical Reference algorytm regresja liniowa

The Microsoft Linear regresja algorithm is a special wersja of the Microsoft Decision Trees algorithm that is optimized for modeling pairs of continuous attributes. W tym temacie wyjaśniono Implementacja algorytmu, w tym artykule opisano sposób dostosowania zachowania algorytmu i zawiera łącza do dodatkowych informacji na temat kwerend modeli.

Implementacja algorytmu regresja liniowa

Algorytm algorytmów firmy Microsoft mogą służyć do wielu zadań: liniowy analizy regresja, klasyfikacji lub skojarzenia. Aby zaimplementować ten algorytm w celu ich regresja liniowej, parametry algorytmu są kontrolowane ograniczyć wzrostu drzewa i zachować wszystkie dane w modelu w jeden węzeł.Innymi słowy mimo że regresja liniowej opiera się na drzewo decyzyjne, w drzewie zawiera tylko jeden katalog główny i nie gałęzie: wszystkie dane znajdują się w węźle głównym.

Aby osiągnąć ten cel, algorytm firmy MINIMUM_LEAF_CASES parametr jest zestaw jest większa niż lub równa całkowita liczba przypadków, używanych przez algorytm przeszkolić model wyszukiwania. W ten sposób parametrem algorytm nigdy nie będzie utworzyć podział, a w związku z tym wykonuje regresja liniowej.

Równanie, które reprezentuje linii regresja ma postać ogólne y = ax + bi jest znany jako równanie regresja.The variable Y represents the output variable, X represents the input variable, and a and b are adjustable coefficients.Za pomocą kwerend wysyłanych do modelu zakończonego wyszukiwania można pobrać współczynniki intercepts i inne informacje o formule regresja.Aby uzyskać więcej informacji zobaczPodczas badania modelu regresja liniowej (Analysis Services — wyszukiwanie danych).

Wybieranie funkcji i metody tworzenia wyników

Wszystkie Analysis Services algorytmów wyszukiwanie danych używają funkcji zaznaczenia automatycznie poprawić analizy oraz zmniejszyć obciążenie związane z przetwarzaniem. Metoda stosowana do wybranej funkcji w regresja liniowej wynik interestingness, ponieważ obsługuje model obsługuje tylko ciągłego kolumn.Dla odwołania w następującej tabela pokazano różnice w funkcji wybór algorytmu regresja liniowa i algorytm algorytmów.

Algorytm

Metoda analizy

Komentarze

Regresja liniowa

Wynik interestingness

Domyślny.

Inne sposoby zaznaczenia funkcji dostępnych z algorytmem algorytmów dotyczą tylko zmienne dyskretnych i dlatego nie są stosowane do modeli regresja liniowej.

Drzewa decyzji

Wynik interestingness

Entropy Shannon firmy

Bayesian z K2 Prior

Bayesian Dirichlet z jednolitego przed (domyślnie)

Jeśli żadnych kolumn nie zawierają wartości ciągłego innych niż plik binarny, wynik interestingness jest używana dla wszystkich kolumn, aby zapewnić spójność.W przeciwnym wypadku jest używana domyślna lub określona metoda.

Parametry algorytmu kontrolować funkcję zaznaczania dla modelu drzewa decyzji są MAXIMUM_INPUT_ATTRIBUTES i MAXIMUM_OUTPUT.

Dostosowywanie algorytm regresja liniowa

The Microsoft Linear regresja algorithm supports parameters that affect the behavior, performance, and accuracy of the resulting model wyszukiwania. Można również zestaw modelowania flag w kolumnach modelu wyszukiwania lub górnictwo kolumny struktury, aby kontrolować sposób przetwarzania danych.

Ustawianie parametrów algorytmu

W poniższej tabela przedstawiono parametry, które są przewidziane Microsoft Algorytm regresja liniowej.

Parameter

Description

MAXIMUM_INPUT_ATTRIBUTES

Definiuje liczbę atrybutów wejściowego, jaką może obsłużyć algorytmu przed go wywołuje funkcję zaznaczenia.Wartość tę zestaw na 0, aby wyłączyć funkcję zaznaczenia.

Wartość domyślna to 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Określa liczbę atrybutów danych wyjściowych, jaką może obsłużyć algorytmu przed go wywołuje funkcję zaznaczenia.Wartość tę zestaw na 0, aby wyłączyć funkcję zaznaczenia.

Wartość domyślna to 255.

FORCED_REGRESSOR

Wymusza algorytm używany w określonych kolumnach jako regressors, niezależnie od znaczenie kolumny, obliczona przy użyciu algorytmu.

Modelowanie flagi

The Microsoft Linear regresja algorithm supports the following modeling flags. Podczas tworzenia struktura wyszukiwania lub model wyszukiwania, należy zdefiniować modelowania flagi, aby określić sposób obsługi wartości w każdej kolumnie podczas analizy.Aby uzyskać więcej informacji zobaczFlagi modelowania (wyszukiwanie danych).

Flaga modelowania

Description

NIEDOZWOLONE WARTOŚCI NULL

Wskazuje, że kolumna nie może zawierać wartość null.Jeżeli usługi Analysis Services napotyka wartość null podczas szkolenia modelu, spowoduje błąd.

Stosuje się do kolumn struktura wyszukiwania.

REGRESSOR

Wskazuje, że kolumna zawiera ciągłej wartości numeryczne, które powinny być traktowane jako potencjalne zmiennych niezależnych podczas analizy.

NoteNote:
Oflagowanie kolumna jako regressor nie zapewnia kolumna będzie stanowić regressor ostatecznego modelu.

Stosuje się do kolumn w model wyszukiwania.

Regressors w modelach regresja liniowa

Modele regresja liniowej obliczana na podstawie Microsoft Algorytm drzewa decyzji. Jednak nawet jeśli nie używasz Microsoft Algorytm regresja liniowej, każdego modelu drzewo decyzyjne może zawierać drzewo lub węzłów, które reprezentują regresja na ciągłe atrybut.

Nie trzeba określić, że ciągłej kolumnie reprezentuje regressor.The Microsoft Decision Trees algorithm will partition the dataset into regions with meaningful patterns even if you do not zestaw the REGRESSOR flag on the kolumna. Różnica jest, że po ustawieniu flagi modelowania, algorytm będzie próbował znaleźć równania regresja formularza a * C1 + b * C2 +... do dopasowanie wzorców w węzłach drzewa.Obliczyć sumy składników resztkowych, a jeśli odchylenie jest zbyt duża, podział będzie zmuszony w drzewie.

Na przykład, jeśli jest przewidywana, odbiorcy zakupów zachowanie używając Przychód jako atrybut, a zestaw modelowania REGRESSOR flagę kolumna, algorytm będzie najpierw spróbować dopasowanie Przychód wartości przy użyciu formuły standardowych regresja.Jeśli odchylenie jest zbyt duża, formuła regresja zostanie zaniechana i drzewa czy można podzielić na kilka innych atrybutach.Algorytm drzewo decyzyjne będzie następnie próbuje dopasować regressor dla przychodów w każdej gałęzi po podziału.

Można użyć parametru FORCED_REGRESSOR, aby zagwarantować, że algorytm będzie korzystać z określonego regressor.Tego parametru można używać z algorytmów Microsoft algorytmów i regresja liniowa firmy Microsoft.

Wymagania

Modelu regresja liniowej musi zawierać kolumnę klucz, wejściowy kolumny i co najmniej jedną przewidywalna kolumna.

Dane wejściowe i uzyskania przewidywalnej kolumny

The Microsoft Linear regresja algorithm supports the specific input columns and predictable columns that are listed in the following tabela. Aby uzyskać więcej informacji na temat typów zawartości znaczenie w model wyszukiwania zobacz Typy zawartości (wyszukiwanie danych).

Kolumna

Typy zawartości

Atrybut wejściowy

Stałego, cykliczna, klucz, tabela i Zamówione

Atrybut przewidywalne

Ciągłe, cykliczna i Zamówione

Uwaga

Cyclical i Ordered typy zawartości są obsługiwane, lecz algorytm traktuje je jako discrete wartości i nie wykonuje przetwarzania specjalnych.