Microsoft 시퀀스 클러스터링 알고리즘
Microsoft 시퀀스 클러스터링 알고리즘은 Microsoft SQL Server 2005 Analysis Services(SSAS) 에서 제공하는 시퀀스 분석 알고리즘입니다. 이 알고리즘을 사용하여 이어지는 경로 또는 시퀀스로 연결할 수 있는 이벤트가 들어 있는 데이터를 탐색할 수 있습니다. 알고리즘은 동일한 시퀀스를 함께 그룹화하거나 클러스터링하여 가장 일반적인 시퀀스를 찾습니다. 이러한 시퀀스에는 다음을 포함하여 여러 가지 형식이 있습니다.
- 사용자가 웹 사이트를 통해 따라가는 클릭 경로를 설명하는 데이터
- 고객이 온라인 상점에서 장바구니에 품목을 추가하는 순서를 설명하는 데이터
이 알고리즘은 Microsoft 클러스터링 알고리즘과 비슷합니다. 그러나 Microsoft 시퀀스 클러스터링 알고리즘은 유사한 특성이 포함된 사례 클러스터를 찾는 대신 시퀀스에 유사한 경로가 포함된 사례 클러스터를 찾습니다.
이 알고리즘이 만든 마이닝 모델에는 데이터에서 가장 일반적인 시퀀스에 대한 설명이 들어 있습니다. 해당 설명을 사용하여 새 시퀀스의 다음 단계를 예측할 수 있습니다. 또한 알고리즘은 레코드를 클러스터링할 때 시퀀스와 직접 관련되지 않은 데이터의 열도 설명할 수 있습니다 . 알고리즘은 관련이 없는 열을 포함하므로 결과 모델을 사용하여 시퀀스에 포함되는 데이터와 포함되지 않는 데이터 간의 관계를 식별할 수 있습니다.
예
Adventure Works 회사의 웹 사이트에서는 사이트 사용자가 방문하는 페이지 및 페이지 방문 순서에 대한 정보를 수집합니다. 회사에서 온라인 주문 시스템을 제공하므로 고객은 사이트에 로그인해야 합니다. 고객이 사이트에 로그인하면 각 고객 프로필의 클릭 정보가 회사에 제공됩니다. 이 데이터에 대한 Microsoft 시퀀스 클러스터링 알고리즘을 사용하면 클릭 패턴 또는 시퀀스가 유사한 고객 그룹 또는 클러스터를 찾을 수 있습니다. 회사는 이러한 클러스터를 사용하여 사용자가 웹 사이트에서 어떻게 이동하는지 분석하고, 특정 제품의 판매와 가장 밀접한 관련이 있는 페이지를 식별하고, 다음에 방문할 가능성이 가장 높은 페이지를 예측할 수 있습니다.
알고리즘 작동 방법
알고리즘에서는 EM(Expectation Maximization) 클러스터링 메서드를 사용하여 클러스터 및 클러스터의 시퀀스를 식별합니다. 특히 확률을 계산하는 메서드를 사용하여 데이터 요소가 클러스터에 들어 있을 가능성을 결정합니다. Microsoft 클러스터링 알고리즘에서 이 클러스터링 메서드를 사용하는 방법은 Microsoft 클러스터링 알고리즘을 참조하십시오.
Microsoft 시퀀스 클러스터링 알고리즘에서 사용하는 입력 열 중 하나는 시퀀스 데이터를 포함하는 중첩 테이블입니다. 이 데이터는 데이터 집합에서 제품 구입 또는 웹에서의 클릭과 같은 개별 사례의 상태를 전환한 것입니다. 알고리즘은 클러스터링에 사용할 입력 열로 처리할 시퀀스 열을 결정하기 위해 데이터 집합에서 가능성이 있는 모든 시퀀스 간의 차이점 또는 거리를 측정합니다. 이러한 거리를 측정한 다음 시퀀스 열을 EM 클러스터링 메서드에 대한 입력으로 사용할 수 있습니다.
알고리즘 사용
시퀀스 클러스터링 모델에는 레코드를 식별하는 키와 시퀀스에서 이벤트를 식별하는 웹 페이지 식별자와 같은 시퀀스 관련 열을 포함하는 중첩 테이블이 필요합니다. 각 시퀀스마다 시퀀스 관련 열이 하나만 허용되고, 각 모델마다 시퀀스 유형이 하나만 허용됩니다. 이 항목의 앞에서 나온 예제 시나리오의 모델을 만들려면 두 개의 테이블이 포함된 데이터 원본이 필요합니다. 첫 번째 테이블에는 주문, 두 번째 테이블에는 주문이 장바구니에 입력된 시퀀스가 들어 있습니다.
Microsoft 시퀀스 클러스터링 알고리즘은 다음 표에 나열된 특정 입력 열 내용 유형, 예측 가능한 열 내용 유형 및 모델링 플래그를 지원합니다.
입력 열 내용 유형 |
Continuous, Cyclical, Discrete, Discretized, Key, Key Sequence, Table 및 Ordered |
예측 가능한 열 내용 유형 |
Continuous, Cyclical, Discrete, Discretized, Table 및 Ordered |
모델링 플래그 |
MODEL_EXISTENCE_ONLY 및 NOT NULL |
모든 Microsoft 알고리즘은 공통 함수 집합을 지원합니다. Microsoft 시퀀스 클러스터링 알고리즘은 다음 표에 나열된 함수를 추가로 지원합니다.
모든 Microsoft 알고리즘에 공통된 함수 목록은 데이터 마이닝 알고리즘을 참조하십시오. 이러한 함수 사용 방법은 DMX(데이터 마이닝 확장) 함수 참조를 참조하십시오.
Microsoft 시퀀스 클러스터링 알고리즘에서는 PMML(Predictive Model Markup Language)을 사용하여 마이닝 모델을 만들 수 없습니다.
Microsoft 시퀀스 클러스터링 알고리즘은 결과 마이닝 모델의 성능과 정확도에 영향을 미치는 여러 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수를 설명합니다.
매개 변수 | 설명 |
---|---|
CLUSTER_COUNT |
알고리즘에서 작성할 클러스터의 대략적인 개수를 지정합니다. 데이터에서 대략적인 개수의 클러스터를 작성할 수 없는 경우 알고리즘은 가능한 많은 클러스터를 작성합니다. CLUSTER_COUNT 매개 변수를 0으로 설정하면 알고리즘은 작성할 클러스터의 수를 정확하게 결정하기 위해 발견적 해결 방법을 사용합니다. 기본값은 10입니다. |
MINIMUM_SUPPORT |
각 클러스터의 최소 사례 수를 지정합니다. 기본값은 10입니다. |
MAXIMUM_SEQUENCE_STATES |
시퀀스에 포함할 수 있는 최대 상태 수를 지정합니다. 이 값을 100보다 큰 숫자로 설정하면 알고리즘은 의미 없는 정보를 제공하는 모델을 작성합니다. 기본값은 64입니다. |
MAXIMUM_STATES |
알고리즘이 지원하는 비시퀀스 특성에 대한 최대 상태 수를 지정합니다. 비시퀀스 특성의 상태 수가 최대 상태 수보다 크면 알고리즘은 특성의 가장 일반적인 상태를 사용하고 나머지 상태는 없는 것으로 처리합니다. 기본값은 100입니다. |
참고 항목
개념
데이터 마이닝 알고리즘
데이터 마이닝 마법사
데이터 마이닝 도구 사용
Microsoft 시퀀스 클러스터 뷰어를 사용하여 마이닝 모델 보기