의사 결정 트리 모델 탐색(기본 데이터 마이닝 자습서)
Microsoft 의사 결정 트리 알고리즘은 학습 집합의 나머지 열을 기준으로 자전거 구매 결정에 영향을 주는 열을 예측합니다.
Microsoft 의사 결정 트리 뷰어는 의사 결정 트리 마이닝 모델 탐색 시 사용할 수 있는 다음과 같은 탭을 제공합니다.
의사 결정 트리
종속성 네트워크
다음 섹션에서는 적합한 뷰어를 선택하고 다른 마이닝 모델을 탐색하는 방법에 대해 설명합니다.
의사 결정 트리 탭
의사 결정 트리 탭에서는 마이닝 모델을 구성하는 모든 트리 모델을 검사할 수 있습니다.
이 자습서 프로젝트의 대상 메일 모델에는 단일 예측 가능 특성인 Bike Buyer만 포함되어 있기 때문에 트리가 하나만 표시됩니다. 트리가 더 있으면 트리 상자를 사용하여 다른 트리를 선택할 수 있습니다.
의사 결정 트리 뷰어의 TM_Decision_Tree 모델을 검토하면 나이가 자전거 구매를 예측할 때 가장 중요한 요소라는 것을 알 수 있습니다. 흥미로운 점은 나이별로 고객을 그룹화하면 트리의 다음 분기가 각 나이 노드에 따라 다르다는 것입니다. 의사 결정 트리 탭을 탐색하면 한 대의 자동차를 보유하거나 자동차가 없는 34 ~ 40대의 구매자가 자전거를 구매할 가능성이 있고, 태평양 지역에 살면서 한 대의 자동차를 보유하거나 자동차가 없는 젊은층 고객도 자전거를 구매할 가능성이 있습니다.
의사 결정 트리 탭에서 모델을 탐색하려면
데이터 마이닝 디자이너에서 마이닝 모델 뷰어 탭을 선택합니다.
기본적으로 구조에 추가된 첫 번째 모델이 포함된 디자이너가 열립니다. 이 경우는 TM_Decision_Tree입니다.
돋보기 단추를 사용하여 트리 표시 크기를 조정합니다.
기본적으로 Microsoft 트리 뷰어에는 트리의 처음 세 수준만 표시됩니다. 트리의 수준이 셋 미만이면 뷰어에 기존 수준만 표시됩니다. 수준 표시 슬라이더나 기본 확장 목록을 사용하여 더 많은 수준을 볼 수 있습니다.
수준 표시 슬라이더를 네 번째 막대로 이동합니다.
배경 값을 1로 변경합니다.
배경 설정을 변경하여 각 노드에서 [Bike Buyer] 대상 값이 1인 사례의 수를 빠르게 볼 수 있습니다. 이 특정 시나리오에서 각 사례는 고객을 나타냅니다. 값 1은 고객이 이전에 자전거를 구매했음을 나타내고 값 0은 고객이 자전거를 구매한 적이 없음을 나타냅니다. 노드의 음영이 짙을수록 노드에 대상 값을 가진 사례의 비율이 높습니다.
All이라는 레이블이 지정된 노드에 커서를 놓습니다. 도구 설명에 다음 정보가 표시됩니다.
총 사례 수
자전거를 구매하지 않은 구매자 사례 수
자전거 구매자 사례 수
[Bike Buyer]에 대해 누락된 값이 있는 사례 수
또는 커서를 트리의 노드에 두면 상위 노드에서 해당 노드에 도달하는 데 필요한 조건이 표시됩니다. 마이닝 범례에서도 이 정보를 볼 수 있습니다.
Age >=34 and < 41에 대한 노드를 클릭합니다. 히스토그램이 노드에 가는 가로 막대로 표시되며, 이 연령 범위에서 이전에 자전거를 구매한 고객(분홍색)과 구매하지 않은 고객(파란색)의 분포를 나타냅니다. 뷰어를 통해 한 대의 자동차를 보유하거나 보유하지 않은 34 ~ 40대의 고객이 자전거를 구매할 가능성이 있음을 알 수 있습니다. 이 단계를 더욱 발전시킨 결과 고객의 실제 나이가 38 ~ 40인 경우 자전거를 구매할 가능성이 늘어난다는 것을 알았습니다.
구조와 모델을 만들 때 드릴스루를 사용했기 때문에 마이닝 모델에 포함되지 않은 열을 비롯하여(예: emailAddress, FirstName) 모델 사례 및 마이닝 구조의 세부 정보를 검색할 수 있습니다.
자세한 내용은 마이닝 모델 및 마이닝 구조에 드릴스루 사용(Analysis Services - 데이터 마이닝)을 참조하십시오.
사례 데이터를 드릴스루하려면
노드를 마우스 오른쪽 단추로 클릭하고 드릴스루를 선택한 다음 모델 열만을 선택합니다.
각 학습 사례에 대한 세부 사항은 스프레드시트 형식으로 표시됩니다. 이러한 세부 사항은 마이닝 구조를 작성할 때 사례 테이블로 선택한 vTargetMail 뷰에서 가져옵니다.
노드를 마우스 오른쪽 단추로 클릭하고 드릴스루를 선택한 다음 모델 및 구조 열을 선택합니다.
끝에 구조 열이 추가된 같은 스프레드시트가 표시됩니다.
맨 위로 이동
종속성 네트워크 탭
종속성 네트워크 탭에는 마이닝 모델의 예측 기능에 기여하는 특성 간의 관계가 표시됩니다. 종속성 네트워크 뷰어에서 Age 및 Region이 자전거 구매 예측에 중요한 요소임을 나타냅니다.
종속성 네트워크 탭에서 모델을 탐색하려면
Bike Buyer 노드를 클릭하여 해당 종속성을 식별합니다.
종속성 네트워크의 가운데 노드인 Bike Buyer는 마이닝 모델의 예측 가능한 특성을 나타냅니다. 분홍색 음영은 모든 특성이 자전거 구매에 영향을 준다는 것을 나타냅니다.
모든 링크 슬라이더를 조정하여 가장 큰 영향을 주는 특성을 식별합니다.
슬라이더를 내리면 [Bike Buyer] 열에 가장 큰 영향을 주는 특성만 남습니다. 슬라이더를 조정하여 나이와 지역이 자전거 구매자를 예측하는 가장 큰 요인임을 알 수 있습니다.