次の方法で共有


分類マトリックス (Analysis Services - データ マイニング)

適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

データ マイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。 非推奨および停止された機能については、ドキュメントの更新は行われません。 詳細については、「Analysis Services 下位互換性」を参照してください。

分類マトリックス は、モデルのすべてのケースについて、予測値が実際の値と一致したかどうかを判断してカテゴリに分類します。 各カテゴリのすべてのケースがカウントされ、合計がマトリックスに表示されます。 分類マトリックスは統計モデルの評価に使用する標準のツールで、 混同行列とも呼ばれます。

[分類マトリックス] オプションを選択して作成されるグラフでは、実際の値が、指定した各予測状態の予測値と比較されます。 各マトリックスの行はモデルの予測値を表し、列は実際の値を表します。 分析で使用されるこれらのカテゴリは、 偽陽性, 真陽性, 偽陰性、および 真陰性と呼ばれる場合もあります。

分類マトリックスは、間違った予測の影響を容易に理解し説明できるため、予測の結果を評価するための重要なツールです。 このマトリックスの各セルに示された数値とパーセンテージを見ると、モデルの予測が正しかった頻度がすぐにわかります。

ここでは、分類マトリックスを作成する方法と、その結果を解釈する方法について説明します。

分類マトリックスについて

「基本的なデータ マイニング チュートリアル」で作成したモデルを例に考えてみましょう。 ターゲット メーリング キャンペーンの作成に [TM_DecisionTree] モデルを使用し、自転車を購入する可能性が最も高いのはどの顧客かを予測することができます。 このモデルのこの期待される有用性をテストするには、結果の属性である [Bike Buyer] の値が既にわかっているデータセットを使用します。 通常は、モデルのトレーニングに使用するマイニング構造を作成したときに確保しておいたテスト データセットを使用します。

結果の有効値は、"yes" (顧客が自転車を購入する可能性が高い) と "no" (顧客が自転車を購入する可能性が低い) の 2 つだけです。 したがって、結果の分類マトリックスは、比較的単純です。

結果の解釈

次の表は、TM_DecisionTree モデルの分類マトリックスを示しています。 この予測可能な属性で、0 は "No" を、1 は "Yes" を意味します。

[予測] 0 (実際の値) 1 (実際の値)
0 362 144
1 121 373

値 362 を含む最初の結果セルは、値 0 に対する 真陽性 の数を表します。 値 0 は顧客が自転車を購入しなかったことを表すため、この統計から、モデルが 362 のケースで、自転車を購入しない顧客について正しい値を予測したことがわかります。

その下の、値 121 を含むセルは、 偽陽性の数 (実際には自転車を購入しなかった顧客について購入するとモデルが予測した回数) を表します。

値 144 を含むセルは、値 1 に対する 偽陽性 の数を表します。 値 1 は顧客が自転車を購入したことを表すため、この統計から、モデルが 144 のケースで、実際には自転車を購入した顧客について購入しないと予測したことがわかります。

最後の、値 373 を含むセルは、対象の値 1 に対する真陽性の数を表します。 つまり、モデルが 373 のケースで、自転車を購入する顧客を正しく予測したことになります。

対角線上にあるセルの値を合計すると、モデルの全体的な精度を調べることができます。 一方の対角線からは正しい予測の合計数が、もう一方の対角線からは間違った予測の合計数がわかります。

複数の予測可能な値の使用

[Bike Buyer] のケースは、取りうる値が 2 つしかないため、特に解釈が簡単です。 予測可能な属性が取りうる値が複数ある場合、分類マトリックスでは、取りうる値が増えるたびに実際の値の列が追加され、予測された各値が一致した数がカウントされます。 次の表は、3 つの値 (0、1、2) を取る別のモデルの結果を示しています。

[予測] 0 (実際の値) 1 (実際の値) 2 (実際の値)
0 111 3 5
1 2 123 17
2 19 0 20

列が増えたためにレポートが複雑に見えますが、この追加の詳細が、間違った予測の累積コストを評価する際に非常に役立つ場合もあります。 対角線上のセルの合計を計算したり、さまざまな行の組み合わせの結果を比較したりする際には、 [分類マトリックス] タブの [コピー] ボタンをクリックして、レポートを Excel に貼り付けることができます。 または、SQL Server 2005 (9.x) 以降のバージョンをサポートする Excel 用データ マイニング クライアントなどのクライアントを使用して、カウントとパーセンテージの両方を含む分類レポートを Excel で直接作成することもできます。 詳細については、「 SQL Server データ マイニング」を参照してください。

分類マトリックスの制限

分類マトリックスは、不連続の予測可能な属性でのみ使用できます。

[マイニング精度チャート] デザイナーの [入力の選択] タブでモデルを選択する場合、複数のモデルを追加することができますが、 [分類マトリックス] タブではモデルごとに別のマトリックスが表示されます。

次のトピックには、分類マトリックスやその他のチャートの構築方法と使用方法に関する詳細な情報が含まれています。

トピック リンク
関連するグラフの種類について説明します。 リフト チャート (Analysis Services - データ マイニング)

利益チャート (Analysis Services - データ マイニング)

散布図 (Analysis Services - データ マイニング)
マイニング モデルとマイニング構造の相互検証の使用法について説明します。 相互検証 (Analysis Services - データ マイニング)
リフト チャートおよびその他の精度チャートを作成する手順について説明します。 テスト、検証タスク、および操作方法 (データ マイニング)

参照

テストおよび検証 (データ マイニング)