「Microsoft シーケンス クラスター アルゴリズム」
適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
データ マイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。 非推奨および停止された機能については、ドキュメントの更新は行われません。 詳細については、「Analysis Services 下位互換性」を参照してください。
Microsoft シーケンス クラスタリング アルゴリズムは、シーケンス分析とクラスタリングを組み合わせた独自のアルゴリズムです。 このアルゴリズムを使用すると、 シーケンスでリンク可能なイベントを含むデータを調べることができます。 アルゴリズムは最も一般的なシーケンスを検索し、クラスタリングを実行して類似するシーケンスを検索します。 次の例では、機械学習用にデータを取り込むことができるシーケンスの種類を示し、一般的な問題やビジネス シナリオの理解を深めます。
ユーザーによる Web サイト閲覧時に生成されるクリック ストリームまたはクリック パス
ハード ディスク障害やサーバーのデッドロックなどの事象に先立つイベントを示すログ
オンラインのショッピング カートで顧客が商品を買い物かごに追加する順序を示すトランザクション レコード
サービスのキャンセルやその他の好ましくない結果を予測するために顧客または患者の操作を記録したレコード
このアルゴリズムは、Microsoft クラスタリング アルゴリズムと多くの点で似ています。 ただし、類似した属性を含むケースのクラスターを検索する代わりに、Microsoft シーケンス クラスタリング アルゴリズムは、シーケンス内に類似のパスを含むケースのクラスターを検索します。
例
Adventure Works Cycles Web サイトは、サイト ユーザーがアクセスするページと、ページがアクセスされる順序に関する情報を収集します。 顧客は、サイトにログインしてオンラインで注文することができます。 これにより、各顧客プロファイルに対するクリック情報が得られます。 このデータに対して Microsoft シーケンス クラスタリング アルゴリズムを使用すると、類似したパターンまたはクリック シーケンスを持つ顧客のグループ (クラスター) を検索できます。 次に、これらのクラスターを使用して、顧客の Web サイト内での移動状況の分析、特定の製品の売上に最も密接に関連しているページの識別、次に閲覧される可能性が高いページの予測などが実行できます。
アルゴリズムの動作
Microsoft シーケンス クラスタリング アルゴリズムは、クラスターの手法と Markov チェーン分析を組み合わせてクラスターとそのシーケンスを識別するハイブリッド アルゴリズムです。 Microsoft シーケンス クラスタリング アルゴリズムの特徴の 1 つは、シーケンス データを使用することです。 このデータは通常、特定ユーザーによる一連の製品購入や Web でのクリックなど、データセット内の一連のイベントや状態間の遷移を表します。 クラスタリング用の入力として使用するのに適したシーケンスを判断するために、アルゴリズムはすべての遷移の確率を調べ、データセット内の有効なすべてのシーケンス間の差異または距離を測定します。 候補となるシーケンスの一覧がアルゴリズムによって作成された後、Expectation Maximization (EM) を使用してクラスタリング用の入力としてシーケンス情報を使用します。
実装の詳細については、「 Microsoft シーケンス クラスタリング アルゴリズム テクニカル リファレンス」を参照してください。
シーケンス クラスター モデルに必要なデータ
シーケンス クラスター モデルのトレーニングに使用するデータを用意する際には、必要なデータ量やデータの使用方法など、このアルゴリズムにおける要件を把握しておいてください。
シーケンス クラスター モデルの要件は次のとおりです。
1 つのキー列 シーケンス クラスター モデルでは、レコードを識別するキーが必要です。
シーケンス列 シーケンス データの場合、モデルにはシーケンス ID 列を含む入れ子になったテーブルが必要です。 シーケンス ID には、任意の並べ替え可能なデータ型を使用できます。 たとえば、この列でシーケンス内のイベントを識別できる限り、Web ページ識別子、整数、またはテキスト文字列を使用できます。 各シーケンスが持てるシーケンス ID は 1 つのみ、また、各モデルが持てるシーケンスの種類は 1 種類のみです。
省略可能な非シーケンス属性 このアルゴリズムでは、シーケンス化に無関係な他の属性を追加することができます。 これらの属性には、入れ子になった列を含めることができます。
たとえば、前述の Adventure Works Cycles Web サイトの例では、シーケンス クラスタリング モデルには、ケース テーブルとしての注文情報、非シーケンス属性としての各注文の特定の顧客に関する人口統計、顧客がサイトを閲覧したシーケンスを含む入れ子になったテーブル、またはシーケンス情報としてショッピング カートにアイテムを配置するシーケンスが含まれる場合があります。
シーケンス クラスター モデルでサポートされるコンテンツの種類とデータ型の詳細については、「 Microsoft シーケンス クラスタリング アルゴリズム テクニカル リファレンス」の「必要条件」を参照してください。
シーケンス クラスター モデルの表示
このアルゴリズムが作成するマイニング モデルには、データ内の最も一般的なシーケンスの説明が含まれています。 モデルを参照するには、 Microsoft シーケンス クラスター ビューアーを使用します。 シーケンス クラスタリング モデルを表示すると、SQL Server Analysis Services複数の遷移を含むクラスターが表示されます。 関連する統計情報も表示できます。 詳細については、「 Microsoft シーケンス クラスター ビューアーを使用したモデルの参照」を参照してください。
さらに詳細を知るには、 Microsoft 汎用コンテンツ ツリー ビューアーでモデルを参照してください。 モデルに保存される内容には、各ノードのすべての値の分布、各クラスターの確率、および遷移に関する詳細が含まれます。 詳細については、「 シーケンス クラスタリング モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
予測の作成
モデルのトレーニング後、結果がパターンのセットとして保存されます。 データ内の最も一般的なシーケンスの説明を使用して、新しいシーケンスの次に来る可能性の高いステップを予測できます。 ただし、アルゴリズムには他の列が含まれるため、結果として得られるモデルを使用して、シーケンス化されたデータとシーケンシャルではない入力との間の関係を識別できます。 たとえば、モデルに人口統計データを追加すると、特定の顧客グループに対する予測を実行できます。 さまざまな数の予測を返したり、説明的な統計情報を返したりするように、予測クエリをカスタマイズできます。
データ マイニング モデルに対するクエリの作成方法については、「 データ マイニング クエリ」を参照してください。 シーケンス クラスター モデルでクエリを使用する方法の例については、「 シーケンス クラスター モデルのクエリの例」を参照してください。
注釈
Predictive Model Markup Language (PMML) を使用したマイニング モデルの作成はサポートされていません。
ドリルスルーがサポートされています。
OLAP マイニング モデルの使用およびデータ マイニング ディメンションの作成がサポートされています。
参照
データ マイニング アルゴリズム (Analysis Services - データ マイニング)
Microsoft シーケンス クラスタリング アルゴリズム テクニカル リファレンス
Sequence Clustering Model Query Examples
Microsoft シーケンス クラスター ビューアーを使用したモデルの参照