決定木(Decision Tree)について

分析の例

あるひとつの変数(たとえば,買う/買わない,購買点数/金額)に,他のどんな変数が連関しているのか(=時間的に先行しているかどうかは分析上は分からない)見てみます.ここでは,アンケートの回答によって得られた複数の設問に対する回答から,13の尺度得点を計算し,この13の尺度得点と「ブラウズ頻度」(インターネットでwebをどのくらい見るか)の連関を,決定木を描いて見ていきます.

インターネットでwebを見る頻度が,低い(1)〜高い(5)によって,どういった心理的特性が違うのか見ていきます.なお,ここでは,木を複雑にしないため,いちど分岐に使用した変数は,繰り返して(2回以上)分岐に使用しないという制約を加えて木を成長させています.

心理的特性としては,「社会的外向性」「活動性」「共感性」「進取性」「持久性」「規律性」「自己顕示性」「攻撃性」「非協調性」「劣等感」「神経質」「抑うつ性」「虚構性」の13の尺度得点を使用します.各得点は「0」〜「6」の値をとる間隔尺度です.値が大きいほどそうした特性が強いことをあらわします.

このデータについて,基準変数に「ブラウズR」(=ブラウズ頻度)を間隔尺度として,予測変数に「社会的外向性」〜「虚構性」の13変数すべてを順序尺度として,決定木を描いてみます.なお,分割の際のp-値は「0.05」(5%)より小さいとき,分割(木の成長)停止基準のF-値は「2」として計算しました.


全体(追加説明率の累計値)として,心理的特性では,インターネットの利用程度の多寡はそれほど説明しない(多少(変数を繰り返し使用しない範囲で7〜8%)は説明する)ようです.

ただ,全体の6%ほどの人しか該当しませんが,進取性が高く,うつ性が高い(鬱性は低い)と,ブラウズ頻度は高い(webをよく見る)ようです.

このケースでは,使った13変数すべてが分岐変数に選ばれましたが(実行時に木の成長をひろげない(F値を大きくする)ことはできますが,このケースでは,どの変数も効果は限定的で,この方法では,あまりあれこれ検討しすぎないほうが良いでしょう),もっと変数が多い場合に,見るべき変数を絞り込むのに有用な場合があります(たとえば以下のPDFファイル(O2O効果のいち事例)参照).

納品物サンプル

納品物サンプル(excel2010ファイル)(excel2003ファイル)

ご注意ください

戻る


(C)2001-2014 DATAEXPLORING