ゼロから始めるデータ解析・データマイニング: 数量化Ⅱ類

数量化Ⅱ類とは、

１つの質的変数によって与えられたサンプル（個体）の群を、複数の質的変数（多変量データ）によって判別することです。

例：タバコを吸うか否かを、父親の喫煙習慣と本人の飲酒習慣によって判別（予測）する

複数の変数に重みを与え、その加重合計（合成変数）によって外的基準に基づく群を判別する「判別式モデル」を求めます。

実際に分析の流れを見てみましょう。

タイタニックに乗っていた乗客のデータ

タイタニックの乗客データから、生存する条件を導き出す。

ここでウエイトとして表現されているのが、生存条件に関わる要因です。

この場合は、客室では１等客室、年齢では子供、性別では女性という条件が、生存する条件に関わっています。

ここで注意することは、この値が高い⇒生存する確率が高いわけではありません。

今回は、この値が高い人が生存する結果になりました。

このウエイトは、分析結果の振り分けがうまくいくために、各変数に与えた影響力です。

重み＝ウエイト

客室と年齢と性別の条件を基に、生死をうまく説明するために用意されたのがウエイトです。覚えておきましょう。