ラベル 主成分分析 の投稿を表示しています。 すべての投稿を表示
ラベル 主成分分析 の投稿を表示しています。 すべての投稿を表示

2016年2月16日火曜日

大量のデータに困ったら、データを要約する「主成分分析」

主成分分析とは? 


複数の変数間の相関関係を手がかりとして変数をまとめ・要約し、元のデータの持つ情報をできるだけ少ない合成変数で再現することです。

データの縮約=変数間の関連を規定している潜在的な要因(因子)の抽出
が主な目的です。

できるだけ多くの情報を説明するためには以下のモデル式の構築が必要です。

モデル式


合成変数を組み立てる各変数に対する重み(主成分負荷量)を求めます。

主成分分析のモデル式


複数の変数に重みを与えた加重合計(合成変数)によって、元のデータ情報をできるだけ多く吸収します。

具体例:国、社、数、理のテスト結果を、少ない変数でまとめる。

複数の変数に重みを与えた加重合計(合成変数)によって、元のデータ情報をできるだけ多く吸収します。

国、社、数、理の各テストの点数を見なくても、合成変数を見るだけでテスト評価できます。
実際に分析してみましょう。

分析データ(国、社、数、理のテスト結果)


国、社、数、理のテスト結果

国、社、数、理のテスト結果

分析結果

主成分分析結果
主成分スコア:合成変数を組み立てる各変数に対する重み(主成分負荷量)
主成分スコアは、合成変数の増減の結果です。
主成分スコアの結果と分析データの関係性から、主成分負荷量が何であるかを推測することができます。

例えば、国語、社会の点数が高いと高い、第1主成分は文系力を表します。
逆に、数学、理科の点数が高いいと高い、第2主成分は理系力を表します。

主成分分析の注意点:データの単位に気をつける


前提知識として、主成分分析はデータの(ばらつき)分散を利用しています。
上記のテスト点数は、同じ単位で測定されており、観測値のバラツキの大きさ(分散)が重要な意味を持ちます。
しかし、単位が異なったり極端な分散データがある場合はそのまま主成分分析をしてはいけません。

理由

単位が変化するだけでばらつき(分散)の値が変化してしまいます。そのため、分散を綺麗に整える標準化が必要になります。