ラベル 統計学 の投稿を表示しています。 すべての投稿を表示
ラベル 統計学 の投稿を表示しています。 すべての投稿を表示

2016年1月11日月曜日

現状に関わる要因を探索する

要因探索とは、原因究明


 今回は、「現状に関わる要因を探索」。つまり、現状に関わる様々な要因の整理と構造化(要因分析)を実践します。

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る
 要因分析する場合、その要因の質と量によって、分析する手法が変わります。 

 2変数間の関連~より多くの変数間の関連と順次紹介します。

2変数間の関連を分析


量的変数とは、数値データに意味があるデータ

対して、質的データとは、意図的に数値に変換されているが、その数値自体に意味がないデータ

例:男なら1、女なら1を選択する等

量的変数間の関連

  1. 散布図による関連の図表示
  2. 相関係数による関連の強さの要約

質的変数間の関連

  1. クロス表による関連の表示
  2. カイ2乗統計量による関連の強さの要約

質的変数と量的変数間の関連

  1. 箱髭図による分布の比較
  2. 相関非による関連の強さの要約

多変量解析(より多くの変数間)


目的となる変数を予測、説明する

  1. 重回帰分析
  2. 判別分析
  3. 数量化Ⅰ
  4. 数量化Ⅱ類

数多くの変数を整理する

  1. 主成分分析
  2. 因子分析
  3. 数量化Ⅲ類

データをいくつかの群にまとめる

  1. クラスター分析

 次回は、データ解析の最後「現状を改革するための方策」について解説します。

<データ解析の流れ>
  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

2016年1月9日土曜日

データ解析で必要な「現状の正確な把握」

問題の所在に気づいたら 


 統計解析をしようとやる気があるが、その後をどうすれば良いのか分からない方が多いです。

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

今回は、この中の「現状を把握し評価する」を詳しく説明します。つまり、記述統計学の方法論の話になります。

<現状の正確な把握>


 現状を的確に反映したデータの取得とは?

 適切な
  1.  調査対象の(母集団)の設定
  2.  調本の抽出
  3.  調査項目の設定
  4.  調査の実施
 が必要となります。

 標本抽出法、様々な調査法、実施に関わる様々なノウハウ等に関しては、

 データ解析の勉強ではなく、社会調査の勉強が必要となります。

 これらは、データ分析をする以前の話になりますが、データ解析をする前提となります。

 いい加減なデータでは、どんな分析を方法を用いても意味がありません。

 
母集団・標本って何?


 調べたい対象を母集団と呼びます。

 日本人の平均的な貯蓄額を調べたいなら、日本人の平均的な貯蓄額が、母集団になります。

 当然、日本人全員に貯蓄額を聞くのは大変です。

 そこで、一部の日本人の貯蓄額を調べて、日本人の平均的な貯蓄額を予測します。

 この時の、一部の日本人を標本と呼びます。
 
 もし、一部の日本人を選定する時に、「六本木ヒルズの近くに住む日本人」と設定したらどうでしょう?

 きっと、本来調べたい日本人の平均的な貯蓄額を大きく上回るでしょう。

六本木ヒルズの近くに住む日本人

 例えが極端でしたが、では「日本人の平均的な貯蓄額」を調べるために、

 いったいどの日本人を調べればいいのでしょうか?

 正しい答えはありませんので、各々が考えるデータ収集を実践してみてください。

<取得したデータに基づく現状の把握>


 データ分布を調べ、現状を評価します。

 統計的道具は、以下3つの用途によって分類されています。

分布の状況を図で示す方法

  1. 度数分布表
  2. ヒストグラム箱髭図
  3. 幹葉表示

分布の状況を要約する指標

  1. 平均値
  2. 標準偏差
  3. 中央値
  4. 四分位偏差
  5. 偏差値

分析結果の確からしさを保障する方法(別の回で紹介します)

  1. 統計的仮説検定
  2. 推定
 使いながら慣れていきましょう。

データ解析の流れは4つのステップ

データ解析には手順があります


 データ分析の流れについて説明したいと思います。

 解析方法=R ソフトの利用方法を理解しても、実際分析出来ないことが多々あります。

 それはデータ解析の目的が何なのか?が、明確でないからです。
 
データ解析、どう始めたらいいだろうか?

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

 順次見ていきましょう

  • 1.問題の所在に気付く

 これはデータ解析の始まりです。「何かふと、このデータ変だなぁ~」その一瞬の違和感で十分なのです。それを客観的な数値に落とすことが、データ解析なのです。

  • 2.現状を把握し評価する

 現状を反映したデータを取得する。料理言えば、材料を揃えることです。
 そして、現状をデータによって評価する。これが以前紹介した記述統計学です。
 例えば、データの分布を調べることです。

  • 3.現状に関わる要因を探索する

 2変数間の関連を調べてみたり、より多くの変数を取り込んだモデルによって現状を記述します。
 後者は、所謂多変量解析と呼ばれます。

  • 4.現状を改善するための方策を探る

 モデルによって将来を予測し、改善策を評価します。
 例:気温によってアイスクリーム売上の予測できるなら、季節による在庫状況を管理し無駄な維持費を節約できます。

 次回は、データ解析の流れをもう少し詳しく見ていきましょう。

 

2016年1月7日木曜日

記述統計学実践編

記述統計学とは、データを見易くすること


 データを整理して誰でも見易くする「記述統計学」を実践してみましょう。

 R Consoleにデータ(Aテストの点数)を入力し、平均と分散を表示させてみます。



Aテストの結果
Aテストの点数結果と平均点と分散

  • 平均値:72.4
  • 分散:259.3778


 分散(データの散らばり具合)に関しては、他のテストの点数結果を比較する時に使います

 例えば、Bテストの結果がこんな結果となった場合

Bテストの結果
Bテストの点数結果と平均点と分散
  • 平均値:78.1
  • 分散:225.8778

記述統計学から分かること


 AテストとBテストでは、Bテストの成績が良かったという評価ができる。(先生視点

 Aテストでは、Bテストと比べて、出来る人と出来ない人の差が激しい。(生徒視点

 つまり、生徒の能力を正しく判定するテストの出来は、

 分散が小さいBテストが優れていると考えられる。

 分散1つで、テストの善し悪しを評価出来るのは、記述統計学の強み。

 では視覚的な視点で、データを見るとどうでしょうか?

描画コマンド
par(mfrow=c(2,1)):描画を表示する画面を、2行1列で表示する
br <- seq(40,100,15):40~100までを15等間隔でデータを入力
br::「40,55,70,85,100」
hist(A,breaks=br,prob=T):Aのデータ、breaksはx軸の目盛、probは相対頻度を表す


ヒストグラム
ヒストグラム
 
 視覚的に表示することによって、数字だけの統計結果をやんわりさせることができます。

 AテストとBテストのヒストグラムでは、なかなか分かりづらいですね。

 図と数字両方をうまく使い分けることが大切です。