2016年1月9日土曜日

データ解析で必要な「現状の正確な把握」

問題の所在に気づいたら 


 統計解析をしようとやる気があるが、その後をどうすれば良いのか分からない方が多いです。

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

今回は、この中の「現状を把握し評価する」を詳しく説明します。つまり、記述統計学の方法論の話になります。

<現状の正確な把握>


 現状を的確に反映したデータの取得とは?

 適切な
  1.  調査対象の(母集団)の設定
  2.  調本の抽出
  3.  調査項目の設定
  4.  調査の実施
 が必要となります。

 標本抽出法、様々な調査法、実施に関わる様々なノウハウ等に関しては、

 データ解析の勉強ではなく、社会調査の勉強が必要となります。

 これらは、データ分析をする以前の話になりますが、データ解析をする前提となります。

 いい加減なデータでは、どんな分析を方法を用いても意味がありません。

 
母集団・標本って何?


 調べたい対象を母集団と呼びます。

 日本人の平均的な貯蓄額を調べたいなら、日本人の平均的な貯蓄額が、母集団になります。

 当然、日本人全員に貯蓄額を聞くのは大変です。

 そこで、一部の日本人の貯蓄額を調べて、日本人の平均的な貯蓄額を予測します。

 この時の、一部の日本人を標本と呼びます。
 
 もし、一部の日本人を選定する時に、「六本木ヒルズの近くに住む日本人」と設定したらどうでしょう?

 きっと、本来調べたい日本人の平均的な貯蓄額を大きく上回るでしょう。

六本木ヒルズの近くに住む日本人

 例えが極端でしたが、では「日本人の平均的な貯蓄額」を調べるために、

 いったいどの日本人を調べればいいのでしょうか?

 正しい答えはありませんので、各々が考えるデータ収集を実践してみてください。

<取得したデータに基づく現状の把握>


 データ分布を調べ、現状を評価します。

 統計的道具は、以下3つの用途によって分類されています。

分布の状況を図で示す方法

  1. 度数分布表
  2. ヒストグラム箱髭図
  3. 幹葉表示

分布の状況を要約する指標

  1. 平均値
  2. 標準偏差
  3. 中央値
  4. 四分位偏差
  5. 偏差値

分析結果の確からしさを保障する方法(別の回で紹介します)

  1. 統計的仮説検定
  2. 推定
 使いながら慣れていきましょう。

0 件のコメント:

コメントを投稿