ラベル 記述統計学 の投稿を表示しています。 すべての投稿を表示
ラベル 記述統計学 の投稿を表示しています。 すべての投稿を表示

2016年1月9日土曜日

データ解析で必要な「現状の正確な把握」

問題の所在に気づいたら 


 統計解析をしようとやる気があるが、その後をどうすれば良いのか分からない方が多いです。

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

今回は、この中の「現状を把握し評価する」を詳しく説明します。つまり、記述統計学の方法論の話になります。

<現状の正確な把握>


 現状を的確に反映したデータの取得とは?

 適切な
  1.  調査対象の(母集団)の設定
  2.  調本の抽出
  3.  調査項目の設定
  4.  調査の実施
 が必要となります。

 標本抽出法、様々な調査法、実施に関わる様々なノウハウ等に関しては、

 データ解析の勉強ではなく、社会調査の勉強が必要となります。

 これらは、データ分析をする以前の話になりますが、データ解析をする前提となります。

 いい加減なデータでは、どんな分析を方法を用いても意味がありません。

 
母集団・標本って何?


 調べたい対象を母集団と呼びます。

 日本人の平均的な貯蓄額を調べたいなら、日本人の平均的な貯蓄額が、母集団になります。

 当然、日本人全員に貯蓄額を聞くのは大変です。

 そこで、一部の日本人の貯蓄額を調べて、日本人の平均的な貯蓄額を予測します。

 この時の、一部の日本人を標本と呼びます。
 
 もし、一部の日本人を選定する時に、「六本木ヒルズの近くに住む日本人」と設定したらどうでしょう?

 きっと、本来調べたい日本人の平均的な貯蓄額を大きく上回るでしょう。

六本木ヒルズの近くに住む日本人

 例えが極端でしたが、では「日本人の平均的な貯蓄額」を調べるために、

 いったいどの日本人を調べればいいのでしょうか?

 正しい答えはありませんので、各々が考えるデータ収集を実践してみてください。

<取得したデータに基づく現状の把握>


 データ分布を調べ、現状を評価します。

 統計的道具は、以下3つの用途によって分類されています。

分布の状況を図で示す方法

  1. 度数分布表
  2. ヒストグラム箱髭図
  3. 幹葉表示

分布の状況を要約する指標

  1. 平均値
  2. 標準偏差
  3. 中央値
  4. 四分位偏差
  5. 偏差値

分析結果の確からしさを保障する方法(別の回で紹介します)

  1. 統計的仮説検定
  2. 推定
 使いながら慣れていきましょう。

2016年1月7日木曜日

記述統計学実践編

記述統計学とは、データを見易くすること


 データを整理して誰でも見易くする「記述統計学」を実践してみましょう。

 R Consoleにデータ(Aテストの点数)を入力し、平均と分散を表示させてみます。



Aテストの結果
Aテストの点数結果と平均点と分散

  • 平均値:72.4
  • 分散:259.3778


 分散(データの散らばり具合)に関しては、他のテストの点数結果を比較する時に使います

 例えば、Bテストの結果がこんな結果となった場合

Bテストの結果
Bテストの点数結果と平均点と分散
  • 平均値:78.1
  • 分散:225.8778

記述統計学から分かること


 AテストとBテストでは、Bテストの成績が良かったという評価ができる。(先生視点

 Aテストでは、Bテストと比べて、出来る人と出来ない人の差が激しい。(生徒視点

 つまり、生徒の能力を正しく判定するテストの出来は、

 分散が小さいBテストが優れていると考えられる。

 分散1つで、テストの善し悪しを評価出来るのは、記述統計学の強み。

 では視覚的な視点で、データを見るとどうでしょうか?

描画コマンド
par(mfrow=c(2,1)):描画を表示する画面を、2行1列で表示する
br <- seq(40,100,15):40~100までを15等間隔でデータを入力
br::「40,55,70,85,100」
hist(A,breaks=br,prob=T):Aのデータ、breaksはx軸の目盛、probは相対頻度を表す


ヒストグラム
ヒストグラム
 
 視覚的に表示することによって、数字だけの統計結果をやんわりさせることができます。

 AテストとBテストのヒストグラムでは、なかなか分かりづらいですね。

 図と数字両方をうまく使い分けることが大切です。

 


 



2016年1月6日水曜日

統計学の基礎的な分類

統計学の分類

データからお宝を掘り出す「データマイング」を実行するには、

 掘る技術としての「統計学」が不可欠です。

 しかし、この統計学というのは、非常に幅広い概念を含みます

 統計学は、主に「記述統計学」と「数理統計学」に分かれています。

 これは、統計学の目的の違いによって分類できます。

  • 記述統計学(データ整理に主眼)


 記述統計学は、データを整理することに主眼を置いた統計学。データ整理とは、データの特徴をおさえるために、平均値や中央値や最頻値(まとめて代表値と呼ぶ)といった単一の数値にまとめたり、グラフ化したりしてデータを利用しやすくする作業を指す。コンピューターの発達に伴い、MicrosoftExcelの表計算ソフトによって、素人とでも感覚的に記述統計学を展開できる。データを整理することによってデータ全体の状況を簡潔にすることで、たくさんの人間と情報を共有できるようになった。

  • 数理統計学(データ解析に主眼)


 数理統計学は、データ解析を主眼に置いた統計学。データ解析とは、見ただけでは判断できないデータに潜む本質を探る作業を指す。一般的に統計学をビジネスで利用する場合、この数理統計学のことを示す。記述統計学とは異なり、専門的な統計知識が必要で広い分野を扱う。データ解析専用のソフトが必要であり、RSASSPSSといったデータ解析専用ソフトも用意されている。だが、必ずしも実益に叶う情報が手に入るとは限らない。結果を出すが成果は出さないことを肝に銘じて欲しい。

  • 推測統計学(確率に主眼)


 推測統計学は、確率(発生頻度)を主眼に置いたデータ解析手法。過去の大量のデータから、調べたい現象がどの程度起きるのかを予測する。(頻度論と呼ばれる)
また、過去のデータをあまり使えず、未来に発生する経験を基に確率を予測する方法もある。(ベイズ論と呼ばれる)

  • 多変量解析(データ自体に主眼)


 多変量解析は、データに主眼を置いたデータ解析手法。たくさんの種類のデータを有機的に結びつけ、全体として価値ある情報を見出す。データの構造や分析意図によって、様々な多変量解析が存在する。その根底にあるのが、分散という概念である。分散(後述)とは、各データとの相対的な距離のことである。多変量解析でデータを有機的に結びつけるとは、分散による距離の違いを意味ある組み合わせとして定義する所から始まる。平均値などのデータの値そのものは単位の制約を受けるだけでなく、他のデータとの相互関係を結び付けるのに不自由であるため、多変量解析では値という数値そのものは重要ではない。

 つまり、データ整理を主眼とした記述統計学以外は、数理統計学(推測統計学、多変量解析)となる。だからこそデータ整理を大切にしてもらいと考えている。数理統計学は、あくまでも宝くじのようなものだ。当たるも八卦はずれも八卦。記述統計学は、すでに存在する確かなデータを理解するための統計学である。ある意味基礎中の基礎ではあるが、すでに分かり切った情報をいかに経営に活かせるかが、安定した業績へと繋がるヒントになる。

出典「Kindle Direct Publishing で安く統計学を紹介する本」

Kindle Direct Publishing で安く統計学を紹介する本