ラベル 多変量解析 の投稿を表示しています。 すべての投稿を表示
ラベル 多変量解析 の投稿を表示しています。 すべての投稿を表示

2016年1月11日月曜日

現状に関わる要因を探索する

要因探索とは、原因究明


 今回は、「現状に関わる要因を探索」。つまり、現状に関わる様々な要因の整理と構造化(要因分析)を実践します。

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る
 要因分析する場合、その要因の質と量によって、分析する手法が変わります。 

 2変数間の関連~より多くの変数間の関連と順次紹介します。

2変数間の関連を分析


量的変数とは、数値データに意味があるデータ

対して、質的データとは、意図的に数値に変換されているが、その数値自体に意味がないデータ

例:男なら1、女なら1を選択する等

量的変数間の関連

  1. 散布図による関連の図表示
  2. 相関係数による関連の強さの要約

質的変数間の関連

  1. クロス表による関連の表示
  2. カイ2乗統計量による関連の強さの要約

質的変数と量的変数間の関連

  1. 箱髭図による分布の比較
  2. 相関非による関連の強さの要約

多変量解析(より多くの変数間)


目的となる変数を予測、説明する

  1. 重回帰分析
  2. 判別分析
  3. 数量化Ⅰ
  4. 数量化Ⅱ類

数多くの変数を整理する

  1. 主成分分析
  2. 因子分析
  3. 数量化Ⅲ類

データをいくつかの群にまとめる

  1. クラスター分析

 次回は、データ解析の最後「現状を改革するための方策」について解説します。

<データ解析の流れ>
  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

2016年1月6日水曜日

統計学の基礎的な分類

統計学の分類

データからお宝を掘り出す「データマイング」を実行するには、

 掘る技術としての「統計学」が不可欠です。

 しかし、この統計学というのは、非常に幅広い概念を含みます

 統計学は、主に「記述統計学」と「数理統計学」に分かれています。

 これは、統計学の目的の違いによって分類できます。

  • 記述統計学(データ整理に主眼)


 記述統計学は、データを整理することに主眼を置いた統計学。データ整理とは、データの特徴をおさえるために、平均値や中央値や最頻値(まとめて代表値と呼ぶ)といった単一の数値にまとめたり、グラフ化したりしてデータを利用しやすくする作業を指す。コンピューターの発達に伴い、MicrosoftExcelの表計算ソフトによって、素人とでも感覚的に記述統計学を展開できる。データを整理することによってデータ全体の状況を簡潔にすることで、たくさんの人間と情報を共有できるようになった。

  • 数理統計学(データ解析に主眼)


 数理統計学は、データ解析を主眼に置いた統計学。データ解析とは、見ただけでは判断できないデータに潜む本質を探る作業を指す。一般的に統計学をビジネスで利用する場合、この数理統計学のことを示す。記述統計学とは異なり、専門的な統計知識が必要で広い分野を扱う。データ解析専用のソフトが必要であり、RSASSPSSといったデータ解析専用ソフトも用意されている。だが、必ずしも実益に叶う情報が手に入るとは限らない。結果を出すが成果は出さないことを肝に銘じて欲しい。

  • 推測統計学(確率に主眼)


 推測統計学は、確率(発生頻度)を主眼に置いたデータ解析手法。過去の大量のデータから、調べたい現象がどの程度起きるのかを予測する。(頻度論と呼ばれる)
また、過去のデータをあまり使えず、未来に発生する経験を基に確率を予測する方法もある。(ベイズ論と呼ばれる)

  • 多変量解析(データ自体に主眼)


 多変量解析は、データに主眼を置いたデータ解析手法。たくさんの種類のデータを有機的に結びつけ、全体として価値ある情報を見出す。データの構造や分析意図によって、様々な多変量解析が存在する。その根底にあるのが、分散という概念である。分散(後述)とは、各データとの相対的な距離のことである。多変量解析でデータを有機的に結びつけるとは、分散による距離の違いを意味ある組み合わせとして定義する所から始まる。平均値などのデータの値そのものは単位の制約を受けるだけでなく、他のデータとの相互関係を結び付けるのに不自由であるため、多変量解析では値という数値そのものは重要ではない。

 つまり、データ整理を主眼とした記述統計学以外は、数理統計学(推測統計学、多変量解析)となる。だからこそデータ整理を大切にしてもらいと考えている。数理統計学は、あくまでも宝くじのようなものだ。当たるも八卦はずれも八卦。記述統計学は、すでに存在する確かなデータを理解するための統計学である。ある意味基礎中の基礎ではあるが、すでに分かり切った情報をいかに経営に活かせるかが、安定した業績へと繋がるヒントになる。

出典「Kindle Direct Publishing で安く統計学を紹介する本」

Kindle Direct Publishing で安く統計学を紹介する本