ラベル データ分析 の投稿を表示しています。 すべての投稿を表示
ラベル データ分析 の投稿を表示しています。 すべての投稿を表示

2016年1月12日火曜日

現状を改革するための方策を探る

データマイングのゴールは、未来の予測


 今回は、データ解析の目的である「現状を改革するための方策を探る」

 つまり、明確になった構造に基づいた将来予測について解説します。

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る
 現状に関わる要因を探索をすることによって、

  1. 問題状況に関わる要因が明確になり、その影響がモデルによって記述される
  2. モデルの中に組み込まれた変数(説明変数)が、問題状況を表す原因になる
 1.「問題の所在に気付く」⇒4.「現状を改革するための方策を探る」によって、

 将来予測の鍵となる説明変数を発見したら、それを基にビジネス展開ができます
説明変数を基にビジネス展開



ビジネス展開


説明変数の変化を注視すれば、ビジネス全体の流れが分かります。

もし説明変数が変化しないのであれば、それを変化させる経営戦略を取ることができます。


説明変数を変化させる経営戦略



2016年1月11日月曜日

現状に関わる要因を探索する

要因探索とは、原因究明


 今回は、「現状に関わる要因を探索」。つまり、現状に関わる様々な要因の整理と構造化(要因分析)を実践します。

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る
 要因分析する場合、その要因の質と量によって、分析する手法が変わります。 

 2変数間の関連~より多くの変数間の関連と順次紹介します。

2変数間の関連を分析


量的変数とは、数値データに意味があるデータ

対して、質的データとは、意図的に数値に変換されているが、その数値自体に意味がないデータ

例:男なら1、女なら1を選択する等

量的変数間の関連

  1. 散布図による関連の図表示
  2. 相関係数による関連の強さの要約

質的変数間の関連

  1. クロス表による関連の表示
  2. カイ2乗統計量による関連の強さの要約

質的変数と量的変数間の関連

  1. 箱髭図による分布の比較
  2. 相関非による関連の強さの要約

多変量解析(より多くの変数間)


目的となる変数を予測、説明する

  1. 重回帰分析
  2. 判別分析
  3. 数量化Ⅰ
  4. 数量化Ⅱ類

数多くの変数を整理する

  1. 主成分分析
  2. 因子分析
  3. 数量化Ⅲ類

データをいくつかの群にまとめる

  1. クラスター分析

 次回は、データ解析の最後「現状を改革するための方策」について解説します。

<データ解析の流れ>
  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

2016年1月9日土曜日

データ解析の流れは4つのステップ

データ解析には手順があります


 データ分析の流れについて説明したいと思います。

 解析方法=R ソフトの利用方法を理解しても、実際分析出来ないことが多々あります。

 それはデータ解析の目的が何なのか?が、明確でないからです。
 
データ解析、どう始めたらいいだろうか?

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

 順次見ていきましょう

  • 1.問題の所在に気付く

 これはデータ解析の始まりです。「何かふと、このデータ変だなぁ~」その一瞬の違和感で十分なのです。それを客観的な数値に落とすことが、データ解析なのです。

  • 2.現状を把握し評価する

 現状を反映したデータを取得する。料理言えば、材料を揃えることです。
 そして、現状をデータによって評価する。これが以前紹介した記述統計学です。
 例えば、データの分布を調べることです。

  • 3.現状に関わる要因を探索する

 2変数間の関連を調べてみたり、より多くの変数を取り込んだモデルによって現状を記述します。
 後者は、所謂多変量解析と呼ばれます。

  • 4.現状を改善するための方策を探る

 モデルによって将来を予測し、改善策を評価します。
 例:気温によってアイスクリーム売上の予測できるなら、季節による在庫状況を管理し無駄な維持費を節約できます。

 次回は、データ解析の流れをもう少し詳しく見ていきましょう。

 

2016年1月6日水曜日

統計学の基礎的な分類

統計学の分類

データからお宝を掘り出す「データマイング」を実行するには、

 掘る技術としての「統計学」が不可欠です。

 しかし、この統計学というのは、非常に幅広い概念を含みます

 統計学は、主に「記述統計学」と「数理統計学」に分かれています。

 これは、統計学の目的の違いによって分類できます。

  • 記述統計学(データ整理に主眼)


 記述統計学は、データを整理することに主眼を置いた統計学。データ整理とは、データの特徴をおさえるために、平均値や中央値や最頻値(まとめて代表値と呼ぶ)といった単一の数値にまとめたり、グラフ化したりしてデータを利用しやすくする作業を指す。コンピューターの発達に伴い、MicrosoftExcelの表計算ソフトによって、素人とでも感覚的に記述統計学を展開できる。データを整理することによってデータ全体の状況を簡潔にすることで、たくさんの人間と情報を共有できるようになった。

  • 数理統計学(データ解析に主眼)


 数理統計学は、データ解析を主眼に置いた統計学。データ解析とは、見ただけでは判断できないデータに潜む本質を探る作業を指す。一般的に統計学をビジネスで利用する場合、この数理統計学のことを示す。記述統計学とは異なり、専門的な統計知識が必要で広い分野を扱う。データ解析専用のソフトが必要であり、RSASSPSSといったデータ解析専用ソフトも用意されている。だが、必ずしも実益に叶う情報が手に入るとは限らない。結果を出すが成果は出さないことを肝に銘じて欲しい。

  • 推測統計学(確率に主眼)


 推測統計学は、確率(発生頻度)を主眼に置いたデータ解析手法。過去の大量のデータから、調べたい現象がどの程度起きるのかを予測する。(頻度論と呼ばれる)
また、過去のデータをあまり使えず、未来に発生する経験を基に確率を予測する方法もある。(ベイズ論と呼ばれる)

  • 多変量解析(データ自体に主眼)


 多変量解析は、データに主眼を置いたデータ解析手法。たくさんの種類のデータを有機的に結びつけ、全体として価値ある情報を見出す。データの構造や分析意図によって、様々な多変量解析が存在する。その根底にあるのが、分散という概念である。分散(後述)とは、各データとの相対的な距離のことである。多変量解析でデータを有機的に結びつけるとは、分散による距離の違いを意味ある組み合わせとして定義する所から始まる。平均値などのデータの値そのものは単位の制約を受けるだけでなく、他のデータとの相互関係を結び付けるのに不自由であるため、多変量解析では値という数値そのものは重要ではない。

 つまり、データ整理を主眼とした記述統計学以外は、数理統計学(推測統計学、多変量解析)となる。だからこそデータ整理を大切にしてもらいと考えている。数理統計学は、あくまでも宝くじのようなものだ。当たるも八卦はずれも八卦。記述統計学は、すでに存在する確かなデータを理解するための統計学である。ある意味基礎中の基礎ではあるが、すでに分かり切った情報をいかに経営に活かせるかが、安定した業績へと繋がるヒントになる。

出典「Kindle Direct Publishing で安く統計学を紹介する本」

Kindle Direct Publishing で安く統計学を紹介する本