統計学の分類
データからお宝を掘り出す「データマイング」を実行するには、掘る技術としての「統計学」が不可欠です。
しかし、この統計学というのは、非常に幅広い概念を含みます。
統計学は、主に「記述統計学」と「数理統計学」に分かれています。
これは、統計学の目的の違いによって分類できます。
- 記述統計学(データ整理に主眼)
記述統計学は、データを整理することに主眼を置いた統計学。データ整理とは、データの特徴をおさえるために、平均値や中央値や最頻値(まとめて代表値と呼ぶ)といった単一の数値にまとめたり、グラフ化したりしてデータを利用しやすくする作業を指す。コンピューターの発達に伴い、MicrosoftのExcelの表計算ソフトによって、素人とでも感覚的に記述統計学を展開できる。データを整理することによってデータ全体の状況を簡潔にすることで、たくさんの人間と情報を共有できるようになった。
- 数理統計学(データ解析に主眼)
数理統計学は、データ解析を主眼に置いた統計学。データ解析とは、見ただけでは判断できないデータに潜む本質を探る作業を指す。一般的に統計学をビジネスで利用する場合、この数理統計学のことを示す。記述統計学とは異なり、専門的な統計知識が必要で広い分野を扱う。データ解析専用のソフトが必要であり、RやSASやSPSSといったデータ解析専用ソフトも用意されている。だが、必ずしも実益に叶う情報が手に入るとは限らない。結果を出すが成果は出さないことを肝に銘じて欲しい。
- 推測統計学(確率に主眼)
推測統計学は、確率(発生頻度)を主眼に置いたデータ解析手法。過去の大量のデータから、調べたい現象がどの程度起きるのかを予測する。(頻度論と呼ばれる)
また、過去のデータをあまり使えず、未来に発生する経験を基に確率を予測する方法もある。(ベイズ論と呼ばれる)
- 多変量解析(データ自体に主眼)
多変量解析は、データに主眼を置いたデータ解析手法。たくさんの種類のデータを有機的に結びつけ、全体として価値ある情報を見出す。データの構造や分析意図によって、様々な多変量解析が存在する。その根底にあるのが、分散という概念である。分散(後述)とは、各データとの相対的な距離のことである。多変量解析でデータを有機的に結びつけるとは、分散による距離の違いを意味ある組み合わせとして定義する所から始まる。平均値などのデータの値そのものは単位の制約を受けるだけでなく、他のデータとの相互関係を結び付けるのに不自由であるため、多変量解析では値という数値そのものは重要ではない。
つまり、データ整理を主眼とした記述統計学以外は、数理統計学(推測統計学、多変量解析)となる。だからこそデータ整理を大切にしてもらいと考えている。数理統計学は、あくまでも宝くじのようなものだ。当たるも八卦はずれも八卦。記述統計学は、すでに存在する確かなデータを理解するための統計学である。ある意味基礎中の基礎ではあるが、すでに分かり切った情報をいかに経営に活かせるかが、安定した業績へと繋がるヒントになる。
出典「Kindle Direct Publishing で安く統計学を紹介する本」