ラベル 統計解析 の投稿を表示しています。 すべての投稿を表示
ラベル 統計解析 の投稿を表示しています。 すべての投稿を表示

2016年1月9日土曜日

データ解析で必要な「現状の正確な把握」

問題の所在に気づいたら 


 統計解析をしようとやる気があるが、その後をどうすれば良いのか分からない方が多いです。

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

今回は、この中の「現状を把握し評価する」を詳しく説明します。つまり、記述統計学の方法論の話になります。

<現状の正確な把握>


 現状を的確に反映したデータの取得とは?

 適切な
  1.  調査対象の(母集団)の設定
  2.  調本の抽出
  3.  調査項目の設定
  4.  調査の実施
 が必要となります。

 標本抽出法、様々な調査法、実施に関わる様々なノウハウ等に関しては、

 データ解析の勉強ではなく、社会調査の勉強が必要となります。

 これらは、データ分析をする以前の話になりますが、データ解析をする前提となります。

 いい加減なデータでは、どんな分析を方法を用いても意味がありません。

 
母集団・標本って何?


 調べたい対象を母集団と呼びます。

 日本人の平均的な貯蓄額を調べたいなら、日本人の平均的な貯蓄額が、母集団になります。

 当然、日本人全員に貯蓄額を聞くのは大変です。

 そこで、一部の日本人の貯蓄額を調べて、日本人の平均的な貯蓄額を予測します。

 この時の、一部の日本人を標本と呼びます。
 
 もし、一部の日本人を選定する時に、「六本木ヒルズの近くに住む日本人」と設定したらどうでしょう?

 きっと、本来調べたい日本人の平均的な貯蓄額を大きく上回るでしょう。

六本木ヒルズの近くに住む日本人

 例えが極端でしたが、では「日本人の平均的な貯蓄額」を調べるために、

 いったいどの日本人を調べればいいのでしょうか?

 正しい答えはありませんので、各々が考えるデータ収集を実践してみてください。

<取得したデータに基づく現状の把握>


 データ分布を調べ、現状を評価します。

 統計的道具は、以下3つの用途によって分類されています。

分布の状況を図で示す方法

  1. 度数分布表
  2. ヒストグラム箱髭図
  3. 幹葉表示

分布の状況を要約する指標

  1. 平均値
  2. 標準偏差
  3. 中央値
  4. 四分位偏差
  5. 偏差値

分析結果の確からしさを保障する方法(別の回で紹介します)

  1. 統計的仮説検定
  2. 推定
 使いながら慣れていきましょう。

データ解析の流れは4つのステップ

データ解析には手順があります


 データ分析の流れについて説明したいと思います。

 解析方法=R ソフトの利用方法を理解しても、実際分析出来ないことが多々あります。

 それはデータ解析の目的が何なのか?が、明確でないからです。
 
データ解析、どう始めたらいいだろうか?

<データ解析の流れ>

  1. 問題の所在に気付く
  2. 現状を把握し評価する
  3. 現状に関わる要因を探索する
  4. 現状を改革するための方策を探る

 順次見ていきましょう

  • 1.問題の所在に気付く

 これはデータ解析の始まりです。「何かふと、このデータ変だなぁ~」その一瞬の違和感で十分なのです。それを客観的な数値に落とすことが、データ解析なのです。

  • 2.現状を把握し評価する

 現状を反映したデータを取得する。料理言えば、材料を揃えることです。
 そして、現状をデータによって評価する。これが以前紹介した記述統計学です。
 例えば、データの分布を調べることです。

  • 3.現状に関わる要因を探索する

 2変数間の関連を調べてみたり、より多くの変数を取り込んだモデルによって現状を記述します。
 後者は、所謂多変量解析と呼ばれます。

  • 4.現状を改善するための方策を探る

 モデルによって将来を予測し、改善策を評価します。
 例:気温によってアイスクリーム売上の予測できるなら、季節による在庫状況を管理し無駄な維持費を節約できます。

 次回は、データ解析の流れをもう少し詳しく見ていきましょう。

 

2016年1月5日火曜日

データマイングで初めにやるべき「データの整形」

データ分析で1番重要な「データ」の整理


 データ分析では、大量のデータ群を全て分析するわけではありません

 必要な要所要所を取りだすことも、データマイングでは欠かせない技術になります。

 今回は、データを取り出す方法を紹介します。

データを取り出す「subset」関数


subset(元のデータ、抜き出す条件)

抜きだす条件によって、さまざまな条件のデータを取り出すことができます。

①:変数を指定して取り出す


subset(dat, select=c("kokugo","sugaku"))

※変数を選択する場合は、selectを使用する

②:A組のデータだけ抜き出す


subset(dat,dat$class=="A")

※$で変数指定、==は=と同義

③:欠損値のないデータを抜き出す


subset(dat, complete.case(dat))

※欠損値のないデータは、complete.case


次回は、R のソフトを使う前提として統計学を勉強します。

2016年1月4日月曜日

分析するデータの種類とデータ構造を知ろう

数字だけを分析するわけではないデータマイング


 データ解析と言われると、数字だけを分析すると思われるかもしません。

 しかし、分析する対象には、「Yes or No」 のアンケート調査や、

 データが集められなかった場合の空データも存在します。

 R で扱うデータの種類、そしてデータ構造を紹介します。

<データの種類>


整数


実数


複素数


実数 a, b と虚数単位 i を用いて a + bi と表せる数のこと

文字列


数値データ以外を指します。

論理値


論理値は、「正しいか、正しくないか」という意味で、

表現としては、「TRUE or FALSE」を使います。

空値


空値とは、何もないことをを表す。決して「ゼロ」という意味ではありません。

ちなみに空値は、「NULL」と表現されます。

<データ構造>


①ベクトル


複数の数値を合わせたデータ構造

例1:x <- c(1,2,3)

※cは関数「conbine」、結合するという意味

この場合、x は、1でも2でも3でもなく、3つの数字のセットと考えます。

R では、データ集合をベクトルとしてよく利用します。

②行列


 数値を長方形に並べたもので、matrix関数で作成する

 matrix(ベクトル,行または列の数)

例3:matrix(c(1,2,3,4,5,6), ncol=3) ncol は行を、nrowは列の数を指定できる

行列







次回はRでよく使われる関数に焦点を当てます。

ここまでで質問がありましたら気軽にメールを下さい。データ解析の相談でも構いません。




2016年1月2日土曜日

視覚的に操作できる「R コマンダー」

Rコマンダーのインストール方法


 R コマンダーは、Excel や SPSS のようにマウスやダイアロボロックスを使った

GUI(視覚的に操作できる)を、R に持たせるパッケージです。

インストールは、前回と同じ、「R console」 のコマンドから実行します。

「R コマンダー」のインストール方法と起動方法


Ⅰ:

R を管理者権限で実行します。

管理者権限は、Rのアイコンを右クリックすると表示されます

Ⅱ:

 コマンド「install.packages("Rcmdr", dependencies=T)」を入力して実行します。

Ⅲ:

 パッケージは、library(パッケージ名)によって実行します。

 R コマンダーを実行するには、library(Rcmdr)と入力します。

r パッケージのインストール





















 R コマンダーでは、


  1. データの読み込みや加工
  2. 度数分布や相関係数のような記述統計
  3. グラフの作成
  4. 回帰分析等の多変量解析


をGUIで操作できます。

 R console では、計算式のようなコマンド(命令)を必要としましたが、

 R コマンダーでは、視覚的に操作できます。

 また、その操作の対象とコマンドも、スクリプトウィンドウに表示されるので、

 R で必要なコマンドを覚えるのに役立ちます

インストール時の注意点


 R コマンダーを実行するのに、必要なパッケージがRに組み込まれていないとエラーが発生します。

足りないパッケージの指示が出た場合は、そのままパッケージをインストールしましょう。

足りないパッケージの追加










 次回は、さらに R を使いやすくする統合開発環境「RStudio」について紹介する。

2015年12月30日水曜日

「R エディタ」の使い方

R Console の動かし方


「R」の本体が、R Console というウィンドウであることを紹介しました。

 では、どのように命令を実行するのでしょうか?

 赤い「」プロンプトに、1 + 2 という計算式を入力し「Enter」で実行してみましょう。

R Console
















 次の行に[1] 3 という足し算の結果が表示されました。

 「1 + 2」 は計算式ですが、「R Console」 のウィンドウにとっては、コマンド(命令)となります。

「R Console」 に命令を送ることによって、R のソフトは動きます。

 しかし、短い式ならともかく長い式を直接入力するのは大変です。

 コマンドは、ただのテキストデータですから、

 メモ帳で編集し、「R Console」 にコピペして作業する方法もあります。

 けれど、コマンド毎に行を変える面倒が発生します。

 そこで登場するのが、R 専用のメモ帳「R エディタ」です。

 複数のコマンドを、スクリプトを呼びますが、このスクリプトを 「R エディタ」で編集してみましょう。


 「R エディタ」の使い方

 流れ

  1. ファイル
  2. スクリプトを開く
  3. メモ帳が出現
  4. コマンドを記入
  5. コマンドを選択し「Ctrl + R」で命令が実行

(先ほどの直接入力が、間接的に入力される形となる)
 
R エディタ
(先ほどの直接入力が、間接的に入力される形となる)

 ※日本語対応にしています。

 インストール時に、

「Message Translate」

に☑を入れると日本語になります。








 しかし、これでも面倒です。

 もっと簡単に入力できる方法を探す必要があります。

 次回は、「パッケージ」についてです。

 R は、単純な計算式をするソフトではありません、複雑なデータ解析をするためのソフトです。

 それを実行するコマンドは、素人には扱えないものばかりです。

 そこで、それらを簡単に要約してまとめた「パッケージ」をインストールすることによって、

 誰でも分析が出来るようにしたいと思います。