ラベル r の投稿を表示しています。 すべての投稿を表示
ラベル r の投稿を表示しています。 すべての投稿を表示

2016年1月7日木曜日

記述統計学実践編

記述統計学とは、データを見易くすること


 データを整理して誰でも見易くする「記述統計学」を実践してみましょう。

 R Consoleにデータ(Aテストの点数)を入力し、平均と分散を表示させてみます。



Aテストの結果
Aテストの点数結果と平均点と分散

  • 平均値:72.4
  • 分散:259.3778


 分散(データの散らばり具合)に関しては、他のテストの点数結果を比較する時に使います

 例えば、Bテストの結果がこんな結果となった場合

Bテストの結果
Bテストの点数結果と平均点と分散
  • 平均値:78.1
  • 分散:225.8778

記述統計学から分かること


 AテストとBテストでは、Bテストの成績が良かったという評価ができる。(先生視点

 Aテストでは、Bテストと比べて、出来る人と出来ない人の差が激しい。(生徒視点

 つまり、生徒の能力を正しく判定するテストの出来は、

 分散が小さいBテストが優れていると考えられる。

 分散1つで、テストの善し悪しを評価出来るのは、記述統計学の強み。

 では視覚的な視点で、データを見るとどうでしょうか?

描画コマンド
par(mfrow=c(2,1)):描画を表示する画面を、2行1列で表示する
br <- seq(40,100,15):40~100までを15等間隔でデータを入力
br::「40,55,70,85,100」
hist(A,breaks=br,prob=T):Aのデータ、breaksはx軸の目盛、probは相対頻度を表す


ヒストグラム
ヒストグラム
 
 視覚的に表示することによって、数字だけの統計結果をやんわりさせることができます。

 AテストとBテストのヒストグラムでは、なかなか分かりづらいですね。

 図と数字両方をうまく使い分けることが大切です。

 


 



2016年1月5日火曜日

データマイングで初めにやるべき「データの整形」

データ分析で1番重要な「データ」の整理


 データ分析では、大量のデータ群を全て分析するわけではありません

 必要な要所要所を取りだすことも、データマイングでは欠かせない技術になります。

 今回は、データを取り出す方法を紹介します。

データを取り出す「subset」関数


subset(元のデータ、抜き出す条件)

抜きだす条件によって、さまざまな条件のデータを取り出すことができます。

①:変数を指定して取り出す


subset(dat, select=c("kokugo","sugaku"))

※変数を選択する場合は、selectを使用する

②:A組のデータだけ抜き出す


subset(dat,dat$class=="A")

※$で変数指定、==は=と同義

③:欠損値のないデータを抜き出す


subset(dat, complete.case(dat))

※欠損値のないデータは、complete.case


次回は、R のソフトを使う前提として統計学を勉強します。

R で良く使われる関数

R もっとも基本的な関数の紹介


 R console に数式を入力して計算をする前提では、大量のデータを処理することは不可能です。

 複雑な処理をまとめた関数を利用することで、ゼロからでもデータマイングが可能となります。

 今回は、データ分析でよく使われる関数を紹介します。

①str


 データ構造を把握する関数

 例えば、依頼主からデータを渡されたとしても、

 それがどのようなデータ構造をしているのか依頼主でさえ分からない場合があります。

 データ構造を理解しなければ、それに適した分析もできないため

 「str」関数によって状況を把握します。

②summary


 データ要約の関数

 「str」関数によってデータ構造を把握することに加え、このデータは、

 つまりどういう意味をしているかという簡単な要約も必要です。

 「summary」関数によって表示されるのは、変数の最小値、中央値、平均値、最大値です。
 

  1. 中央値と平均の違い
  2. 中央値:数字を並べて真ん中の数⇒周りのデータに影響されない
  3. 平均値:合計÷データ数      ⇒周りのデータに影響される


③names


 変数名を教えてくれる関数

 膨大なデータ量を処理する時に、データ変数名を一覧として表示してくれます。

④hist&plot


 ヒストグラムと散布図の関数

 図を描画してくれる。

⑤help


 関数の説明をしてくれる関数

 但し、英語で説明されるので慣れるまで辛抱です。

 次回は、データ解析の初歩である「データの整形」について紹介します。




 

2016年1月4日月曜日

分析するデータの種類とデータ構造を知ろう

数字だけを分析するわけではないデータマイング


 データ解析と言われると、数字だけを分析すると思われるかもしません。

 しかし、分析する対象には、「Yes or No」 のアンケート調査や、

 データが集められなかった場合の空データも存在します。

 R で扱うデータの種類、そしてデータ構造を紹介します。

<データの種類>


整数


実数


複素数


実数 a, b と虚数単位 i を用いて a + bi と表せる数のこと

文字列


数値データ以外を指します。

論理値


論理値は、「正しいか、正しくないか」という意味で、

表現としては、「TRUE or FALSE」を使います。

空値


空値とは、何もないことをを表す。決して「ゼロ」という意味ではありません。

ちなみに空値は、「NULL」と表現されます。

<データ構造>


①ベクトル


複数の数値を合わせたデータ構造

例1:x <- c(1,2,3)

※cは関数「conbine」、結合するという意味

この場合、x は、1でも2でも3でもなく、3つの数字のセットと考えます。

R では、データ集合をベクトルとしてよく利用します。

②行列


 数値を長方形に並べたもので、matrix関数で作成する

 matrix(ベクトル,行または列の数)

例3:matrix(c(1,2,3,4,5,6), ncol=3) ncol は行を、nrowは列の数を指定できる

行列







次回はRでよく使われる関数に焦点を当てます。

ここまでで質問がありましたら気軽にメールを下さい。データ解析の相談でも構いません。




2016年1月2日土曜日

「R」ソフトの Excelデータの取り込み方と基本コマンド

R のデータの取り込み方


 R でデータ分析をするには、まず基となるデータが必要です。

 主に統計解析で扱うデータは、Excel形式で保存されていることが多いので、

 Excel形式のデータを R に取り込む方法を紹介します。

Excelのデータを R に取り込む手順


①ExcelのデータをCSV形式に変換する


 CSVとは何かを話すよりも、実際に見た方が早いので、

 体重測定のデータ(Excel)をCSV形式で保存します。

Excelデータ
体重測定のデータ
















 

 名前を付けて保存⇒ファイルの種類を「CSV」に設定して保存します。

 R は日本語に対応しづらいので、ファイル名は「test.csv」と英数字で表記します。
 
ExcelをCSV形式で保存
CSV形式で保存
















 

CSVファイルとは?


 CSVは、数字を","で区切った簡単な構造のファイルです。

 Excelのような、セルもシートも存在しないため、

 いろんな場所で扱いやすいデータ形式とも言えます。

 メモ帳で開くと、よく分かります。

CSV
単純な構造をしています





















② R の作業ディレクトリーを指定する


 ディレクトリーとは、作業場所という意味です。

 保存したデータを R で処理するために、毎回データを指定します。

 この時、毎回データを参照する場所をあらかじめ決めた方が便利ですね。

 台所で調理をするなら、冷蔵庫はすぐ隣にあった方が便利と同じです。

 Tools ⇒ Global Options ⇒ General ⇒ Default Working Directory ⇒ Browse… をクリック

作業ディレクトリの指定
作業ディレクトリ―の指定


 作業ディレクトリーが正しく設定されると、指定したファイルが表示されます。

作業ディレクトリー
 











 

 ③ R のデータ読み込み


 R のコマンド「dat <- read.csv("test.csv")」を入力し実行します。

Einvironmentタブ

 







 右上のEinvironmentタブの「dat」をクリックし、中身を確認できます。

データが表示されます










 これ以外にも、「R console」 のコマンドで、データを表示する方法を紹介する。

R の基本コマンド


 ①データ読み込み時に指定した変数
 
 例:dat

 ②特定の変数を指定する場合は、$マークを使う
 
 例:dat$weight 体重だけ表示される

 ③列・行を指定する場合は、[ 行番号, 列番号 ]を使う

 例:dat[1,2] 1行2列目の値を表示


 次回は、データ分析で扱うデータの構造について紹介します。

「R 」の基本操作、プロジェクトの作成

Rを実際に動かしてみよう


 統合開発環境「R Studio」を設定し、R 運用の準備が整いました。

 さっそく「R」もといデータマイングを始めたいと思います。

 「R Studio」では、分析目的ごとにプロジェクトを立てます。

 文章を作る為に、「Word」で新しいファイルを開くように、

 「R Studio」でも、分析するためにプロジェクトを開きます。


プロジェクトの作成方法


①プロジェクトを開く


 File ⇒ New Project

 New Directory ⇒  Empty Project

New Directory














Empty Project


















②プロジェクトの名前を指定する


 フォルダ名やファイル名は、半角英数で設定します。

 日本語は不可ですので、気を付けてください。


プロジェクトの名前を指定する

プロジェクトの名前を指定する
今回は、「Rstudioproject」に設定しました

 


































③Create Project をクリックし、プロジェクトを作成する


 右下のウィンドウに、作成した「Rstudioproject」が表示されます。







プロジェクトの操作一覧


プロジェクトを開く時は、  File ⇒ Open File

プロジェクトを閉じる時は、 File ⇒ CLose File

プロジェクトの操作














次回は、R 内で計算をしてみましょう。

視覚的に操作できる「R コマンダー」

Rコマンダーのインストール方法


 R コマンダーは、Excel や SPSS のようにマウスやダイアロボロックスを使った

GUI(視覚的に操作できる)を、R に持たせるパッケージです。

インストールは、前回と同じ、「R console」 のコマンドから実行します。

「R コマンダー」のインストール方法と起動方法


Ⅰ:

R を管理者権限で実行します。

管理者権限は、Rのアイコンを右クリックすると表示されます

Ⅱ:

 コマンド「install.packages("Rcmdr", dependencies=T)」を入力して実行します。

Ⅲ:

 パッケージは、library(パッケージ名)によって実行します。

 R コマンダーを実行するには、library(Rcmdr)と入力します。

r パッケージのインストール





















 R コマンダーでは、


  1. データの読み込みや加工
  2. 度数分布や相関係数のような記述統計
  3. グラフの作成
  4. 回帰分析等の多変量解析


をGUIで操作できます。

 R console では、計算式のようなコマンド(命令)を必要としましたが、

 R コマンダーでは、視覚的に操作できます。

 また、その操作の対象とコマンドも、スクリプトウィンドウに表示されるので、

 R で必要なコマンドを覚えるのに役立ちます

インストール時の注意点


 R コマンダーを実行するのに、必要なパッケージがRに組み込まれていないとエラーが発生します。

足りないパッケージの指示が出た場合は、そのままパッケージをインストールしましょう。

足りないパッケージの追加










 次回は、さらに R を使いやすくする統合開発環境「RStudio」について紹介する。

R「パッケージ」のインストール方法

 パッケージのインストールを解説します。
 今回インストールするパッケージは、社会科学分野で使われる「car」です。回帰分析等の統計分析に関する関数が集まった拡張機能です。
 R本体からインストールができるので、R console から「car」を組み込んでいます。

「car」のインストール方法


 R を管理者権限で実行する。右クリックで、管理者権限で起動する。


 コマンド「install.packages("car")」を入力して実行する。




 パッケージをダウンロードするCRANサイトを選択する。通常は、「Japan」を選択する。
 

 




















 パッケージ「car」が、インストールされたことを確認する。















 インストールしたパッケージを利用する場合は、R を起動するごとに、library(car)とパッケージ名を入力する。次回は、Rソフトを使いやすくするパッケージ「R コマンダー」をインストールします。

2015年12月30日水曜日

「R エディタ」の使い方

R Console の動かし方


「R」の本体が、R Console というウィンドウであることを紹介しました。

 では、どのように命令を実行するのでしょうか?

 赤い「」プロンプトに、1 + 2 という計算式を入力し「Enter」で実行してみましょう。

R Console
















 次の行に[1] 3 という足し算の結果が表示されました。

 「1 + 2」 は計算式ですが、「R Console」 のウィンドウにとっては、コマンド(命令)となります。

「R Console」 に命令を送ることによって、R のソフトは動きます。

 しかし、短い式ならともかく長い式を直接入力するのは大変です。

 コマンドは、ただのテキストデータですから、

 メモ帳で編集し、「R Console」 にコピペして作業する方法もあります。

 けれど、コマンド毎に行を変える面倒が発生します。

 そこで登場するのが、R 専用のメモ帳「R エディタ」です。

 複数のコマンドを、スクリプトを呼びますが、このスクリプトを 「R エディタ」で編集してみましょう。


 「R エディタ」の使い方

 流れ

  1. ファイル
  2. スクリプトを開く
  3. メモ帳が出現
  4. コマンドを記入
  5. コマンドを選択し「Ctrl + R」で命令が実行

(先ほどの直接入力が、間接的に入力される形となる)
 
R エディタ
(先ほどの直接入力が、間接的に入力される形となる)

 ※日本語対応にしています。

 インストール時に、

「Message Translate」

に☑を入れると日本語になります。








 しかし、これでも面倒です。

 もっと簡単に入力できる方法を探す必要があります。

 次回は、「パッケージ」についてです。

 R は、単純な計算式をするソフトではありません、複雑なデータ解析をするためのソフトです。

 それを実行するコマンドは、素人には扱えないものばかりです。

 そこで、それらを簡単に要約してまとめた「パッケージ」をインストールすることによって、

 誰でも分析が出来るようにしたいと思います。


 

統計解析ソフトの種類と、「R」のインストール方法

誰でも始められるデータマイング


 『ゼロから始めるデータマイニング』では、統計解析を無一文で実践して、

 有益な情報を手に入れる「データマイング」を実践していきます。

 今回はその第一回目です。

 まず、統計解析をする上で必要な統計ソフトをインストールしましょう。

どの統計解析ソフトが良いのか?


 統計解析ソフトは、以下の三つが挙げられます。

  1.  エクセルに附属された「分析ツール」
  2.  統計解析ソフト「SPSS」
  3.  統計解析ソフト「R」

 皆さんも気になる違いを簡単に説明すると、

  1.  エクセルに附属された「分析ツール」→普通
  2.  統計解析ソフト「SPSS」→専門的で有料で有能
  3.  統計解析ソフト「R」→専門的で無料で…
 「R」に関しては、無料で提供され、有志によって改善が図られています。

 もちろん使いやすさの点では、有料のエクセル、「SPSS」(エクセルより専門的)が

 勝りますが、お値段が数万以上します。

 『ゼロから始めるデータマイング』では、無料の「R」を使っていきます。

「R」のインストール方法


  「R」が置いてあるサイト「CRAN」に飛びます。

 パソコンのOSと同じ「R」のプログラムをダウンロードします。

 Windowsなら、
 
rダウンロード
をクリック→

rダウンロード









 Baseをクリック→
rダウンロード



 








 最新版をクリックする。

 しばらくすると、インストールプログラムが起動します。

 プログラムのセットアップの注意点

 
 Displya Mode」は、デフォルトの「MDI」ではなく、「SDI」に変更します。

 SDIは、Rに関する様々なウィンドウを独立させて表示することができ、今後新しくプログラムを組み込む際に見易くなります。


rアイコン
 Rを起動してみましょう。

 「R」の本体は、R Console という名前のウィンドウになります。

R Consoleウィンドウ
R Consoleウィンドウ

 赤い「>」はプロンプトと呼ばれ、キーボートからコマンド(命令)を入力して数的処理をします。

 これでRのインストールは完了しました。次回は、Rエディタについて紹介します。