ラベル R Studio の投稿を表示しています。 すべての投稿を表示
ラベル R Studio の投稿を表示しています。 すべての投稿を表示

2016年1月5日火曜日

R で良く使われる関数

R もっとも基本的な関数の紹介


 R console に数式を入力して計算をする前提では、大量のデータを処理することは不可能です。

 複雑な処理をまとめた関数を利用することで、ゼロからでもデータマイングが可能となります。

 今回は、データ分析でよく使われる関数を紹介します。

①str


 データ構造を把握する関数

 例えば、依頼主からデータを渡されたとしても、

 それがどのようなデータ構造をしているのか依頼主でさえ分からない場合があります。

 データ構造を理解しなければ、それに適した分析もできないため

 「str」関数によって状況を把握します。

②summary


 データ要約の関数

 「str」関数によってデータ構造を把握することに加え、このデータは、

 つまりどういう意味をしているかという簡単な要約も必要です。

 「summary」関数によって表示されるのは、変数の最小値、中央値、平均値、最大値です。
 

  1. 中央値と平均の違い
  2. 中央値:数字を並べて真ん中の数⇒周りのデータに影響されない
  3. 平均値:合計÷データ数      ⇒周りのデータに影響される


③names


 変数名を教えてくれる関数

 膨大なデータ量を処理する時に、データ変数名を一覧として表示してくれます。

④hist&plot


 ヒストグラムと散布図の関数

 図を描画してくれる。

⑤help


 関数の説明をしてくれる関数

 但し、英語で説明されるので慣れるまで辛抱です。

 次回は、データ解析の初歩である「データの整形」について紹介します。




 

2016年1月4日月曜日

分析するデータの種類とデータ構造を知ろう

数字だけを分析するわけではないデータマイング


 データ解析と言われると、数字だけを分析すると思われるかもしません。

 しかし、分析する対象には、「Yes or No」 のアンケート調査や、

 データが集められなかった場合の空データも存在します。

 R で扱うデータの種類、そしてデータ構造を紹介します。

<データの種類>


整数


実数


複素数


実数 a, b と虚数単位 i を用いて a + bi と表せる数のこと

文字列


数値データ以外を指します。

論理値


論理値は、「正しいか、正しくないか」という意味で、

表現としては、「TRUE or FALSE」を使います。

空値


空値とは、何もないことをを表す。決して「ゼロ」という意味ではありません。

ちなみに空値は、「NULL」と表現されます。

<データ構造>


①ベクトル


複数の数値を合わせたデータ構造

例1:x <- c(1,2,3)

※cは関数「conbine」、結合するという意味

この場合、x は、1でも2でも3でもなく、3つの数字のセットと考えます。

R では、データ集合をベクトルとしてよく利用します。

②行列


 数値を長方形に並べたもので、matrix関数で作成する

 matrix(ベクトル,行または列の数)

例3:matrix(c(1,2,3,4,5,6), ncol=3) ncol は行を、nrowは列の数を指定できる

行列







次回はRでよく使われる関数に焦点を当てます。

ここまでで質問がありましたら気軽にメールを下さい。データ解析の相談でも構いません。




2016年1月2日土曜日

「R」ソフトの Excelデータの取り込み方と基本コマンド

R のデータの取り込み方


 R でデータ分析をするには、まず基となるデータが必要です。

 主に統計解析で扱うデータは、Excel形式で保存されていることが多いので、

 Excel形式のデータを R に取り込む方法を紹介します。

Excelのデータを R に取り込む手順


①ExcelのデータをCSV形式に変換する


 CSVとは何かを話すよりも、実際に見た方が早いので、

 体重測定のデータ(Excel)をCSV形式で保存します。

Excelデータ
体重測定のデータ
















 

 名前を付けて保存⇒ファイルの種類を「CSV」に設定して保存します。

 R は日本語に対応しづらいので、ファイル名は「test.csv」と英数字で表記します。
 
ExcelをCSV形式で保存
CSV形式で保存
















 

CSVファイルとは?


 CSVは、数字を","で区切った簡単な構造のファイルです。

 Excelのような、セルもシートも存在しないため、

 いろんな場所で扱いやすいデータ形式とも言えます。

 メモ帳で開くと、よく分かります。

CSV
単純な構造をしています





















② R の作業ディレクトリーを指定する


 ディレクトリーとは、作業場所という意味です。

 保存したデータを R で処理するために、毎回データを指定します。

 この時、毎回データを参照する場所をあらかじめ決めた方が便利ですね。

 台所で調理をするなら、冷蔵庫はすぐ隣にあった方が便利と同じです。

 Tools ⇒ Global Options ⇒ General ⇒ Default Working Directory ⇒ Browse… をクリック

作業ディレクトリの指定
作業ディレクトリ―の指定


 作業ディレクトリーが正しく設定されると、指定したファイルが表示されます。

作業ディレクトリー
 











 

 ③ R のデータ読み込み


 R のコマンド「dat <- read.csv("test.csv")」を入力し実行します。

Einvironmentタブ

 







 右上のEinvironmentタブの「dat」をクリックし、中身を確認できます。

データが表示されます










 これ以外にも、「R console」 のコマンドで、データを表示する方法を紹介する。

R の基本コマンド


 ①データ読み込み時に指定した変数
 
 例:dat

 ②特定の変数を指定する場合は、$マークを使う
 
 例:dat$weight 体重だけ表示される

 ③列・行を指定する場合は、[ 行番号, 列番号 ]を使う

 例:dat[1,2] 1行2列目の値を表示


 次回は、データ分析で扱うデータの構造について紹介します。

「R 」の基本操作、プロジェクトの作成

Rを実際に動かしてみよう


 統合開発環境「R Studio」を設定し、R 運用の準備が整いました。

 さっそく「R」もといデータマイングを始めたいと思います。

 「R Studio」では、分析目的ごとにプロジェクトを立てます。

 文章を作る為に、「Word」で新しいファイルを開くように、

 「R Studio」でも、分析するためにプロジェクトを開きます。


プロジェクトの作成方法


①プロジェクトを開く


 File ⇒ New Project

 New Directory ⇒  Empty Project

New Directory














Empty Project


















②プロジェクトの名前を指定する


 フォルダ名やファイル名は、半角英数で設定します。

 日本語は不可ですので、気を付けてください。


プロジェクトの名前を指定する

プロジェクトの名前を指定する
今回は、「Rstudioproject」に設定しました

 


































③Create Project をクリックし、プロジェクトを作成する


 右下のウィンドウに、作成した「Rstudioproject」が表示されます。







プロジェクトの操作一覧


プロジェクトを開く時は、  File ⇒ Open File

プロジェクトを閉じる時は、 File ⇒ CLose File

プロジェクトの操作














次回は、R 内で計算をしてみましょう。

Rを十全に活用できる機能を積め込んだ統合開発環境「R Studio」

統合開発環境とは何か?


 R の統合開発環境「R Studio」をインストールする前に、統合開発環境について説明します。
 
Wiki 抜粋 
統合開発環境とは、IDE (Integrated Development Environment) 、ソフトウェアの開発環境ことである。 従来、コンパイラテキストエディタデバッガなどがばらばらで利用していたものをひとつの対話型操作環境(多くはGUI)から利用できるようにしたもの。最近のIDEには、GUIアプリケーション開発のための迅速なプロトタイピング (RAD) が可能なものが多い。統合開発環境を使うことによって、巨大かつ複雑なソフトウェアでも、作成者に負担をかけることなく開発することが可能になる。
 つまり、

プログラムを動かす上で必要な機能をまとめ(統合)道具箱(開発環境)

 のようなものと考えて欲しいです。

Java , C , Ruby 等のプログラム言語を利用する時も同じで、

必ず統合開発環境を揃えてからプログラムの開発を始めます。

 ゼロから始めるデータマイング講座でも、最初の準備として、R の統合開発環境である「R Studio」をインストールします。


「R Studio」のインストール方法

①「R Studio」の公式サイトへ飛ぶ
 公式サイト「R Studio」をクリック
 ダウンロード R Studio をクリック
 
Download RStudio
Download RStudio



















② R デスクトップで走らせる「Download RStudio Desktop」を選択する

 サーバーでRを走らせる場合は、「Dwon RStudio Server」を選択する。

Download RStudio Desktop
Download RStudio Desktop



③Windows版をインストールする(各自のOSによって選択する)

 設定はデフォルトで構いません。


④ダウンロードした「R Studio」を起動する
 
 スタートメニューから起動します。
 
R Studio 画面
R Studio 画面
 これで R を利用する準備が出来ました。

 次回は、いよいよ R を運用していきます。


R「パッケージ」のインストール方法

 パッケージのインストールを解説します。
 今回インストールするパッケージは、社会科学分野で使われる「car」です。回帰分析等の統計分析に関する関数が集まった拡張機能です。
 R本体からインストールができるので、R console から「car」を組み込んでいます。

「car」のインストール方法


 R を管理者権限で実行する。右クリックで、管理者権限で起動する。


 コマンド「install.packages("car")」を入力して実行する。




 パッケージをダウンロードするCRANサイトを選択する。通常は、「Japan」を選択する。
 

 




















 パッケージ「car」が、インストールされたことを確認する。















 インストールしたパッケージを利用する場合は、R を起動するごとに、library(car)とパッケージ名を入力する。次回は、Rソフトを使いやすくするパッケージ「R コマンダー」をインストールします。