ラベル 統合開発環境 の投稿を表示しています。 すべての投稿を表示
ラベル 統合開発環境 の投稿を表示しています。 すべての投稿を表示

2016年1月5日火曜日

R で良く使われる関数

R もっとも基本的な関数の紹介


 R console に数式を入力して計算をする前提では、大量のデータを処理することは不可能です。

 複雑な処理をまとめた関数を利用することで、ゼロからでもデータマイングが可能となります。

 今回は、データ分析でよく使われる関数を紹介します。

①str


 データ構造を把握する関数

 例えば、依頼主からデータを渡されたとしても、

 それがどのようなデータ構造をしているのか依頼主でさえ分からない場合があります。

 データ構造を理解しなければ、それに適した分析もできないため

 「str」関数によって状況を把握します。

②summary


 データ要約の関数

 「str」関数によってデータ構造を把握することに加え、このデータは、

 つまりどういう意味をしているかという簡単な要約も必要です。

 「summary」関数によって表示されるのは、変数の最小値、中央値、平均値、最大値です。
 

  1. 中央値と平均の違い
  2. 中央値:数字を並べて真ん中の数⇒周りのデータに影響されない
  3. 平均値:合計÷データ数      ⇒周りのデータに影響される


③names


 変数名を教えてくれる関数

 膨大なデータ量を処理する時に、データ変数名を一覧として表示してくれます。

④hist&plot


 ヒストグラムと散布図の関数

 図を描画してくれる。

⑤help


 関数の説明をしてくれる関数

 但し、英語で説明されるので慣れるまで辛抱です。

 次回は、データ解析の初歩である「データの整形」について紹介します。




 

2016年1月2日土曜日

Rを十全に活用できる機能を積め込んだ統合開発環境「R Studio」

統合開発環境とは何か?


 R の統合開発環境「R Studio」をインストールする前に、統合開発環境について説明します。
 
Wiki 抜粋 
統合開発環境とは、IDE (Integrated Development Environment) 、ソフトウェアの開発環境ことである。 従来、コンパイラテキストエディタデバッガなどがばらばらで利用していたものをひとつの対話型操作環境(多くはGUI)から利用できるようにしたもの。最近のIDEには、GUIアプリケーション開発のための迅速なプロトタイピング (RAD) が可能なものが多い。統合開発環境を使うことによって、巨大かつ複雑なソフトウェアでも、作成者に負担をかけることなく開発することが可能になる。
 つまり、

プログラムを動かす上で必要な機能をまとめ(統合)道具箱(開発環境)

 のようなものと考えて欲しいです。

Java , C , Ruby 等のプログラム言語を利用する時も同じで、

必ず統合開発環境を揃えてからプログラムの開発を始めます。

 ゼロから始めるデータマイング講座でも、最初の準備として、R の統合開発環境である「R Studio」をインストールします。


「R Studio」のインストール方法

①「R Studio」の公式サイトへ飛ぶ
 公式サイト「R Studio」をクリック
 ダウンロード R Studio をクリック
 
Download RStudio
Download RStudio



















② R デスクトップで走らせる「Download RStudio Desktop」を選択する

 サーバーでRを走らせる場合は、「Dwon RStudio Server」を選択する。

Download RStudio Desktop
Download RStudio Desktop



③Windows版をインストールする(各自のOSによって選択する)

 設定はデフォルトで構いません。


④ダウンロードした「R Studio」を起動する
 
 スタートメニューから起動します。
 
R Studio 画面
R Studio 画面
 これで R を利用する準備が出来ました。

 次回は、いよいよ R を運用していきます。