R もっとも基本的な関数の紹介
R console に数式を入力して計算をする前提では、大量のデータを処理することは不可能です。
複雑な処理をまとめた関数を利用することで、ゼロからでもデータマイングが可能となります。
今回は、データ分析でよく使われる関数を紹介します。
①str
データ構造を把握する関数
例えば、依頼主からデータを渡されたとしても、
それがどのようなデータ構造をしているのか依頼主でさえ分からない場合があります。
データ構造を理解しなければ、それに適した分析もできないため、
「str」関数によって状況を把握します。
②summary
データ要約の関数
「str」関数によってデータ構造を把握することに加え、このデータは、
つまりどういう意味をしているかという簡単な要約も必要です。
「summary」関数によって表示されるのは、変数の最小値、中央値、平均値、最大値です。
- 中央値と平均の違い
- 中央値:数字を並べて真ん中の数⇒周りのデータに影響されない
- 平均値:合計÷データ数 ⇒周りのデータに影響される
③names
変数名を教えてくれる関数
膨大なデータ量を処理する時に、データ変数名を一覧として表示してくれます。
④hist&plot
ヒストグラムと散布図の関数
図を描画してくれる。
⑤help
関数の説明をしてくれる関数
但し、英語で説明されるので慣れるまで辛抱です。
次回は、データ解析の初歩である「データの整形」について紹介します。
0 件のコメント:
コメントを投稿