データ解析を依頼される方の多くは素人
だから、データ解析をするデータ自体に頓着しません。とにかくパソコン・サーバーに保存されているデータを、データ解析の「データ」と呼びます。
しかし、そこらへんから取り出せるデータなど高が知れています。データとは、料理でいう材料です。
おいしい料理をシェフに依頼する時に、材料をそこらへんの食材で作ってもらうでしょうか?もしかしたら、それはゴミ(ジャンクデータ)かもしれません。
やり辛いテキストデータ
中でも、数値データではなく、テキストデータを扱うデータ解析は難しいです。
数値データなら、依頼主自体も、なんとなく解析のイメージが掴めますので、一緒にデータ解析のお話ができます。
しかし、商品説明だけのテキストを渡して、「何か利益に繋がる情報ない?」と頼まれても、「無理」と答えるしかありません。なぜなら、それは分析するデータではないからです。
もちろん、テキストマイニングというテキストを分析する手法は存在しますが、その手法は、テキストを形態素解析した前提の話になります。
これならニッコリのデータ形式とは?
では、データサイエンティストにとってうれしいデータとは何でしょうか?
簡単に言えば、先ほど申し上げた数値データです。続いてカテゴリーデータになります。
簡単に言えば、先ほど申し上げた数値データです。続いてカテゴリーデータになります。
データフレームとは、tableをイメージしてくればいいと思います。
しかもその形式が、Excelではなく、数値だけのcsv形式なら、さらに「GOOD!」となるわけです。Excelは、セルという装飾があります。結局ExcelのデータはExcel内で分析するしかありません。CSVなら、いろいろな統計解析ソフトに利用でき、解析の幅が広がります。