2019年5月2日木曜日

社会調査データ解析システムの使い方

社会調査データ解析システムは、データ解析機能をExcelのマクロで実現したソフトになります。
Excelにアドインすることで、下記の統計ツールを実行出来ます。
  • 1変量の分布の要約
  • 2変量間の関連の要約
  • マルチアンサー項目の集計
  • 統計的推定・検定
  • 多変量データ解析

2016年2月16日火曜日

実験効果を調べたい場合は「t検定」と「分散分析」

要因・水準によって分析手法が異なる


その前に要因について説明します。

要因とは、データに影響を与えるものであり、我々がそう判断したものです。

実際に影響を与えているかを調べる分析が前提ですので、分析者や実験者が創造した影響力が要因になります。

植物の生育に影響を与える肥料
運動能力に影響を与えるトレーニング

水準とは、観測対象の枠組みです。実験で言えば条件に当たります。
植物の生育の条件
トレーニングの条件

一要因分析×2水準以下なら t検定が使えます


一要因×1水準

水準の効果(観測値の平均値)がある指定された値(帰無仮説)より大きいか(小さいか)?
⇒1標本の平均値の検定

一要因×2水準

2つの水準の効果(各水準における観測値の平均値)には差があるか?
⇒2標本の平均値の差の検定

では、二要因分析あるいは、一要因分析×3水準では検定が使えないのでしょうか?

二要因分析では、相互作用を考慮しなければなりません。

二要因分析では、

一要因の効果
二要因の効果
一要因と二要因の交互作用効果

一要因と二要因の交互作用効果を調べるには、分散分析が必要になります。

また、一要因3水準のt検定は、水準を1つ1つ調べることは出来ますが、要因が全てに影響している場合を想定していません。
例えば、3水準では、1水準と2水準を調べている時は、3水準目を無視しています。

分散分析とは?


分散分析の考え方
要因の影響力を分散に基づいて判断します。
分散は次の関係式を持っています。
測定値のばらつき=予測値のばらつき+誤差のばらつき

そこで、モデルの説明力として、「誤差のばらつき」に対して「予測値のばらつき」が大きいかで判断します。平方和は二乗という意味です。ばらつきですので、+-が存在するので二乗で消しています。

ばらつきで判断する


しかし、水準が増加するほど分散が大きくなるため修正として、平均平方和を用います。
予測値の平均平方和は、増加した水準分だけ値を下げるためます。

要因による平均平方和


同じく誤差平方和も、以下のようにして平均平方和にします。

誤差による平均平方和


最後に要因効果をF分布に照らして判断します。

F分布によって分散分析の結果を判断します

このF分布は、母集団において、水準平均に全く差がない時の動きを表しています。
つまり、分散分析で得たF値をF分布に照らすことで、水準平均に差があるかを判断します。

大量のデータに困ったら、データを要約する「主成分分析」

主成分分析とは? 


複数の変数間の相関関係を手がかりとして変数をまとめ・要約し、元のデータの持つ情報をできるだけ少ない合成変数で再現することです。

データの縮約=変数間の関連を規定している潜在的な要因(因子)の抽出
が主な目的です。

できるだけ多くの情報を説明するためには以下のモデル式の構築が必要です。

モデル式


合成変数を組み立てる各変数に対する重み(主成分負荷量)を求めます。

主成分分析のモデル式


複数の変数に重みを与えた加重合計(合成変数)によって、元のデータ情報をできるだけ多く吸収します。

具体例:国、社、数、理のテスト結果を、少ない変数でまとめる。

複数の変数に重みを与えた加重合計(合成変数)によって、元のデータ情報をできるだけ多く吸収します。

国、社、数、理の各テストの点数を見なくても、合成変数を見るだけでテスト評価できます。
実際に分析してみましょう。

分析データ(国、社、数、理のテスト結果)


国、社、数、理のテスト結果

国、社、数、理のテスト結果

分析結果

主成分分析結果
主成分スコア:合成変数を組み立てる各変数に対する重み(主成分負荷量)
主成分スコアは、合成変数の増減の結果です。
主成分スコアの結果と分析データの関係性から、主成分負荷量が何であるかを推測することができます。

例えば、国語、社会の点数が高いと高い、第1主成分は文系力を表します。
逆に、数学、理科の点数が高いいと高い、第2主成分は理系力を表します。

主成分分析の注意点:データの単位に気をつける


前提知識として、主成分分析はデータの(ばらつき)分散を利用しています。
上記のテスト点数は、同じ単位で測定されており、観測値のバラツキの大きさ(分散)が重要な意味を持ちます。
しかし、単位が異なったり極端な分散データがある場合はそのまま主成分分析をしてはいけません。

理由

単位が変化するだけでばらつき(分散)の値が変化してしまいます。そのため、分散を綺麗に整える標準化が必要になります。















マーケティングで必須の「クラスター分析」

クラスター分析とは?

異なる性質のものが混ざりあっている集団(対象)の中から互いに似たものを集めて集落(クラスター)を作り、対象を分類しようという方法を総称したものです。

どこで使われるのか?

客観的な基準に従って科学的に分類ができるため、ブランドの分類や、イメージワードの分類、生活者のセグメンテーションなどのポジショニング確認ができます。

これは主にマーケティングリサーチの現場で必要になります。

クラスター分析にはデータ数によって2種類存在する


階層型
非階層型

階層型とは、トーナメント表のように各データが最終的に1つにまとまる集団(クラスタ)を形成します。

階層型クラスターではデンドログラム(樹形図)が出力されます
階層型クラスターではデンドログラム(樹形図)が出力されます

非階層型とは、階層型と異なり、最終的に1つにまとまるわけではありません。


この使い分けは、データ数によって分類されます。


階層型は、1つの集団をまとめるため、各データ・各クラスタがどのように結合していくかの流れを見る事が出来ます。しかし、データ数が極端に多いと、無理やり1つの集団にまとめる性質上、クラスター分析の精度は劣ります。分類の過程に力を入れています。

非階層型は、1つの集団にまとめることは不可能ですが、データ数の多少によって分析精度が変わることはありません。分類に力を入れています。

今回は階層型の分析を見ていきましょう。

分析データ(県のイメージ調査)


県に対するイメージをクラスター分析に掛けて、各県を分類していきます。
データ数が少ないため、階層型に挑戦できます。

12の形容詞に対する評価結果の違いから、県間の類似性(距離)を求める
12の形容詞に対する評価結果の違いから、県間の類似性(距離)を求める

分析結果

地理的によって分類されています。
「秋田:青森」、「群馬:静岡」

大都市によって分類されています。
「大阪:東京」

新たな発見も‥
「愛知:福岡」
結合の過程を見ることで、直観的に分類イメージが湧きます
結合の過程を見ることで、直観的に分類イメージが湧きます

分類された結果だけでなく、なぜグルーピングされた理由まで分析を進めることが大切です。









2016年2月15日月曜日

2変数間の関連のモデルによる表現は「回帰分析」

関連状況の記述からの予測


ソフトドリンクと気温の関係
ソフトドリンクと気温の関係

ソフトドリンクと気温の関係-散布図

気温とソフトドリンクの売上げ表を見ると、

  1. 気温の高い日はソフトドリンクの売上が多い
  2. では、気温が30度位だと、どの程度の売り上げがあるのだろうか?
  3. 気温が1度上がると、売り上げはどの程度増えるのだろうか? 
  4. 気温から、売上高を予測できないだろうか?

と疑問が湧いてきます。

気温から売り上げを予測するとは?


気温と売り上げを対応させる何らかの関数を与える必要がある 
どのような関数(モデル)で予測すれば良いか?

  1. 曲線を利用した予測 
  2. 階段関数を利用した予測 
  3. 直線を利用した予測 (今回はこれ)

単回帰分析

直線の求め方

回帰式の求め方
各データとの距離が一番短くなる直線を選ぶ方法:最上二乗法

分析結果


a=1334.2
b=8095.1

よって、
売上高=1334.2×気温+8095.1
気温が1℃上がるたびに、売上が1334.2増えます。
気温が0度の場合は、b=8095.1となります。
回帰モデル
回帰モデル
回帰分析と予測値の誤差

まだ、残差が大きく存在するため、新たな分析モデルを構築する必要性があります。
そして複数の要因で説明する時は、単回帰分析から重回帰分析へと名称が変わる。



文系でも分かる数量化Ⅱ類

数量化Ⅱ類とは、


1つの質的変数によって与えられたサンプル(個体)の群を、複数の質的変数(多変量データ)によって判別することです。

例:タバコを吸うか否かを、父親の喫煙習慣と本人の飲酒習慣によって判別(予測)する

複数の変数に重みを与え、その加重合計(合成変数)によって外的基準に基づく群を判別する「判別式モデル」を求めます。

判別式モデルの図

実際に分析の流れを見てみましょう。

分析データ(タイタニックの乗客データ)

タイタニックの乗客データ
タイタニックに乗っていた乗客のデータ

分析結果

タイタニックの乗客データから、生存する条件を導き出す。
数量化Ⅱ類の分析結果
ここでウエイトとして表現されているのが、生存条件に関わる要因です。
この場合は、客室では1等客室、年齢では子供、性別では女性という条件が、生存する条件に関わっています。
ここで注意することは、この値が高い⇒生存する確率が高いわけではありません。
今回は、この値が高い人が生存する結果になりました。

ウエイトとは?


このウエイトは、分析結果の振り分けがうまくいくために、各変数に与えた影響力です。
ウエイトトレーニングのウエイトです
重み=ウエイト
客室と年齢と性別の条件を基に、生死をうまく説明するために用意されたのがウエイトです。覚えておきましょう。








犬文系でも分かる数量化Ⅰ類

数量化Ⅰ類とは、


1つの量的変数の変動(値)を、複数の質的変数(多変量データ)によって説明することです。

例:小学生のTV視聴時間(1日平均)を、学年と「塾に通っているか否か」で説明(予測)する

複数の変数に重みを与え、その加重合計によって外的基準を説明する重回帰モデルを求めます。

重回帰モデル


具体例を上げます。
例えば、小学生のテレビ視聴時間は、学年と塾の有無によって判断できるか?

小学生のTV視聴時間(1日平均)=
「学年」によって小学生のTV視聴時間(1日平均)に与える影響力+
「塾に通っているか否か」によって小学生のTV視聴時間(1日平均)に与える影響力

この影響力を調べるのが、数量化Ⅰ類です。実際に分析の流れを見ていきましょう。
申し訳程度の犬要素
これなら犬でも分かるで!

分析データ(牛乳の売上げ本数)

分析データ(牛乳の売上げ本数)
曜日:月・火‥は、1・2‥とカテゴリー数値に置き換えています

分析結果

数量化Ⅰ類の分析結果

重回帰モデル

牛乳の売上げ=
「天気」が牛乳の売上げに与える影響力+
「曜日」が牛乳の売上げに与える影響力

「天気」が牛乳の売上げに与える影響力

=晴れ、曇り、雨
=-5.9604,22.622991,-40.0533


「曜日」が牛乳の売上げに与える影響力

=月、火、水、木、金、土、日
=29.2264405,-61.250340,20.43797901,-71.5929794,12.2347885,76.8955293

まとめ

天気と曜日の情報によって牛乳の売上げを予想できます
天気と曜日の牛乳に与える影響力を知ることで、牛乳の売上げに関係しているのが、
曜日であることが分かります。

文系猫でも分かる数量化Ⅲ類

数量化Ⅲ類とは、

 複数の質的変数間の関連を手がかりとして変数をまとめ・要約し、元のデータの持つ情報をできるだけ少ない合成変数で再現し、

 データの縮約と、変数間の関連を規定している潜在的な要因(因子)の抽出することです。

 つまり、どういうことにゃ?

 要するに何が分かるの?
 潜在的な要因(因子):人の好み
 自動車の好み、ブランドの好み、スキー場に対する評価
 一先ず分析結果を見てみよう。

分析データ(ブランドに対する嗜好調査)




分析結果 


数量化Ⅲ類の分析結果-カテゴリスコア
数量化Ⅲ類の分析結果-カテゴリスコア



数量化Ⅲ類の分析結果-散布図
数量化Ⅲ類の分析結果-散布図


カテゴリスコアの読み方



 カテゴリスコアのスコアとは、分析データの背後に影響している因子の数値です。
 このカテゴリスコアの例では、ベネトンというブランドは、第一因子の影響力が強いことが分かります。



でも、そもそも第一因子ってなんじゃ?

第一因子は何かと言われれば、正確には分かりません。
なぜ分からないと言えば、

数量化Ⅲ類とは、

 複数の質的変数間の関連を手がかりとして変数をまとめ・要約し、元のデータの持つ情報をできるだけ少ない合成変数で再現する
 データの縮約と、変数間の関連を規定している潜在的な要因(因子)の抽出

だからです。潜在的な因子なので、それが正確には分かりません。
しかし、確かにブランドに影響力を与えているのです。


じゃあ、結局意味ないじゃん!

いえいえ、そんなことはありません。それを想像できるヒントがありましたよね。
そう、カテゴリスコアの表頭変数を見てください。



 つまり、第一因子(ブランドに一番影響与える)は、
 親しみやすさ、広告が魅力的です。ここからは、その変数の影響力を見て第一因子を推測します。ここでは、馴染みやすい見た目と考えています。

 第二因子では、広告が魅力的、所有率から推測して、「有名人が持っている」と考えています。
 つまり、ブランド力とは、馴染みやすい見た目で、有名人が持っていることを指すわけです。

散布図の見方


 因子をx軸y軸に取ることによって、各ブランドのイメージが分かります。
 例えば、エルメスとカルティエの近くに、高級感と誇らしさがあります。
 エルメスとカルティエというブランドに対して、人々は「高級感と誇らしさ」を持っているということになります。



2016年2月14日日曜日

卒論代行サービスよりも、安くて簡単な卒業論文マニュアル「単純調査卒論」

卒業代行サービスがネットの検索ワードで急上昇中だけど


卒論は大学生にとって最大の強敵
卒論は大学生にとって最大の強敵

 卒業論文は、大学最後の大仕事。内定をもらった人なら当然卒論提出は必須です。
 けれど、2万字の文字量を執筆する卒業論文は、簡単に終わらせることは難しいです。
 出来ない人が多々いる中で、卒業論文を代行するサービスが流行っています。

 約20万円程度(代行サービス料)で大卒の資格が手に入れられれば安いと考える人もいます。
 そういう人たちのおかけで、上記のサービスが成り立っているわけです。
 
 ですが、20万円という金額は高いです。それ以前に卒論代行は辞めた方がいいです。
 自分の能力以上のキャリアは身を滅ぼすだけです。

 というわけで、今回は簡単に卒業論文を自分で書くマニュアルを紹介します。


調査票を仕上げた時点で卒業論文は終わっています


卒論と教授は一蓮托生
卒論と教授は一蓮托生です
2万字の卒業論文と文字量を見ただけで泣きそうになりますが、実際文字数だけでなくページ数で判断されます。
 文字量が多くても、教授が困ります。
 
 表や図を多彩に利用してページ数を稼ぐと共に、見易い卒業論文を目指しましょう。
 表や図をたくさん使うためには、データの分析を主軸に卒論を仕上げるのがお勧めです。
 
流れとしては、テーマ決定、調査票作成、調査実施、分析・報告となります。

 この流れで一番大事なのが調査票作成です。よく調査実施、分析・報告をどうするかと心配されますが、一番初めの調査票作成がうまく出来れば後は流れです。

 力の入れようは、90%が調査票作成です。では、ここから安くて簡単な卒業論文マニュアルの要点を述べます。

卒業論文マニュアル「単純調査卒論」


テーマ決定は、所属しているゼミから適当で、「”自分の所属している学部”の○○○調査」と範囲を限定する


 テーマ決定では、そのテーマ内容よりも、その範囲が重要です。
 日本の○○調査なら、日本1億人を調査対象に選びますから大変です。
 この場合は、実際に調査が不可能なので、代わりのデータを探すのですが、なかなか難しいです。
 そもそも自分のテーマにぴったりな調査結果がネットに転がっている方がおかしいです。だいたいはそのまま使える状態ではない、PDF内の記載とか、他の情報が含まれていることが多いです。たまに有料でデータを配布している団体も存在します。

 また、ネットで拾った場合は、その調査内容や背景自体も調べて、論文に記載しないといけません。
 つまり、自分でやった方が早いわけです。
 
 範囲を自分の学部に狭めることで、
 「一種のオリジナリティを確率する+一般常識的な批評を回避」できます。

重箱の隅を突く人もいます
重箱の隅を突く人もいます
卒論発表時に、
 「それは違うよ!」とダンガンされても、
 「あくまで我が所属学部のことですから」
 と論破できます。

 

調査項目は単純で数値変換しやすいものだけを選定する


 調査項目は、テーマの内容を調べる指標です。
 例えば、「我が学部生の休暇の取り方」調査に設定したら、

 週何日休暇を取りますか?
 休暇は何時間勉強に使いますか?

 全ての答えが数値データになるように統一します。こうすることで分析が楽になるだけでなく、不用意なデータ収集を削ぎ落とせます。

 調査票内で、YES or NO を用意する場合も、YES なら 「1」、NOなら「2」と数値変換することも大切です。

 つまり、設問内容は印象的・定性的な表現でなく、客観的定量的な表現にしましょう。

 具体的に言えば、「休暇は本をたくさん読みますか?」に聞かれれば、
 たくさん読みます。あまり読みません。と返答されて、この判断は人それぞれであり分析しづらいです。

 これを「週に何日読書をしますか?」と定量的に尋ねればと、例え、読書が多いか少ないかが判断できなくても、週○日読んでいますと事実を述べるだけでも、十分調査結果としての意味があります。

調査票はGoogle Apps Script で自動集計で楽チン!


アンケートに答えるのも大変です
アンケートに答えるのも大変です
アンケート調査って大変です。アンケート票を準備する作業や、内容が簡単に変更できない煩わしさがあります。そして、調査対象者に時間を取ってもらう必要があり、調査実施には多大な労力が必要です。

 そこで私が提案するのが、ネットアンケートです。
 Google Apps Scriptでアンケート表を作成して、学生はネットにアクセスして答えるだけです。
 集計もエクセルで自動集計だから、集計作業が簡単になります。

 Google Apps Scriptで自動集計アンケートを作成する方法


 Google ドライブのFormを新規作成して、GUIに任せて調査項目を記入します。

Google form
Befor

Google form-after
After


 自動集計の方法はとても簡単です。

 
回答画面のスプレッドシートアイコン
回答画面のスプレッドシートアイコンを作成します。

すると、エクセル画面が開き調査項目の結果が表示されるようになります。



 これを調査対象者に公開するには、アンケートフォームを右クリックして「リンクを取得」を押して、URLをメールで送ればOKです。

アンケートフォームを右クリックして「リンクを取得」

  

データ分析は、分析する意識よりも見易くする意識

面白い結果よりも、今ある事実です
面白い結果よりも、今ある事実です

 数量的データをばっちり用意し、質的データも簡単に数量的に変換できるデータのため、下手にデータ解析手法をするよりも、今ある現状を分かり易い図や表でまとめる方が良いです。

それでも足りない場合は、もう一回調査を繰り返せば、卒論が息詰まることはありません。


 この「単純調査票卒論」マニュアルの利点は、すぐに調査実施ができることと、不用意なデータによって卒論者の思考を惑わす懸念がないことです。
 足りないデータを小まめに増やせば、文字数ページ数の増加だけでなく、卒論自体の説得力が高まります。



2016年2月12日金曜日

多変量データ解析の手法に迷ったら?

データ解析はいろいろあるから迷ってしまう


 

 多変量データ解析と言っても、重回帰分析、数量化Ⅲ類、主成分分析と、その名前の付け方もバラバラです。結局どの分析をすれば良いのか、初めの段階で躓いてしまいます。



 今回は、とにかく迷ったらこれを見て!という表をブログに上げます。
 多変量解析の分析に迷ったら、一先ずこのイメージ図を思いだしましょう。

多変量データ解析の手法に迷ったら

 図の説明に入ります。外的基準変数は、調べたい値があるかです。つまり、1つの値を調べるために、他の多変量データを解析します。
 外的基準変数がない場合は、多変量データ相互関係から、そのデータの背後に隠れている要素を見つける解析をします。
 量的データとは、数字であり、質的データとは、本来数字でないデータを数字に変換したデータとなります。男と女という性別は、数字ではありませんが、分析しやすいように、男:1、女:2と扱いやすくしたデータを質的データと呼びます。
 

政治学者の京極純一の功績。政治に統計学を!

政治に統計学を導入した第一人者


 京極純一さんは、統計学を始めて政治の分野に導入した方です。
 2月12日にニュースで死去が報じられ、その偉業が語られました。
 「世論調査」や「得票成績」の数値データを基に、
 投票行動や有権者の意識を分析した「政治意識」の分析が注目されました。
 しかし、今の私たちがその恩恵を受けているイメージはあまりありません。

統計学と政治は密接に関係している
統計学は政治と密接に関係している


政治に統計学ってどういうこと?


 例えば、日本国民を豊かにしたいと政治家が思っているとします。
 しかし、街行く人に尋ねても答えがバラバラで、その一人一人の証言は客観性に欠けてしまいます。

 首相『

「近所の安元さんに最近の生活はどうですか?」と尋ねれたら、
「会社がうまく回ってね、いい感じだよ」と言っていました。

日本の景気は順調です』

 そんな答弁では記者も納得しません。なので、日本国民の豊かさを測る指標が必要になります。
 首相「日本国民の豊かさを測る指標が順調に上がっているので景気は回復しています」

 これなら記者もニッコリです。では、そもそも日本国民の豊かさの指標って何でしょうか?

日本の豊かさの指標は決まっていない


 日経平均株価だったり、実質国民総生産だったり、あるいは、実質個人支出だったり。
 どれが正解ではないし、けれど、どれも正解です。

 安部首相にとって日本国民は、日本の経済界になります。
 しかし庶民視点で言えば、事実個人支出を見て欲しい所です。

 統計学が浸透する中で、その扱いがうまかったり、受け手が下手だったりする昨今。
 下手な情報に惑わされない知恵が必要です。





データ解析で嫌われるデータとは?

データ解析を依頼される方の多くは素人

データ解析の依頼主は、データ解析の素養がありません
依頼主さんは、データ解析の素養がありません
だから、データ解析をするデータ自体に頓着しません。とにかくパソコン・サーバーに保存されているデータを、データ解析の「データ」と呼びます。

しかし、そこらへんから取り出せるデータなど高が知れています。データとは、料理でいう材料です。

おいしい料理をシェフに依頼する時に、材料をそこらへんの食材で作ってもらうでしょうか?もしかしたら、それはゴミ(ジャンクデータ)かもしれません。

やり辛いテキストデータ

中でも、数値データではなく、テキストデータを扱うデータ解析は難しいです。

数値データなら、依頼主自体も、なんとなく解析のイメージが掴めますので、一緒にデータ解析のお話ができます。

しかし、商品説明だけのテキストを渡して、「何か利益に繋がる情報ない?」と頼まれても、「無理」と答えるしかありません。なぜなら、それは分析するデータではないからです。

もちろん、テキストマイニングというテキストを分析する手法は存在しますが、その手法は、テキストを形態素解析した前提の話になります。

これならニッコリのデータ形式とは?

では、データサイエンティストにとってうれしいデータとは何でしょうか?
簡単に言えば、先ほど申し上げた数値データです。続いてカテゴリーデータになります。
数値ではないデータを、分析しやすい数値データに変換した形が、カテゴリーデータです。

依頼主との協力で最高のパフォーマンスが出せます
依頼主との協力で最高のパフォーマンスが出せます

さらにニッコリな

data frame×CSV

データフレームとは、tableをイメージしてくればいいと思います。

しかもその形式が、Excelではなく、数値だけのcsv形式なら、さらに「GOOD!」となるわけです。Excelは、セルという装飾があります。結局ExcelのデータはExcel内で分析するしかありません。CSVなら、いろいろな統計解析ソフトに利用でき、解析の幅が広がります。