ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

お助け☆久留米大心理学科コミュの♪統計質問箱♪

  • mixiチェック
  • このエントリーをはてなブックマークに追加
統計に関する質問箱です。色々答えます。ガッコの宿題の場合は、ロウデータがあると追試・再分析しちゃいますっ☆…たぶん。

コメント(33)

○コレスポンデンス分析について…
 本来、コレスポンデンス分析(対応分析)のロウデータは、

※ fair red medium dark black
blue 326 38 241 110 3
light 688 116 584 188 4
medium 343 84 909 412 26
dark 98 48 403 681 85

のように、度数(何人いるか?、何人選択しているか?)のデータを使うみたいです。

でも、日本ではコレスポンデンス分析よりも数量化?類が使われています。数量化?類では同じことをダミー変数を使ってします。
ダミー変数とは、選択肢を選んだ→1、選ばなかった→0としたり、三択で(a)→001、(b)→010、(c)→100と数字を割り当てて変数にしてやることです。
SASでは、ダミー変数化しなくても良いみたいですが、これは欧米では数量化?類が存在しないことに由来しているみたいです。
日本では、数量化?類の方が使われているため、教科書の例では数量化?類用のデータしか載っていないようです。
しかし、コレスポンデンス分析では通常、上のような度数のロウデータを用います。

ポイント:数量化?類=ダミー変数を用いたコレスポンデンス分析
標本平均と母平均の不偏推定値は期待値上一致する。
しかし、標本平均と母平均は一致しない。

なので、母平均の不偏推定値は実はあまり信頼できない数値だと分かる。

それで、区間推定という方法を使って、標本平均から推測した母平均の不偏推定値が、どの程度信頼できるかを調べる。
これが、母平均の信頼区間だ。

母平均の信頼区間の意味は、例えば95%の確率で母平均は○から△の間に入るよってことだ。

こうすれば、ずっと確実に母平均を捉えることができる。

母平均の信頼区間の推定には、分散の情報が使われる。
標本の分散が大きいほど、母平均の信頼区間は広がる。

具体的に言えば、標本がのびた君ばっかりだと、母平均ものびた君ばっかりで構成されるな…って予想がつく。
でも、のびた君ばっかりの標本の中にできすぎ君が何人かいて、分散を大きくすると、母平均を予想するときに予想する精度が下がる。予想の精度が下がるというのは、信頼区間が広がるということだ。


んで、母平均の信頼区間の求め方なのだけど、二つある。
それは、?母分散が既知の場合、?母分散が未知の場合だ。

母分散が既知の場合は、少しおかしいな…って思うかもしれない。心理学をやっていると、母分散が既知の場合なんてあるわけないだろって思うと思う。

ここで、母集団の話を突っこんですると、母集団には?無限母集団と?有限母集団がある。

無限母集団とは、例えば世の中に存在する(した)人全てだ。
これは、人がこの世に生まれ続ける限り母集団の人数は増える。よって、無限だ。

有限母集団とは、H14の○○高校の高校一年生みたいな、母集団が全て決まっている場合である。

母集団とは、このように自分が対象とする集団はなんであるかによって変わる。だから、既知の場合も存在する。


エクセルでは、?母分散が既知の場合の母平均の信頼区間をconfidence関数で、?母分散が未知の場合の母平均の信頼区間を分析ツールを使って求めることができる。




今回の問題は、ここからで(苦笑)?の母分散が未知の場合の母平均の信頼区間の求め方についてだ。

「要説 心理統計法」(山上暁・倉智佐一)によれば、
n=25以上の場合は、
信頼限界(95%)は X(バー)±1.96S/√N … [1]
で求められると書いてある。
しかし、コレは一般的ではない。
一般には、 p98にある X(バー)±t(0.025)s/√N …[2]
の方が一般的である。

ちなみに、「心理学のためのデータ解析テクニカルブック」
には、[1]の式は載っていない。というか、多くの統計の本には[1]の式は載っていない。[1]は大標本における代用法ということだ。
○多重比較

まず、分散分析についての復習。
分散分析の基本的原理は、郡内分散と群間分散の分散比を調べることにある。
例えば、
   A1  A2  A3
    3   7   5
    4   9   4
    4   6   6
    2   5   6
    5   6   8
mean 3.6 6.6 5.8
SD  1.1 1.5 1.5

というデータがあるとする。

この時に、A1の平均、A2の平均、A3の平均という三つの数値の分散(群間分散)と、A1,A2,A3の母分散(郡内分散)の比を取る。このとき、郡内分散は帰無仮説により等しいと仮定される。

要は、処遇による平均の違い(群間分散)と個人差(郡内分散)を比べて、群間分散の方が大きければ、処遇による効果が認められるとするわけだ。

分散の比率を比べるには、F統計量を使う。だから、分散分析にはF値が出る。ちなみに、t検定はt値を使うから、中身としては全然別物。



…んで、ここからが本題(苦笑)
よく、勘違いしている人がいるけれど、多重比較と分散分析は違う分析だ。
一連の流れとしては、一緒に見えるが実は違う。

で、ココで確認しておきたい基本的事項がある。
水準数が2つの場合は多重比較する必要がない。
この場合、帰無仮説(H0)は A1=A2であり、
H1は A1≠A2である。
水準数が3つ以上の場合は多重比較する必要がある。
H0 : A1=A2=A3
H1 : A1≠A2≠A3
なので、どこに差があって、差がないか分からないからだ。

卒論で実験計画を組む場合、多くはプリ―ポストデザインが多い。つまり、実験(処遇・介入)の効果を調べることが多い。
ということは、水準数は前・後の二つだ。
ということは、多重比較する必要はない。
卒論ですら多重比較する機会は案外少ない。


また、関心がない事柄は多重比較(下位検定)をする必要がない。

例えば、童話を読む前後(A1,A2)と被験者の感情の特性(B1,B2,B3,B4)で二要因分散分析をし、A,B共に主効果があり、交互作用が有意になったとしても、
要因Bの単純主効果の検定をする必要はない。
つまり、この実験計画では多重比較する必要はない。
なぜこうなるかは、一番下に書いておきます。
分散分析〜多重比較はただでさえ、結果が煩雑になるので無用なことはしないに限る。


んで、多重比較の話に戻るが、多重比較にはF統計量を使う物と使わない物の二種類がある。
みんながよく知っている、フィッシャーのLSD検定は、F統計量を使うものだ。また、テューキー・クレーマーの方法(HSD検定)は、F統計量を使わない。
だから、java script starでは、LSDの結果が出される。

テューキー・クレーマーの方法(HSD検定より一般的にはこういう)では、F統計量を使わないため、分散分析は不要だ。
なので、分散分析をしないで多重比較をしても良い。


というわけだが、テューキー・クレーマーの方法は、久留米大学では手計算の方法しか教わっていない。

そこで、RかSASを使う。
SASでのやり方は、SASのマニュアルにちゃんと書いてある。
(ちょっと修正が必要なので、後日きちんと修正します。)

Rだと、自宅でできるから便利だ。
要説 心理統計法のp141にあるデータでHSD検定をする場合のプログラムを以下に示しておく。

ロウデータ
 低 中 高
 6 7 8
 3 5 7
 4 6 8
 5 7 9
 2 5 8

プログラム
data<-c(6,3,4,5,2,7,5,6,7,5,8,7,8,9,8)
group <- rep(1:3,c(5,5,5))
tukey(data,group)

結果の出力
$result1
n Mean Variance
Group1 5 4 2.5
Group2 5 6 1.0
Group3 5 8 0.5

$result2
t p
1:2 2.738613 0.0441382005
1:3 5.477226 0.0003841062
2:3 2.738613 0.0441382005

$phi
[1] 12

$v
[1] 1.333333

多重比較する順番は違うが、結果は一致している。
Rでやれば、誤差項をプールする必要もないし便利だと思う。

例えば、心理学のためのデータ解析テクニカルブックのp107に書いてある二要因分散分析(一要因にだけ対応がある場合)のプログラムを下に示す。(この場合、交互作用の下位検定には誤差項をプールしたものを使うと書いてある。)

ローデータ
       A1     A2
    B1 B2 B3 B4  B1 B2 B3 B4
     3 4 6 5 3 2 3 2
     3 3 6 7 5 6 2 3
     1 4 6 8 2 3 3 3
     3 5 4 7 4 6 6 4
     5 7 8 9 6 4 5 6
mean   3 4.6  6 7.2 4 4.2 3.8 3.6


※Aは対応なし、Bは対応あり
分散分析表は割愛。主効果Bと交互作用が有意である。
よって、Aの各水準におけるBの主効果(単純主効果)を調べる

その結果、A1におけるBの単純主効果が有意となった。(F=12.02, p≦.05)

…という長い前置きで(苦笑)A1におけるB1,B2,B3,B4の多重比較を行う。
HSD=1.96であり、
A1におけるBの平均値の差の表は

○ B1 B2 B3 B4
B1 0 1.6 3 4.2
B2 1.6 0 1.4 2.6
B3 3 1.4 0 1.2
B4 4.2 2.6 1.2 0

である。普通は対角要素、及び下三角要素か上三角要素は省略する。(対角要素は必ず0になるしね…)

よって、B1:B3, B1:B4, B2:B4が1.96より大きいので、有意さあり、他の組み合わせは有意差なしとなる。
これをRでやると…

プログラム
data1<-c(3,3,1,3,5,4,3,4,5,7,6,6,6,4,8,5,7,8,7,9)
group <- rep(1:4, c(5,5,5,5))
tukey(data1,group)

結果
$result1
n Mean Variance
Group1 5 3.0 2.0
Group2 5 4.6 2.3
Group3 5 6.0 2.0
Group4 5 7.2 2.2

$result2
t p
1:2 1.735444 0.338711852
1:3 3.253957 0.023166628
1:4 4.555540 0.001658858
2:3 1.518513 0.450032030
2:4 2.820096 0.054069385
3:4 1.301583 0.575059687

$phi
[1] 16

$v
[1] 2.125

2:4の組み合わせが微妙な所で非有意だ。
これは、誤差項をプールしていない為に、検出力が若干下がっているためだ。
調べたところによると、SASのプログラムでも誤差項をプールする方法がないらしい。
誤差項をプールする場合は、手計算しかないね。


**********************************
答え:
童話の効果に興味があるわけで、感情の特性の違いを見いだすことに関心があるわけではないため。

まあ、要は平○の統計を受けた人は誤差項をプール?
プールってなんぢゃーってみんな思ってると思うけど、
プールとかあんまし、気にしないでよいよってことを言いたかったのです。。

参考文献等
要説 心理統計法
心理学のためのデータ解析テクニカルブック
Q&Aで知る 統計データ解析
青木教授のサイト:
http://aoki2.si.gunma-u.ac.jp/R/tukey.html
○共分散分析

共分散分析は、共分散構造分析(共分散構造モデリング)とは全然違う分析方法だ。

共分散分析は、分散分析の特殊型と捉えると理解しやすい。

共分散分析は、二要因の分散分析(混合型:一要因に対応あり、一要因に対応がない)で、用いる。また、その際、水準数は二つとも2であることが条件。

メリットとしては、分散分析よりも検出力が高い。つまり、有意差が出やすいことにある。


例)
暗算能力を測るテストがあるとする。そして、この暗算能力を上げる訓練法Aがあったとする。
ある、時点で実験群、統制群ともに暗算能力を測るテストを施行し、暗算能力を測る。その後、訓練法を試しても良いという希望者に訓練法Aを試す。訓練後、実験群・統制群共に暗算能力を測るテストを行う。

この場合、多くの人は二要因分散分析を行うと思う。
しかし、分散分析では、確率誤差(偶然誤差)の中に系統誤差(訓練に参加する=やる気がある)という誤差が混入してしまう。

そこで、この交絡を防ぐために共分散分析を行う。

具体的なデータ例(テクニカルブックp280)

A1 A2
B1 B2 B1 B2
1 2 1 2
2 1 1 5
3 4 2 6
3 3 3 6
5 6 4 7
5 8 5 10

A1…統制群、A2…実験群
B1…事前テスト B2…事後テスト
である。

これを、分散分析してみる。

Java-script STARでやった場合…

プログラム
AsB
A
2
B
2
6 6 6 6
1 2
2 1
3 4
3 3
5 6
5 8
1 2
1 5
2 6
3 6
4 7
5 10

結果
== Analysis of Variance ==

A(2) = A
B(2) = B
-----------------------------------------------------
S.V SS df MS F
-----------------------------------------------------
A 3.3750 1 3.3750 0.39 ns
Sub 85.0833 10 8.5083
-----------------------------------------------------
B 26.0417 1 26.0417 28.67 **
AxB 9.3750 1 9.3750 10.32 **
SxB 9.0833 10 0.9083
-----------------------------------------------------
Total 132.9583 23 +p<.10 *p<.05 **p<.01

である。



Rでやると…

プログラム(青木先生の関数を使用)
data <- array(c(1,2,3,3,5,5, 2,1,4,3,6,8, 1,1,2,3,4,5, 2,5,6,6,7,10), dim=c(6,2,2))
ASB(data)

結果
SS df MS f p
Factor A 3.375000 1 3.3750000 0.3966699 0.5429356680
S 85.083333 10 8.5083333 NA NA
Factor B 26.041667 1 26.0416667 28.6697248 0.0003215776
AxS 9.375000 1 9.3750000 10.3211009 0.0092902473
SxB 9.083333 10 0.9083333 NA NA


共に、Aの主効果(この場合、実験群と統制群の差)は非有意である。つまり、訓練法の効果はなく、事前テストの練習効果によってのみ事後テストの点数が上がるという結論になってしまう。(Bの主効果(事前テストと事後テストの差は有意である。))

ここで、共分散分析を行う。
共分散分析を行う前提条件がある。
これは、常識的なものが多いので教科書に譲る。
例えば、従属関係に線形性が求められる等である。

数学的には?被験者の測定値に高い相関があること、?実験群と統制群で相関係数が同質であると見なせることである。
テクニカルブックp281には、このことが小難しく書いてある。

?の被験者の測定値に高い相関があることという条件は、平たく言えば、事前テストで高い点数を取った被験者は、事後テストでも高い点数を取っていることである。

?の実験群と統制群で相関係数が同質であることというのは、例えば、実験群の被験者では事前・事後テストで高い正の相関が見られたのに、統制群では高い負の相関が見られた場合に問題になる。この時は、実験群と統制群で相関係数が大幅に違う。
これは、相関係数の同等性の検定で行うことができる。

具体例のデータでこの検定を行う。
Rでは…

プログラム
(具体例から、相関係数を算出し、同等性の検定を行うまで)

data1<-cbind(c(1,2,3,3,5,5), c( 2,1,4,3,6,8), c(1,1,2,3,4,5), c( 2,5,6,6,7,10))
n<-c(6,6)
r<-c(cor(data1[,1],data1[,2]),cor(data1[,3],data1[,4]))
eq.cor(n,r)

結果
chi sq. d.f. P value Estimated r
0.01261003 1.00000000 0.91058997 0.90133395

ここで注意したいのが、帰無仮説(H0)は差がない仮説ということだ。つまり、H0:二つの相関係数に差がない である。つまり、P値が0.05を超えているので、差がない=同質であると見なせるわけである。

そして、やっと(苦笑)共分散分析を行う。
具体例をRで行う。

プログラム
data2 <- matrix(c(1,2,1, 2,1,1, 3,4,1, 3,3,1, 5,6,1, 5,8,1, 1,2,2, 1,5,2, 2,6,2, 3,6,2, 4,7,2, 5,10,2), ncol=3, byrow=T)
covar.test(data2, 1, 2, 3)

※注意
データ行列は以下のようになる。
[,1] [,2] [,3]
[1,] 1 2 1
[2,] 2 1 1
[3,] 3 4 1
[4,] 3 3 1
[5,] 5 6 1
[6,] 5 8 1
[7,] 1 2 2
[8,] 1 5 2
[9,] 2 6 2
[10,] 3 6 2
[11,] 4 7 2
[12,] 5 10 2

[,1]はB1、[,2]はB2、[,3]はA1かA2かになる。
分散分析等も実はこのような打ち込み方の方が多い。

結果
$part1
[1] "H0: All slopes are equal."

$result1.1
SS d.f. MS
group x slope 0.02015675 1 0.02015675
residual 12.79512987 8 1.59939123
total 12.81528662 9 1.42392074

$result1.2
F value d.f.1 d.f.2 P value
0.01260277 1.00000000 8.00000000 0.91338139

$part2
[1] "H0: Adjusted means are equal"

$result2.1
SS d.f. MS
effect & group 21.67388 1 21.673877
residual 12.81529 9 1.423921
total 34.48916 10 3.448916

$result2.2
F value d.f.1 d.f.2 P value
15.221266826 1.000000000 9.000000000 0.003611463

result2.2のF=15.22で、P値が有意になっている。
よって、この実験では、訓練法の効果があると分かる。
目の前の結果(実験結果・調査結果)が、統計的にみて起こらない確率をP値(危険率)という。

P値が0.05以下だと、有意差ありとなり、対立仮説を採択することになる。(有意水準5%のとき)

そして、このとき統計量は臨界値を上回る。例えば、t検定では、t値が臨界値を超える。



ここで気になるのが、標本数だ。統計は通常、少ない標本から母集団を推測するためにある。

だから、標本数があまりに大きくなると精度が落ちる。

もっと言えば、ちょっとした平均値の差でも、標本数が大きくなるほど、有意差が出やすくなる。

例えば、?n=100,mean=0,sigma(不偏分散)=1の乱数と、?n=100,mean=0.2,sigma(不偏分散)=1の乱数
という二つのデータに対して、対応のないt検定をすると、

プログラム(R)
x1<-gendat1(100,mu=0,sigma=1)
x2<-gendat1(100,mu=0.2,sigma=1)
t.test(x1,x2,var.equal=T)

結果
二標本t検定(分散が等しいと仮定できるとき)

データ: x1 と x2
t値 = -1.4142, 自由度 = 198, P値 = 0.1589
対立仮説: 母平均の差は,0ではない
95 パーセント信頼区間: -0.47888539 0.07888539
標本推定値:
平均値x 平均値y
-4.830663e-18 2.000000e-01


となり、有意差はない(平均値の差は、0.2)
しかし、これを、500の標本で同じ事をすると…

プログラム
x3<-gendat1(500,mu=0,sigma=1)
x4<-gendat1(500,mu=0.2,sigma=1)
t.test(x3,x4,var.equal=T)

結果
二標本t検定(分散が等しいと仮定できるとき)

データ: x3 と x4
t値 = -3.1623, 自由度 = 998, P値 = 0.001613
対立仮説: 母平均の差は,0ではない
95 パーセント信頼区間: -0.32410952 -0.07589048
標本推定値:
平均値x 平均値y
6.989092e-18 2.000000e-01

…となり、同じ平均値差(0.2)で有意になる。
標本は、多い方がいいけれど、無駄に標本数を増やしてもしょうがない。
卒論等では、縁がないかもしれないけれど、気をつけたいところだ。詳しくは、検定力分析(パワーアナリシス)の結果をつけるといいと思われる。



研究において、有意差が出ることのみがいい結果だという価値観があるように思える。

しかし、有意差が出ないことも立派な結果だし、有意差が出なかった研究を発表しないと出版社バイアスへと繋がる。

有意差が出ない場合、自分の仮説を振り返り、もしかして自分が立てた仮説は微妙に的を外していたのか…などと考察してみるのも良いし、消極的に今回の処遇では変化(効果)はないという結果も得られる。この辺は、ちょっと探せばどこにでも書いてある。

逆に、有意差が出たからといって、良いとは限らない。
例えば、ある国語の教授法の効果を測った場合、授業前後でクラスのテストの平均が5点上昇し、有意差が出たからと言って、この教授法の効果があると言えるだろうか?

統計的な有意差と、実質科学的な有意差は違う。


他にも、重回帰において、パス係数(β)が有意になったからといって、決定係数が低くてはしょうがない。

モデル適合が良くても、説明率が悪くてはモデルとしての価値は落ちる。
対象:「要説 心理統計法」の教科書を使ってる人

p98にある、[7-4-3]、[7-4-4]の式で、√N を√(N-1)に書き換えろという指示があったっぽいね。

この理由は、どうも√Nの前にあるsが原因やね。

テクニカルブックをみると母平均の信頼区間の下限は…

X(バー) − tα σ(ハット) / √n

とある。(テクニカルブック:p60)

要説の方で、下限は

X(バー) − tα s / √n

と書いてある。

あれ、sは標準偏差の不偏推定値じゃない…?って思った人。
その通りです。

でも、要説の方のp91の式[7-1-2]で、「s」は不偏推定値として記されている。
なのに、説明には「標本としてのデータの標準偏差という意味で、sという符号を用いることにする。」と書いてある。

とにかく、この教科書で、「s」とは標準偏差の不偏推定値であるらしい。
しかし、世間の常識的には、
s は 標本の標準偏差
σ(ハット)が標準偏差の不偏推定値 だ。

だから、原○先生は、将来を見越して(?)書き直させたのだと思う。

そう考えると、母平均の信頼区間の式は
X(バー) − tα s / √(n-1) だ。

だって、sの分母は元から√nだからね…。
前と後ろを入れ替えただけです。

母平均の信頼区間を推定する場合は、母分散が既知の場合もあるので注意…。こっちは、普通使わないと思う。


ちなみに、分析ツールは未知の場合、confidenceは既知の場合やね。

あと、F検定の臨界値はFINV関数でだすんよね。

詳しくは…
http://page.freett.com/desperado/benkyo/yakunitatu.htm

にある、心理統計解説(Excel)を参照。
Q.なぜ重回帰分析では、偏回帰係数を解釈するのに、パス解析では標準偏回帰係数を解釈するのか?

A.SASで重回帰とパス解析を行う場合、プロシジャは同じなのに、stb(標準化オプション)を付けたり、着けなかったりします。この理由は、重回帰分析では元の変数の単位を解釈に利用するのに対し、パス解析ではパス係数の比較をする為です。
例えば、重回帰分析では説明変数の値を1上昇させると、目的変数の値が偏回帰係数でかけた値分上昇します。y=英語の点数、x1=勉強時間、β=0.4ならば、25時間勉強すれば、英語の点数は10点上がると予測できます。(10=0.4x25)
しかし、これでは偏回帰係数通しでは単位が違うために比較できません。パス解析では、単位が違う変数に対してもその影響力の大・小を比べるために標準化して単位を揃える必要があります。この時は1標準偏差分、説明変数を上昇させると…という図式になります。
Q.なぜ共分散構造分析、検証的因子分析において、双方向の矢印は共分散と言うのか?相関ではないの?

A.相関係数は、r=Sxy/(sx * sy)です。つまり、x,yの共分散をx,yの標準偏差で除したものです。AMOSで標準化した共分散とは相関係数になります。共分散構造分析では、その単位の違いを生かして分析するので分散・共分散行列から計算するそうです。
Q.分散分析の原理ってどうなってるの?

A.分散分析とは3水準以上の平均値の差を検定する場合に用います。例えば、30人のクラスで国語、算数、英語のテスト結果が得られたとします。この時、国語における点数の分散、数学における点数の分散…というように三つの分散が出ます。これは、いわゆる個人差の散らばりなわけです。次に、国語・算数・英語の平均点の分散を計算します。これは水準による散らばりです。平たく言えば、科目によって平均的にどれぐらい点数が変わるかを調べます。
各科目における分散の平均(科目による個人差)<各科目の平均点の分散(科目による変化)が起こっている場合に平均値に差があると見なすわけです。簡単に言うと、個人差を科目による違いが上回ったときです。
このように分散分析では二つの分散を比べます。二つの分散を比べるときはF値を利用します。分散分析は分散を分析するという意味ですよね。そして、結果の報告もF値で行います。
Q.一要因の分散分析がわからん、具体的にはどう分析を進めるの?

A.分散分析の原理はおいておいて、分散分析における分析の進め方を解説したいと思います。分散分析とは、2群以上の平均値の差を検定する場合に使います。二群の場合はt検定と同じ判断をします(統計量は違いますが…t^2=Fという関係式が成り立ちます。)
例えば、A市、B市、C市に住んでいる人を無作為に選び出し、選び出した人の平均所得を考えます。この時、帰無仮説は「A市、B市、C市の平均所得額に差はない」になります。この結果、分散分析が「差がある」と判断すれば、「どこに差があるか?」が問題となります。一要因の分散分析では、どこに差があるかまでは調べてくれません。ここで、多重比較をします。多重比較ではテューキーのHSD検定を授業で習うと思います。この方法により検定される帰無仮説は
?A市、B市の平均所得額に差はない
?B市、C市の平均所得額に差はない
?A市、C市の平均所得額に差はない
の三つになります。
Q.二要因の分散分析が分かりません…

A.二要因の分散分析は、一要因の分散分析に比べて複雑になります。分散分析の手順は常に
?全ての条件の平均値が同じかどうかを検定
?もし、違えば、”どこに差があるか?”を調べる
…という二つの手順を踏んでいることを心にとめておいて下さい。

さて、A市、B市、C市における男女別の平均所得を考えてみます。この時、住んでいる場所(3箇所)×男女(2タイプ)ですね。よって、平均値は2 x 3 = 6です。
まず、STAR等の出力では、主効果、交互作用という所が出てくると思います。

主効果とは、要因による効果があるかないかです。例えば、住んでいる場所によって平均所得に違いがあれば、住んでいる場所における主効果があるといいます。男女についても同じ事です。性別による主効果があったといいます。ここで、ポイントなのは、男女で平均所得が同じではないと分かると男女に差があるとすぐに分かるのですが、住んでいる場所によって平均所得が同じではないと分かっても、どの組み合わせに差があるかは分からないことです。

交互作用とは、A市に住んでいる女性だけが平均所得が高い…というような、二つの要因が重なっている場合にのみ平均値が有意に上昇(減少)する場合にみられます。ここでのポイントは、交互作用が有意になると、主効果の検定はみなくて良いということです。ここでのポイントは、交互作用が見つかっても、どこに交互作用があるかは分からないということです。

さて、ここからは分析の流れが大きく二つに分かれます。
?交互作用がない場合
?交互作用がある場合
です。

?交互作用がある場合
交互作用がある場合は、主効果について、多重比較を行います。この場合は二つの主効果があります。住んでいる場所と男女です。しかし、男女は男と女の二つしかないので、すぐにこの二つに差があると分かります。それで、どこに差があるか分からない「住んでいる場所」に対して多重比較を行うことで、どこに差があるかを調べます。多重比較の方法はHSD検定です。この主効果についての多重比較を行っているときは、多重比較を行っていない要因については、全てを込みにしていることに注意します。つまり、住んでいる場所について多重比較をしている場合は、男女関係なく、A市、B市、C市に住んでいる人の平均を比べているということです。

?交互作用が有意になった場合
交互作用が有意になった場合「単純主効果の検定」を行います。単純主効果とは、各水準ごとにおける主効果という意味です。具体的には、A市、B市、C市に住んでいる男性”だけ”の平均値を比べる等です。この場合、単純主効果の検定は、
a. A市における男女の平均所得に差があるか?
b. B市における男女の平均所得に差があるか?
c. C市における男女の平均所得に差があるか?
d.男性において、住んでいる場所により所得に差があるか?
e.女性において、住んでいる場所により所得に差があるか?
という5つが調べられることになります。
STARでは A at B1, B at A1等と表示される部分です。この単純主効果の検定で有意になると、これらに差があると分かります。
さて、このa.とd.を見てみます。a.の検定が有意になると、A市においては、男女によって所得に差があるとすぐに分かりますが、d.の検定が有意になっても、どの市とどの市に差があるかは実は分かりません。よって、多重比較を行う必要があります。

このように、分散分析は、常に
?全ての条件の平均値が同じかどうかを検定
?もし、違えば、”どこに差があるか?”を調べる
という二段階のステップを何度も踏んでいます。
Q.対応があるって何?

A.対応があるとは、人が同じと考えると簡便でいいと思います。例えば、クラス20人が古文と漢文を受け、その平均点を比べる場合、科目(古文と漢文)という要因は対応があるといいます。
もっといえば、データに相関関係がある場合に対応があるといいます。例えば、古文で高い点数をとった人は漢文でも高い点数をとることが予想できます。このように、ある水準で点数が高い被験者は、別の水準でも点数が高いことを考慮して行う為に対応があるかないかを調べます。
分散分析におけるSはSubject(被験者)です。検定には、直接意味を持ちませんが、これが有意になるということは個人差があるということです。対応がある要因が増えるにしたがって、誤差(水準の差では説明できない差)から被験者の要因が分離されていきます。
Q.要説 心理統計法(p122)には対応のある場合のχ2検定が書いてありますが…

A.χ2検定は対応がない場合に用います。この本のこの箇所に書いてある「対応のある場合のχ2検定」は間違いで、正しくは「マクネマーの検定」といいます。

参考
http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/McNemar-test.html
Q.多重共線性モドキってなんですか?

A.はっきり言って,これは原口先生が勝手に使ってる言葉で,どの本を読んでも,この言葉そのままは載っていません(苦笑)
多重共線性が疑われる場合とは,重回帰分析において,説明変数を選択しているときに,偏回帰係数が不安定になる時です.この時,説明変数間には中程度から高い程度で相関があります.また,説明変数と目的変数の相関係数と偏回帰係数の符号が違う場合もこれが疑われます.これらが,多重共線性であるかどうかは,VIFかトレランスといった指標で判断します.
ただし,抑制変数である場合も実はあります.抑制変数とは,説明変数と目的変数の相関が0に近いのに,他の説明変数をモデルに投入したり,削除したりする場合に,その変数の偏回帰係数が不安定になる状態です.
この場合,パス解析モデルにすると,抑制変数であると分かり,とても面白い知見が得られると豊田先生は述べています.しかし,経験上は多重共線性である場合が多いそうです.また,多重共線性とはマルチコと呼ばれることもあります.
Q.因子分析における収束って何ですか?

A.探索的因子分析では,まず共通性が推定されます.共通性の下限は重相関係数の平方(SMC)であり,上限は1です.反復推定をしない方法では,1から推定を始め1回の推定で終ります.(なので,自動的に不適解は出ません.)反復推定の場合(反復主因子解,最小二乗法,最尤解)は,SMCから推定をはじめ,共通性を算出します.その後,その共通性をもとに因子負荷等を計算し,その値から共通性を再び求めます.理屈は難しくて分からないのですが,この時,先に求めた共通性と新しく求めた共通性は同じ値にならないそうです.そこで,新しく求めた共通性をもとに再計算を行います.これが反復です.そして,この新しく求めた共通性と,前の共通性の誤差が一定以下になり,これ以上の反復推定の必要はないと判断した状態を解が収束したといいます.
また,この反復の途中で共通性が1を超えてしまうことを不適解といいます.そして,収束が早いとは,反復推定の数が少なくて解が収束することをいいます.
Q.P値って何ですか?

A.学校の授業では習わないので、知らない人が多いみたいですが、P値とは有意確率のことです。平たくいえば、対立仮説が間違っている確率です。もっといえば、目の前にあるデータにある差(平均値の差や分散の差)が偶然である確率です。
0.5 < P <0.10 → 10%の有意水準で有意(傾向)
0.01 < P <0.5 → 5%の有意水準で有意
P<0.01 →1%の有意水準で有意です。
また、よくSAS等の出力である。「<0.000001」という表示は、P値が0.000001未満であることを示しています。
そして、エクセル等でよくある「7.2E-7」等の表記は、「7.2」に対して、10の-7乗した数であるという意味です。自信がないときは、右クリック→セルの書式設定→標準→小数点以下の桁数で表示桁数を変えてみて下さい。
このように、P値を見れば、いちいち臨界値をひく必要はありません。
Q.分散分析後の多重比較で、なぜt検定を繰り返してはだめなの?

A.例えば、サイコロを一回振って1が出ない確率を考えて下さい。5/6ですよね。では、二回振って1が一回も出ない確率を考えましょう。(5/6) x (5/6) = 25/36 ですか?違いますよね。1が一回でも出る確率は、○○、○×、×○の3パターンあります。よって、1 - 3/36 = 33/36 ですよね。これは、5/6(30/36)よりも大きくなっています。同じ事を繰り返せば、それだけ、その事象が起こる確率は増えます。
つまり、5%の確率で間違えを許すという5%の有意水準は、何度も繰り返すと全体として、間違いを起こす確率が5%を超えてしまいます。このように間違いを犯す確率を増やさないように全体としての有意水準を調整する方法が多重比較です。
もっとも単純な多重比較法であるボンフェローニの方法では、繰り返しを行った分だけ有意水準にペナルティを加えることでこの問題を解決しようとします。
例えば、A1,A2,A3の三つの平均に差があるかを検定する場合、組み合わせは 3C2 = 3 で3通りの比較が成り立ちます。そこで、有意水準を5% / 3 で 5/3%(約1.67%)と厳しくします。この1.67%水準でt検定を行うわけです。
Q.探索的因子分析で不適解(ヘイウッドケース)になりました.どうしたらよいですか?

A.まず,探索的因子分析の際に,解の推定方法を最尤法にしているならば,最小二乗法にしてみてください.最小二乗法の方が不適解になる確率は低いです.(また,斜交回転が分かるなら,斜交回転を使ってみるのも手だと思います.)
次に,最小二乗法で不適解が起こる場合ですが,まず,heywoodと入力して共通性が1になる項目を見つけます.例えば,
proc factor method=ml priors=SMC rotate=varimax heywood;
等にします.(これは,最尤解)こうすると,共通性が1を超えた場合は,共通性=1として最後まで計算されます.(ちなみに,ULTRAHAYWOODと入力すると,共通性が1を超えても反復推定を行ないますが,やっても意味ないです.)
そうして,共通性が1になった項目を削ってみて,もう一度不適解が出た場合ですが,因子数を減らしてください.因子数が多いと不適解が生じやすいです.(因子数の決定については,別の質問を参照.)
因子数を減らしても,不適解になる場合は,反復主因子法を使います.反復主因子法を用いると,ほとんど不適解にはなりません.しかし,これはあまりお勧めできる方法ではないです.卒論なら,できれば因子分析をやめた方がいいと思います.
理由としては,反復主因子法と最小二乗法は,本来同じ解(結果)を与える方法です.二つの違いは収束へのアルゴリズムの違いであり,収束が早く,洗練されたプログラムで不適解が出て,旧来のアルゴリズムでは不適解が出なかった場合,この不適解になるという結果を無視していることになるからです.
そして,最後の手段は主因子法です.主因子法は絶対に不適解になりません.その代わり,第一因子に負荷が高い項目が多くなります.
注意点としては,主成分解は使わないことです.主成分解というのは,実はありません.SASでは主成分解と称して主成分分析をしています.(ただし,因子数を決定する際に用いる場合は主成分解でよいです.)

参考
Q&Aで知る統計データ解析 Q71
http://www.sigmath.es.osaka-u.ac.jp/~kano/old/research/meeting/003nisshin12/sefa2001.ppt
http://www.sigmath.es.osaka-u.ac.jp/~kano/old/research/meeting/003nisshin12/efa.ppt

探索的因子分析をネットでするなら→
○SEFA
http://koko15.hus.osaka-u.ac.jp/sefa/
Q.κ(カッパ)係数って何ですか?

A.例えば,AさんとBさんが,ある子供が笑ったか,怒ったか,泣いたかを同じビデオを見て採点したとします.この時,AさんとBさんの評定の一致率を示す指標です.
Q.オッズ比って何ですか?

A.例えば,Aクラスでのインフルエンザにかかった人,かからなかった人の比率と,Bクラスでのインフルエンザにかかった人,かからなかった人の比率を比べ,どちらのクラスの方がインフルエンザにかかったかを調べる指標です.
Q.生存分析って何ですか?

A.あるイベントが起きてから,次のイベントが発生するまで,時間によってどのように発生率が変化するかを調べる方法です.例えば,癌が発見され,ある抗がん剤を投与し,再発するまでの時間を調べ,この抗がん剤を投与した場合にこの抗がん剤を用いた発症率の変化を調べることができます.
また,癌などに限らず別の疾患なども用いることができます.例えば,ADHD児に対する反抗挑戦性障害の発症率など….
Q.共分散が単位依存で、相関係数が単位に依存しているってどういうことですか?

A.共分散とは、定義式を見れば分かると思いますが、Σ(Xi-Xvar)(Yi-Yvar)です。varは平均の意味。この式の意味は、平均点を0に調整し、XiとYiが第何象限にあるかの情報を+-で表しています。例えば、第三象限ならば、Xi<0,Yi<0なので積は+になります。このようにして1,3象限にあれば+の影響力を、2,4象限にあれば=の影響力を持ちます。また、原点(0=平均点)からどれだけ離れているかの情報も持っています。よって、これらを足し合わせることで、原点からどの方向(象限)に向かってどれだけ離れているかを示すことになります。
ここで、標準化ということを思い出してください。標準化とは平均=0、標準偏差=1に変数を調整した得点のことです。共分散を計算する過程では平均を0にしていますが、標準偏差を1にしていません。よって、XとYの標準偏差で割って、標準化しなければなりません。
このようにして標準化すれば、体重と身長の相関と、年齢と体重の相関といったように単位が違う場合でも、その相関係数を比べることができます。比べることができるということは標準化してあるからです。しかし、共分散のままでは単位が標準化されていないので、比べることはできません。
因子分析は相関係数を用いますが、主成分分析や共分散構造分析(SEM)では、共分散・分散行列から計算をはじめます。(主成分分析の場合は、相関係数からもはじめることが多いですが)共分散・分散行列とは、非対角要素に共分散が、対角要素に分散が入った行列です。対角要素に分散が入るわけは、変数が同じであると共分散の公式は分散と一致するためです。
Q.家でパス解析ってできるんですか?

A.SASのregプロシジャでやっているパス解析は、実はエクセルの分析ツールで全く同じ出力を得ることができます。これは、SASのregプロシジャでは重回帰+単回帰の繰り返しを単に行なっているだけなのでできます。
やり方は、SASのregプロシジャで、モデルを指定しているところを、一回一回、エクセルの重(単)回帰でやればいいです。この時、注意することは、変数は変数ごとに標準化しなければいけません。でないと標準化回帰係数はになりません。このことに注意してください。
また、真のパス解析である共分散構造分析(SEM)は、家でやるならMxを使います。SASでは、CALISプロシジャを使います。
Q.パス解析をしました.直接効果と間接効果の符号が逆なのですが,おかしいですか?

A.おかしくありません.これは,むしろ面白い知見だと思って良いと思います.このとき,二変数の相関係数,直接効果,間接効果を比べて見ましょう.詳細は,共分散構造分析[入門偏]を参照して欲しいと思います.
また,相関係数は0に近いのに,直接効果と間接効果が共にある状態(直接効果と間接効果が打ち消しあっている状態)を抑制変数といいます.また,できれば多重共線性のチェックもしてください.
Q.t検定において,帰無仮説が正しいと過程した場合,統計量tが大きくなるほど,その確率が低くなる…という記述が分かりません.統計量tが大きくなるとは,平均値の差が大きいということなので,確率が低くなるというのは逆だと思います.

A.まず,統計は帰無仮説が正しいと仮定した上で,帰無仮説が起こる(生起する)確率を考えているという前提があります.帰無仮説が生起する確率が5%以下であると,帰無仮説は間違っていたと判断し,対立仮説を採択します.なので,統計量tが大きくなると,帰無仮説の起こる確率は減少します.
これは,tの臨界値の表を見ても分かります.
第一種の過誤についての知識も理解を役立てると思います.
Q.尺度得点と因子得点の使用について注意すべきことがありますか?

A.尺度得点とは,基本的に標準化されている尺度であれば,問題はありません.ただ,因子得点と尺度得点の相関がかなり高くないと(0.9はあった方がいいと思います.),その尺度得点の妥当性は怪しくなってきます.
Q.Yes or No形式の問題を18問用意しました.この18問の問題は,3つの領域から成り立っています.そして,この三つの領域における問題の数は,5,6,7と異なっています.この状態で,三つの領域における選択率の差を分散分析で調べたいと思います.しかし,パーセントをそのまま分散分析にかけて良いのでしょうか?

A.角変換をしてから分散分析をしてください.
参考
http://home.hiroshima-u.ac.jp/keiroh/maeda/statsfaq/arcsin.html
Q.6件法の問題を20問用意しました.この問題は3つの種類の問題に分けられています.しかし,各々の種類の問題数はバラバラです(例えば,10,5,5).よって,各領域ごとの平均点をとりました.こうして得られた被験者一人につき三つの平均を,平均して分散分析をしようと思いますが,平均の平均の差を比べることはおかしいのですか?

A.分析単位が"平均"になるだけなので,問題はありません.ただ,その各種類が本当にその種類になっているのかを検証する必要があると思います.
Q.複数選択可の問題で,反応の個数の違いをχ2検定で調べたいと思います.

A.χ2検定では,互いの事象は独立でなければなりません.この場合,コクランのQ検定かマクニマーの検定を用います.
また,傾向を調べるには,数量化?類か,コレスポンデンス分析(一問ならばシンプル,多問ならばマルチ)を用います.
Q.重回帰分析における多重共線性の見つけ方について教えてください.

A.最近の研究では,VIF≧10という基準は甘いと言われており,VIF≧4程度が良いとされているそうです.よって,VIFばかりで多重共線性の発見をしようとすると,基準が甘く見つけにくいのが現状です.
多重共線性のチェックは,まず説明変数同士の相関行列を吟味してください.経験的には,0.5を超えるとダメな気がします.次に,説明変数を出したり入れたりして,偏回帰係数(β)がどの程度変動しているかを調べます(例えば,A,B,Cという説明変数がある場合は,3C2=6通りの説明変数のパターンがありますよね.).変動が大きい説明変数は多重共線性が起っている可能性があります.
ただし,この場合は原口先生的には「多重共線性モドキ」という状態の場合も稀にあります.この場合,この説明変数が抑制変数として機能しています.
抑制変数とは,y=x1 x2という重回帰式の場合を例に考えると,yとx1の単相関が0に近いのに,x2を重回帰式に投入すると,yとx1の偏回帰係数が出現するという現象が起った場合に疑われます.この場合,パス解析に移行すると,かなり面白い知見が得られます.ただし,豊田氏によるとこのような現象は非常に稀なのだそうです.
また,実際に多重共線性と考えられる場合は,当該の説明変数のうちどちらかを除くか,質的に同じであると判断できる場合は,総和をとるなど合成します.

ログインすると、残り3件のコメントが見れるよ

mixiユーザー
ログインしてコメントしよう!

お助け☆久留米大心理学科 更新情報

お助け☆久留米大心理学科のメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。

人気コミュニティランキング