ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

統計家コミュの回帰分析とロジスティック回帰分析に関して。

  • mixiチェック
  • このエントリーをはてなブックマークに追加
通常、因果関係を検討する際には、説明変数を原因、基準変数を結果とするものを(重)回帰分析だと解釈していますが、この際説明変数が質的変数の場合、ロジスティック回帰分析での統計的検証でよろしいのでしょうか。

また、単変量ロジスティック回帰分析と多変量ロジスティック回帰分析との違いもよく分からないでいます。よろしければ、ロジスティック回帰分析の簡易的な具体例を踏まえご教示頂けると幸いです。是非、よろしくお願いします。

コメント(37)

あまりにも誰も反応しないので、、、、そして、だいぶ迷ったんですが。
わたくしも詳しくないのですが、私の理解では

ロジスティック回帰とは、目的変数(従属変数)が

「成功・不成功」や「あり・なし」

のような二値を取るデータに対して、独立変数(説明変数)の効果を調べる
統計モデルです

例えば、ロジスティック回帰を使えば、肺がんになる確率を、
吸うタバコの本数から調べることが出来るでしょう。

>説明変数が質的変数の場合、ロジスティック回帰分析

関係ありません

なんだかなあ。
ロジスティック回帰は、線形回帰をロジスティック変換しただけの「一般化線形モデル」です。

そのため通常の線形回帰と同じように、因果関係は検討することはできません。
あくまでも、非線形変換した相関関係をモデル化しているだけです。

また、ロジスティック回帰の説明変数に質的変量を使うことは可能です。


>二値を取るデータに対して、独立変数(説明変数)の効果を調べる

「被説明変数が0−1変数でない、ロジスティック変換の一般化線形モデル」を
ロジスティック回帰と呼ぶかどうかは、微妙です。
一部の研究分野では、「普及率」などの[0,1]の連続変数を説明するモデルも、
ロジスティック回帰と呼ぶことがあります。

また、3値以上の状態(選択肢)がある場合もあり、総称してロジットモデルと呼びます。
(ここらへん呼称については、いいかげんです。)
ネットで検索すれば書いてありますよ。
質問するなら、せめて読んで面白い事例を出してもらったほうがいいですね。
2:それでもヒロシさん,3:竪琴Qさん,貴重なお時間の中でのご説明,大変嬉しく,また感謝しています。ありがとうございます。4のむぎわらさんご指摘の通り,少々ご説明し辛いトピックであったと思いましたので,具体的な事例を提示し,再度ご指導・ご教授頂けると幸いです。

アルコール依存症指標から抑うつ性指標への影響に関する検討のため,抑うつ性指標得点を基準変数,アルコール依存症指標総得点値0.0未満の者を非問題飲酒群,0.0以上の者を問題飲酒群の2値に分類し,これらを説明変数としたロジスティック回帰分析を行い,オッズ比(OR:Odds Ratio)とその95%信頼区間(95%CI:Confidence Interval)および有意水準p値を求めたいと思っています。

その際,共変数(性別・年齢・配偶者もしくは恋人の有無・家族との別居もしくは同居)との関連も検討し,他方,抑うつ性指標からアルコール依存症指標への影響に関する検討のため,アルコール依存症指標得点を基準変数,抑うつ性指標得点のカットオフポイント16点未満の者を健常群,16点以上の者を抑うつ傾向群と2値に分類したものを説明変数としたロジスティック回帰分析を行うつもりです。

実際に求めたいのは,(a)アルコール指標得点に問題があった者とそうでなかった者が,どの程度の割合で抑うつ性の得点値に影響を及ぼすのか。(b)抑うつ性に問題があった者となかった者とでは,どの程度の割合でアルコール依存症に影響を及ぼすのか。この2点です。

で,上記分析を行う際に果たして,ロジスティック回帰分析でよいのか,またこの場合多分,単変量ロジスティック回帰分析であるとの認識なのですが,他方多変量ロジスティック回帰分析は,どういった指標を求めるのかも疑問に感じております。
>6:Alexさん

ご指導ありがとうございます。

>連続変数をなぜわざわざ質的変数に変換してから分析したいのですか?

いえ、必ずしもそういう訳ではありません。統計には無知なため、指標尺度を得点値で分類した場合ロジスティック回帰分析でなければならないと、そう思っていました。Alexさんのご指摘のように、わざわざ質的変数に変換しない場合であれば、前述の分類であっても、単純に(重)回帰分析でも解析出来るのでしょうか。もし、そうであればそれで進めていきたいと思います。
私もAlexさんと同意見です。
連続変数を2値変数に変換したら、それだけで情報を損失しますし、
検定をするにしても、「0以上はいくらであっても、共編量に対して同質」という、
不自然な仮定の元での検定になります。

これだけの説明では、わかりかねますが、単純な重回帰にはむりでしょう。
抑うつ性指標得点やアルコール依存症指標総得点なるものの意味が分かりませんが、
おそらく定義域が[−∞、∞]じゃないと思うので、
何らかの変換をしなければ、最小自乗や最尤法が使えない。
また、線形でない可能性も高いように思います。

要するに、変数の意味、定義域、影響の非線形性などをよく考えて、
現実に合うモデルを、オーダーメイドで作る以外にないと思います。
ロジスティック回帰の場合、説明変数は連続する数値、被説明変数は0か1という質的変数というのが普通の設定だと私も思います。ファイナンス分野では倒産(倒産か非倒産か)の予測にロジットが用いられています(説明変数は各種財務比率)。
>tadashicafe55

例えば、ファイナンスで被説明変数が0−1じゃないロジットといえば、
回収率の予測があります。
右辺は下限0、上限1で定義された回収率、右辺は同じく各種財務比率です。


>はっしーさん

「アルコール指標問題あり群と、なし群」が外生だったらいいのですが、
この研究の場合、群の定義がカットオフによって与えられているので、
2群のt検定は勧めません。



皆さん、ありがとうございます。少々、僕の方で勘違いしていたんですが、基準変数と目的変数を逆にすると、その影響を検討出来るんではないでしょうか。つまり、アルコール依存症指標から抑うつ性指標への影響に関する検討のため,CES-D得点のカットオフポイント16点未満の者を健常群,16点以上の者を抑うつ傾向群に分類したものを基準変数,KAST得点を説明変数としたロジスティック回帰分析を行い,オッズ比とその95%信頼区間および有意水準p値を求める。

他方,抑うつ性指標からアルコール依存症指標への影響に関する検討のため,アルコール依存症指標総得点値0.0未満の者を非問題飲酒群,0.0以上の者を問題飲酒群と分類したものを基準変数,抑うつ性指標得点を説明変数としたロジスティック回帰分析を行い,その影響を検討する。

もし、これで更に基準変数も質的変数に変換しなければならないのであれば、抑うつ指標尺度得点は、16点で分類出来ますし、アルコール指標尺度は、0.0未満、以上、また2.0未満、以上での分類で質的変数に変換可能です。よろしければ、またこれでご指導頂けると幸いです。よろしくお願いします。
>基準変数と目的変数を逆にすると、その影響を検討出来るんではないでしょうか。

上にも書きましたが、ロジットも一般化線形モデルなので、見てるのは(非線形の)相関関係だけです。

xとyを入れ替えても相関係数が変わらないように、
ロジットで規準変数と目的変数を入れ替えても、やっていることは同じです。

なにか、回帰分析(もしくはロジットモデル)の左辺が結果で、右辺が原因であると
思っていらっしゃるようですが、それは間違いです。
因果関係はどのような回帰分析でも検証することは出来ません。
p値は因果関係の必要条件でも十分条件でもありません。

また、カットオフポイントの合理性が保証されているのでしょうか?
カットオフポイントが不確実性を持っている場合(最適カットオフの議論が存在する場合)
オッズ比に対する有意水準自体が、意味を持たなくなります。
>14:竪琴Qさん

こちらからご質問させて頂いていて大変申し訳ないのですが,当トピックは「ロジスティック回帰分析」の質問トピックであると認識しています。で,ご指摘頂けるのは大変嬉しい事なんですが,では「具体的に」どういった解析をご提示頂けるのでしょうか?批判や間違いを指摘されるために僕は当トピックを立てた訳ではありません。

>因果関係はどのような回帰分析でも検証することは出来ません。

ピアソンの積率相関係数等ではそうでしょうが,単(重)回帰分析では「因果関係」を算出出来るのは,一定のコモンセンスを得ているものかと思います。もし,そうでないのなら医学的疫学研究等のみられるRCT(無作為化比較対象試験)も無意味なものとなってしまいますね。

また,上で書き込みをされたような,t検定やχ二乗検定,さらには分散分析の類を用いて解析をする気等毛頭考えていません。で,ご質問なんですが,ではこの場合の検定としては,判別分析でしょうか?それとも数量化理論でしょうか?これがダメ,あれがダメじゃ,じゃあどうすれば良いのかさっぱり検討がつかないのですが。

>カットオフポイントの合理性が保証されているのでしょうか?

非抑うつ群と傾向群での合理性は確保・保証されています。でなくても四分位値での分類も可能なはずですよね?で,そのご質問をなされたという事は,確固とした他の方策をお考えの上でのものと推察致しますが,ご返答なき場合ただのご自分の知識のひけらかしと捉えてもよろしいでしょうか?当該質問は,先行研究を基として類似の検定解析の質問です。

よって,これが誤りであるのなら,どこがどう間違い,どれが妥当なのか明確に記述して頂きたいと思います。それが,プロフィール上正確な大学教員であるのならなおさらでしょう。次いで,ロジスティック回帰分析ですが,独立変数が連続変数及び質的変数,そして従属変数は2値をとる質的変数の場合にオッズ比を算出出来るはずですが,これは「因果関係」とはいわないのでしょうかね?

以上のご質問にお答え願えますでしょうか?僕は,少なくとも安易且つ軽率に質問を仰いだ訳ではございません。上で具体例を示す事を促された4:むぎわらさんなんて,仰ぐだけ仰ぎお答えも頂けないようですし。というか,疫学・生物学的研究から派生した当該分析に関して,詳しく知らないなら知らないと,正直に述べて頂けた方が僕としては嬉しいんですが。
別トピの方がいいのかもしれませんが、とりあえずコメントします。

>ピアソンの積率相関係数等ではそうでしょうが,単(重)回帰分析では「因果関係」を算出出来るのは,一定のコモンセンスを得ているものかと思います。

これは初めて聞きました。私が今までに読んできた教科書では、全く逆のことが書いてあったと思います。回帰分析は予測変数がどの程度アウトカムを説明できるのかを見たり、あるモデルの一致度を見たりすることを目的にしていると思います。「因果関係」というのはちょっとためらわれます。

統計から離れて臨床的に考えても、うつ症状がひどいから酒におぼれるのか、酒好きが講じてうつ症状を呈しているのか、きちんとした診察抜きには簡単には決められないですよね。

RCTは、時系列で長期的な変化を見るので因果関係とはまた違ったものだと思います。


それから、連続変数を、カットオフポイントで分けてカテゴリ化する方法は、日本ではよく見かけますが、海外では分野によってはブーイングくらうこともよくあります。statistical powerが減少するからです。特に、スコアレンジが大きい場合、カテゴリ化するのは現実的ではないですよね。そもそも最初からカテゴリ化するなら、アウトカムが連続変数になるような自記式尺度は使わない方がいいと思います。

CES−Dのカットオフポイントは、確かに存在しますし、臨床の目安になりますので合理性が無いわけではないですが、15/16 は低すぎるという指摘がされていますし、日本人を対象にした研究でも、このカットオフは診断においてかなりの擬陽性ケースを含みます。感度に重点を置くなら、25/26、特異度に重点を置くなら 33/34が推奨されています(下記文献を参照のこと)。このように、カットオフポイントは、カテゴリー化する際の論拠としては説得力が無さ過ぎます。上の方も申しているとおり、カットオフポイントを一つずらすだけで、OR値は大きく変化することからも、連続変数のカテゴリ化は良い選択とはいえません。

論文として投稿なさるのかどうかわかりませんが、統計に甘い雑誌に投稿したらお咎め無しかもしれませんが、統計の分かる人から見たらやっぱりいい印象を与えないので、今一度、統計手法を考え直した方がいいと思います。

経験上、うつ得点やアルコール関連の尺度の得点は変換しない限り回帰分析や分散分析には使いにくいほど得点分布が偏っていることが多いです。変換することに関しても賛否両論ですが、統計の詳しい先生に相談してみた方がいいと思います。

上記の情報だけでどの統計手法を選ぶ方がいいのか、ということを助言するのは難しいかもしれません。統計手法を決める際に、得点の分布を把握することは重要です。


この論文が参考になると思います。

T. Furukawa, T. Hirai, T. Kitamura, K. Takahashi: Application of the Center for Epidemiologic Studies Depression
Scale among first-visit psychiatric patients: a new approach to
improve its performance. Journal of Affective Disorders 46 (1997) 1–13
この分野の統計は多少使ったことがある程度なので,黙って見ていたのですが,多少行き違いがあるようなので整理のための質問と提案をさせていただきます。

Kazu さんは,「抑うつ傾向」と「アルコール依存」の,どちらが原因でどちらが結果とお考えでしょうか?

統計的相関関係があるものどうしでは,一般に目的変数と説明変数を入れ替えても,どちらでも有意な回帰式が得られます。すなわち因と果が逆転していても有意な相関が得られるので,有意な相関すなわち因果関係とは言えません。

しかし,因果関係に関する説得力ある仮説が提示されていて,それに基づいた回帰式に実際のデータをあてはめて有意な結果が得られたのであれば,さしあたって仮説はデータによって反証されなかったことになるので,因果関係に関する仮説はとりあえず妥当であると言うことができます。回帰分析(あるいはこれに類する一般化線形モデル)によって因果関係を論じた「まともな」レポートは,概ねこの形式をとっているはずです。そうでないとしたら,因果に関する仮説が暗黙の了解になっているか,レポートが「まともでない」かのどちらかです。

因果に関する仮説が構築できたら,次は共変量の値を全て固定した場合に,どのような反応曲線が仮定できるかを考えます。目的変数のスコアが中程度のところにやや集中しているならば,普通の重回帰で十分です。目的変数の分布が最低値から最高値の間で一様に近い場合には,目的変数をロジスティック変換して重回帰を行う方法もあります。目的変数のスコアが上限および下限付近に集中するような場合(すなわち,「正常」と「異常」の線引きが容易な場合)には,値を2値化してロジスティック回帰分析に持ち込むのも良いと思います。説明変数の方については,それがどのような分布をしているか,また目的変数にどのような反応曲線で影響を及ぼすかによって,そのまま,変換(ロジスティック変換のほか,対数変換が良い場合もある),2値化を選べば良いのです。

 重回帰分析などを行う場合に注意すべきことは,複数の説明変数(共変量も含む)が,それぞれ独立に,しかも直接,目的変数に影響を及ぼしていることが仮定されているということです。仮説構築段階でこの仮説が満たせそうもない場合には,別のモデルを考える必要があります。
>Kazuさん

朝の四時過ぎから書き込みされていて、お疲れ様です。
大変かと思います。

さて、数日振りに来て、大変トピが盛り上がっていて、うれしい限りです。
専門的な方向で、興味深いです。
(少々kazuさんがいろんな方を罵倒されていて残念ですが)

ところで、レスがちょっと上級者的になっていて
Kazuさんには、ちょっと趣旨に合わないようですね。
というか、理解するのに大変だったろうと思います。
みなさん本当に、丁寧で真摯に答えてくださっていると思いますので
あれですが読んで私は面白かったです。


前置きが長くなりました。

まずkazuさんへ

>単変量ロジスティック回帰分析と多変量ロジスティック回帰分析との違い

使い方としては、単回帰と重回帰と同じ関係ですよね。
まず、単変量ロジスティックで

アルコール依存症指標から抑うつ性指標の関係を見る。
(アルコール依存症指標が抑うつの原因であるという仮説を検証しています)

たとえば、強い関係があったとしましょう


そして、多変量ロジスティックで、
アルコール依存症指標に加え

性別・
年齢・
配偶者もしくは恋人の有無・
家族との別居もしくは同居

も変数として加えます。
すると
アルコール依存症指標の影響力がすごく小さくなる可能性もあるわけです。
配偶者の有無の影響力がやたら大きくなったりして。

(あくまで例ですよ) たとえば配偶者がいる人に1人もアルコール依存症も、うつの人もいなければそうなる。

この仮想例のばあい、むしろ社会的サポートこそが重要なんだなということがわかり、
単変量ロジスティックとは違う結論がでますよね。

同じデータでもこのように違うので、2つの手法があるともいえるでしょう。

単変量でそれぞれ分析して、
その後、全体像をつかむために、多変量ロジスティックを使うといいと思いますよ。

また、基本的にはこれは単回帰と重回帰でもだいたい同じ結果が出るでしょう。

ただ、ロジスティックだと、説明変数から「オッズ比」がでるし
重回帰だと、具体的に、恋人がいると、平均何%うつ症の人が増えるという形の「数字」がでる。

この「結果」が違います。引用論文と比較するという実用的な部分もあるでしょうから
その辺は柔軟にどうぞ。
分散分析でもなんでも、データが持っている情報は本来同じですから、その引き出し方は研究者のほしい「結果(オッズ比とか)」に応じて手法を使い分ければいいでしょう。

統計的検定の厳密性については、心理はあまりうるさくないことが多いので、一般的な検定数字を添えておけば、まあ、なんでもいいのではないでしょうか。

細かいことを突っ込んでくる学会に出すのでなければそのぐらいの感じでいかがでしょうか。

ただし、因果関係については

18>しかし,因果関係に関する説得力ある仮説が提示されていて,それに基づいた回帰式に実際のデータをあてはめて有意な結果が得られたのであれば,さしあたって仮説はデータによって反証されなかったことになるので,因果関係に関する仮説はとりあえず妥当であると言うことができます。回帰分析(あるいはこれに類する一般化線形モデル)によって因果関係を論じた「まともな」レポートは,概ねこの形式をとっているはずです。そうでないとしたら,因果に関する仮説が暗黙の了解になっているか,レポートが「まともでない」かのどちらかです。

が真実です。Kazuさんは誤解しているかもしれません。

ですから
(a)と(b)は、同じことの裏返しで、一見違って見えますが、本質は同じ結果ですから、論理的には、どちらか1つを選択して、論旨を構成してほしいです。
その上で、のこる1つを、このような数字も出たという参考資料としてだせばよいと思いますよ。

たとえば
勉強時間がながい生徒は点数が高いという結果をだした後
点数が高い生徒はよく勉強しているという結果を並べても
同じことですよね。

でも病因を論じるのでしょうから、
どっちが原因(例なら勉強時間)かははっきり意識して論文を書いてほしいですね。


>ALL

みなさんのコメントを読み、ほぼすべてに深く同意します。
まったくもってそのとおりです。
具体例がでて、すごく盛り上がりましたし、良かったです。

ただ、私もわかるのですが、厳密にはいいかげんなものっていっぱいあると思いますし
心理には、ある意味、厳密にはいいかげんでも道具として使っている部分があると思います。

Kazuさんは、たぶん、実用的なことが知りたかったので、今回は目をつぶってもいいのかなと。

でも、私は、すごくうれしかったです。そうですよね!!ってコメントがいっぱいありました。

PS 
私は、学生ではないので、また見るのは数日後ということもあります。そこはご理解くださいね。


ええっと…、スレ立て人を怒らせてしまいました…。(汗)

代替案を示せ、ということなので、一応書いておきます。
ただ、研究の目的がはっきりしないことと、データの情報の質がわからないので、
一般論として捉えて下さい。

上下限が限定されている変数が含まれる前提での因果推論であるのなら、
ロジットで変換された多変量の一般化線形モデルをもとに、
分散共分散構造分析=パス解析をするのが、最も説得力のあるやり方だと思います。

薬学、精神医学の分野でも因果推論のためのパス解析はごく普通にされており
参考文献も豊富にありますので、参考にして下さい。


あと、よけいかもしれませんが、
kazuさんの「批判や間違いを指摘されるために僕は当トピックを立てた訳ではありません」
という意見は、大変残念に感じました。
批判や間違いの指摘は、研究者にとって大切な「糧」であると、私は信じます。
えっと,ご返信大変遅くなりまして申し訳ありません。ここ最近,論文作成に関して実に多忙を極めておりまして,今もまだ先行研究を基として,文章校正や解析手法に手こずっておりました。有り難くも,僕の16の書き込みから多くのご指摘頂いた事に,まずは感謝したいと思います。

>17:豊次郎さん

単(重)回帰分析に関してですが,僕はこれまで数々の横断的な演繹的調査的先行研究から,回帰分析は偏相関係数を算出し,これらは「因果関係」であり,相関係数は,あくまでどちらが結果で原因であるのかが定かでない「関連性」を示唆しているものと認識しています。で,

>「因果関係」というのはちょっとためらわれます。

というご指摘や

>全く逆のことが書いてあったと思います。

この,「全く逆」というのは,どこがどう逆なのでしょうか?更に理解を深めていくために,その根拠となるレファレンスとなるものをご提示頂けると幸いです。また,

>統計から離れて臨床的に考えても、うつ症状がひどいから酒におぼれるのか、酒好きが講じてうつ症状を呈しているのか、きちんとした診察抜きには簡単には決められないですよね。

ですね。ただ,僕が行おうとしている研究は臨床診断に重点を置いているのではなく,あくまで一般成人を対象としたポピュレーション・ベースによるスクリーニングです。よって,

>続変数を、カットオフポイントで分けてカテゴリ化する方法は、日本ではよく見かけますが、海外では分野によってはブーイングくらうこともよくあります。

大変申し訳ないのですが,研究対象者は欧米人等でなく,あくまで日本人です。海外のCES-Dのカットオフポイントが,日本人と欧米人とでは大きく異なります。よって,社会文化的・心理社会的要因によって,カットオフポイントが異なるのは,何もCES-Dに限られた事ではないですよね?で,

>カットオフポイントは、カテゴリー化する際の論拠としては説得力が無さ過ぎます。

というご指摘はもっともであると感じておりますが,僕は既に16にて,

>>四分位値での分類も可能なはずですよね?

と,お答えしておりますが,見て頂けてないのでしょうか?これであれば,カットオフポイントで,ある集団の半数以上が抑うつ傾向群と示された弊害に関しても調節可能なはずです。

>18:たんさいぼう影の会長さん

>「抑うつ傾向」と「アルコール依存」の,どちらが原因でどちらが結果とお考えでしょうか?

これに関しては,どちらの側面からも研究されたものがあります。アルコールを原因としてうつ病を発症するものと,うつ病を原因としてアルコール依存症を発症するものです。これはどちらが先行して発症するかによって1次性うつ病,2次性うつ病と分類されます。よって,当該研究では「相互的」関連性として,どちら側からの側面から検証を試みようと考えています。

>統計的相関関係があるものどうしでは,一般に目的変数と説明変数を入れ替えても,どちらでも有意な回帰式が得られます。すなわち因と果が逆転していても有意な相関が得られるので,有意な相関すなわち因果関係とは言えません。

いや,それは普通に考えてそうでしょう。相関係数で有意性が認められた際には,当然「因果関係」とは述べられません。

>重回帰分析などを行う場合に注意すべきことは,複数の説明変数(共変量も含む)が,それぞれ独立に,しかも直接,目的変数に影響を及ぼしていることが仮定されているということです。

これは,多重共線性の事を述べられてるのでしょうか?で,つまるところ,たんさいぼう影の会長さんは,当該研究において,重回帰分析もしくはロジスティック回帰分析でも「解析可能である」という事を述べられているのでしょうか?
>20:むぎわらさん

>朝の四時過ぎから書き込みされていて、お疲れ様です。
>大変かと思います。

お気遣いありがとうございます。後の文脈から推察するにある種の嫌味に捉えられ得るのが,少々残念ではありますが。間違ってたなら申し訳ありません。で,

>少々kazuさんがいろんな方を罵倒されていて残念ですが

すみません。僕としてはそういった類を行った認識が全くないのですが,よろしければ,その「罵倒」した部分をご指摘願えますでしょうか?

>レスがちょっと上級者的になっていて
>Kazuさんには、ちょっと趣旨に合わないようですね。
>というか、理解するのに大変だったろうと思います。

いやいや,ご勝手な個人主観的な憶測・推測で述べて頂くと非常に不快なんですがね。僕にとっては,どれも有用な知見や示唆を得られたと,そう思っておりますよ。で,20・21の書き込みから解釈すると,当該研究統計解析として,たんさいぼう影の会長さん同様,ロジスティック回帰分析で解析可能である,という事でよろしいのでしょうか?あと,22の

>論文の結果が、医療の基準とかなにか社会的影響の大きい話であれば、数字に意味が大きいですから、注意して厳密に分析してくださいね。

社会的権威ある学会誌投稿であろうが,趣味の論文であろうが,そこで行う研究者であり科学者であるとするならば,決して抜かりなく必然的厳密性において行うのが努めであり,真の研究者であるのではないでしょうか?

というか,そもそもそういった類の研究であれば行わない事の方が世のため人のためでしょう。よって,真剣に研究というものに勤しむからこそ,僕はこうしてあらゆる情報源を考慮し,ご指導を仰いでいる訳なんですがね。
>23:竪琴Qさん

>スレ立て人を怒らせてしまいました…。(汗)

「汗」するくらいなら,どうか端からご自覚持って助言頂きたいものです。というか,僕全く以て「怒って」等いませんが。そういった捉え方を促してしまったのであれば,申し訳ありません。

>代替案を示せ、ということなので、一応書いておきます。

え〜,「代替案」あったんですかぁ?というか,それを何故始めに提示せず今頃になって。

>分散共分散構造分析=パス解析をするのが、最も説得力のあるやり方だと思います。
>薬学、精神医学の分野でも因果推論のためのパス解析はごく普通にされており
>参考文献も豊富にありますので、参考にして下さい。

共分散構造分析かパス解析を代替で用い得る可能性も検討していました。ただ,僕は上でも述べていたように,統計的解析には少々疎いものですから,中々その構造を理解するのに困難を極めていました。これによって,また新しい知見や示唆を得られ,今後の研究に生かせると,考えています。で,

>あと、よけいかもしれませんが、
>kazuさんの「批判や間違いを指摘されるために僕は当トピックを立てた訳ではありません」という意見は、大変残念に感じました。
>批判や間違いの指摘は、研究者にとって大切な「糧」であると、私は信じます。

いえ,全く以て「余計」ではありません。これはもっともなご意見で,研究者間や専門職間での相互批判(非難・誹謗・中傷ではなく)はあって然るべきもので,僕自身そういった批判は行いますし,謙虚に受け入れる姿勢を持ちたいとも思っています。ただ,国語辞書「大辞泉」では,「批判」とは,

>>人の言動・仕事などの誤りや欠点を指摘し、正すべきであるとして論じること。
>>認識・学説の基盤を原理的に研究し、その成立する条件などを明らかにすること。

と,あります。僕は,16の書き込みにて

>>当トピックは「ロジスティック回帰分析」の質問トピックであると認識しています。
>>ご指摘頂けるのは大変嬉しい事なんですが,では「具体的に」どういった解析をご提示頂けるのでしょうか?
>>これがダメ,あれがダメじゃ,じゃあどうすれば良いのかさっぱり検討がつかないのですが。
>>これが誤りであるのなら,どこがどう間違い,どれが妥当なのか明確に記述して頂きたいと思います。

と,再三「質問」を繰り返しております。しかしながら,16以前の僕の浅はかな統計解析の検証に対する「明確且つ具体的」な助言は,述べられておりません。これでは,間違いは理解出来得たとしても,その質問の答えには決して成っていませんよね?

今回のたんさいぼう影の会長さんやむぎわらさん,竪琴Qさんが上の批判の部分の「根拠」や「代替案」を始めとした,「正すべきであるとして論じること」や「成立する条件などを明らかにすること」を端から行っていれば,僕もそう辛辣に返すことはなかったかとも思うんですが,これって質問した側としては身勝手ですかね?という意図で,僕はまぁ

>>批判や間違いを指摘されるために僕は当トピックを立てた訳ではありません。

と,述べた訳であって,真に得たかったのは,あくまでも題目やそれ以降の「質問」にお答え願いたかった訳なんです。善意の元でのご指導を逆説に捉えてしまい不快に思わせてしまったと今は反省しておりますが,どうかこの記述の文言だけでなく,その背景をもご理解頂けると幸いです。

で,かな〜り厚かましいんですが,まだまだ理解出来得てない点が多々ありますので,引き続き書き込みを頂けると大変有難いです。よろしくお願いします。
Kazuさんの統計の知識がどれくらいかわからないので、簡素な説明しかしませんでしたが、説明が足らないようで大変申し訳ないです。

上記の私が示したさまざまなカットオフポイントは日本人を対象とした研究をもとにしたものです。併記した参考文献を読めば分かることです。文化によってカットオフポイントが違うことは反論する人はいないとおもいますし、他の尺度でも同様の傾向がありますので、議論の余地は無いと思います。

私が上で示したかったポイントは、擬陽性・疑陰性のバランスをどうしたいかによってカットオフポイントは変動するということです。Kazuさんの示すカットオフポイントは、日本人を対象にした古いデータ・古い基準を基に算出したもので、現在の診断基準と多少異なる場合がある可能性があります(これも参考文献に書いてあることです)。そして繰り返しますが、ロジスティック回帰分析に連続変数をカテゴリ化して当てはめた場合は、カットオフが1点でもずれたら、OR値がかなり変わる事が多いことも、連続変数をカテゴリ化したくない理由です。

検診などのスクリーニングが目的でしたら擬陽性が高くてもなるべく、うつ病の疑いのある人をすくい上げるためにカットオフポイントは低めがいいですが、例えば臨床試験など、対象者がはっきりしている場合は、短時間で(なるべく研究費を無駄にしないように)カットオフポイントを高めにして、重症患者を集めることに重きを置く場合があります。


因果関係にかんする文献は、今しばらくお待ちください。最近、教科書を使わないで統計しているので、すぐにぱっとお答えできません。他の方が示してくださるかもしれませんね。

統計は宗教のようなもので、どの手法が絶対に正しい、と言い切れない側面もあります。ただ、自分がなぜその手法を選んだのか、きちんと説明できていれば問題のないことです。


出版・発表の時に重要視されるのは統計だけでなく、理論の一貫性と統計結果の解釈の部分です。いくら統計が正しくとも、解釈が違うとレビュアーにはねつけられてしまいます。ここで自分が使いたい統計手法がどういうものなのか、深く理解して取り組まれるといい論文がかけると思いますよ。

学習意欲はおありのようですから、統計以外の部分もいろいろ学べるといいですね。
>「抑うつ傾向」と「アルコール依存」の,どちらが原因でどちらが結果とお考えでしょうか?

>これに関しては,どちらの側面からも研究されたものがあります。アルコール>を原因としてうつ病を発症するものと,うつ病を原因としてアルコール依存症>を発症するものです。これはどちらが先行して発症するかによって1次性うつ>病,2次性うつ病と分類されます。よって,当該研究では「相互的」関連性と>して,どちら側からの側面から検証を試みようと考えています。

 だとすると,このケースは本来,1つの変量を目的変数とした一般化線形モデルにはなじまないかもしれません。アルコール依存と鬱の両方の背後に,何らかの共通の病因があり,その病因が強い人ほどアルコール依存と鬱のどちらかを発症しやすく,一方を発症するともう一方も発症しやすくなるという因果構造が考えられるからです。このような因果構造は,重回帰分析や多重ロジスティック回帰分析では的確に表現できません。
今回の問題とは分野が異なりますが,
http://wiredvision.jp/blog/iida/200803/200803040100.html
というページで,内生変数どうしの統計的関係を議論することの問題点が指摘されていましたのでご参照ください。

>重回帰分析などを行う場合に注意すべきことは,複数の説明変数(共変量も含む)が,それぞれ独立に,しかも直接,目的変数に影響を及ぼしていることが仮定されているということです。

>これは,多重共線性の事を述べられてるのでしょうか?で,つまるところ,た>んさいぼう影の会長さんは,当該研究において,重回帰分析もしくはロジステ>ィック回帰分析でも「解析可能である」という事を述べられているのでしょう>か?

 多重共線性とは別の問題です。重回帰分析(あるいは,多重ロジスティック回帰)のモデル式をパス図に落としてみるとわかるように,説明変数から目的変数への間接的影響を示すパスは仮定されていません。もし間接的影響を込みで解析したいならば,パス解析,あるいは共分散構造分析を用いる必要があります。

 結局のところ,竪琴Qさんが既に提示されたように,スコアをロジット変換して共分散構造分析を行うのが良いように思われます。

 共分散構造分析は,その下位モデルに重回帰分析などほとんどの線形モデルを含んでおり,因果関係に関する仮説がはっきりしている場合にはたいへん有効な方法です。多少難しいですが挑戦してみてください。
 私は38歳の時にこの方法を初めて試み,その結果をもとに翌年,論文を1本出しました。

 もう1つの代替案として,アルコール依存傾向と鬱傾向,それぞれを目的変数として重回帰分析を行い,2つの結果を比較してどちらの方向の影響がより強いのかを検討するというのもあります。ただしこの場合,重回帰分析で想定されたモデルが,いずれも本来想定されるモデルを強引に単純化(内生変数の外生変数化)したものであることを示しながら議論を進めないと,読者に(あるいは Kazu さん自身にも)誤解を与える恐れがあります。
少々,調べたところ構造方程式モデル(SEM:Structural Equation Modeling),従来から呼称されている共分散構造分析が最も当該研究において妥当である事が理解出来ました。別に安易且つ軽率にご質問するためにトピックを立てた訳ではないのは,既に述べましたが,僕がご質問させて具体的な研究事例を提示してこうも時間が掛かるとは・・・。まぁ,僕の説明不足だったようですね。

>27:豊次郎さん

>Kazuさんの統計の知識がどれくらいかわからないので、簡素な説明しかしませんでしたが、説明が足らないようで大変申し訳ないです。

いえいえ,それは心理学を生業としている者であれば分かる事かと思いますが,決してこういった文面だけで理解出来得るはずはありませんので,どうかお気になさらないで下さい。

>文化によってカットオフポイントが違うことは反論する人はいないとおもいますし、他の尺度でも同様の傾向がありますので、議論の余地は無いと思います。

僕がここで述べたかったのは,コンセンサス・カットオフポイントです。これは,うつ病の要因が内因性・心因性と社会文化的要因に影響を受ける事から,カットオフポイントによる臨床診断およびポピュレーション・スクリーニングにおいては,心理社会的要因によって大きく左右されます。

事実,日本人と欧米人のCES-Dの中央値は大きく異なりますよね?よって,開発者のRadloffや日本語版開発者の島他が推奨している16点が妥当であるでしょう。なので,「議論の余地がない」とするのには,ロールシャッハの形態水準やコーディングを概観しても明白なはずです。

>Kazuさんの示すカットオフポイントは、日本人を対象にした古いデータ・古い基準を基に算出したもの

そうですか?2005年の日本公衛誌では,16点と四分位値で算出された研究が存在するんですがね。もしかして,豊次郎さんは,欧米の心理学諸領域が発展した妥当ある学術的研究を行っていると「勘違い」されてませんか?確かに欧米の心理学諸領域は,日本より発展しているかも知れません。

ですが,社会や文化が異なるからこそ,研究意義があり,そしてまたそこに存在する日本人に対して有効なんですよ。欧米の知見がすぐさまそのまま日本で応用される事は,まず有り得ませんし,逆にそうあったら困るんです。欧米の犯罪率から進展した警察諸機関の技術等を例に挙げると,それらが必要な国程,むしろ恥ずべきであって,本来であれば心理学の必要性や発展等,ない方が良いはずです。また,

>学習意欲はおありのようですから、統計以外の部分もいろいろ学べるといいですね。

好意的に述べられていると勝手ながら推察致しますが,どうもファシズム的な上下関係の上で述べられている感が否めません。まるで僕が,学習能力が豊次郎さんに劣っているような。この記述的態度は,少し残念です。

>28:たんさいぼう影の会長さん

ありがとうございます。こういったSNSでは,不正確な情報も多く交錯している可能性があるため,確固としたメディア・リテラシーが必要であると感じています。それを踏まえ,多大なご指導をお受けしたと,そう思っています。
読み返してみると、Kazuさんが不快に感じたようで、失礼しましたあせあせ(飛び散る汗)

私は、別に専門家ではありませんが、
心理測定法やSEMなどの心理系手法は、数学面まで含めて、つっこんでやっています。

今でも時々心理系の院生の論文へのアドバイスなどやっていますので、
自分の苦労を思い出すわけですウッシッシ

一応、そういう意味で、ながながとコメントを書いているのでわーい(嬉しい顔)
実用的なコメントをしたつもりなんですよ。
(あれを書くのに平日の夜をつぶして、2時間近くもかけているんです。悪意と思われては無念あせあせ(飛び散る汗)

Kazuさんの気持ちはわかります。統計を勉強途中だといろいろ感じるでしょう。
でもコメントしている皆さんは、本当によく勉強されている方なので、まああまり怒らないでください。


そのうえで思うことは、
大事なことは、研究をした結果であり、
どのように学問的に価値のある情報を報告するかということで、

高度で難解な分析手法を無理に使わなくてもいいのではないかということです。
SEMを因子分析など、心理尺度などの理解もなしに、使うのは、苦労の元です。

それは実際に生の学生からの相談を受けてきて感じていることです。
私のコメントは、実に単純ですが、それでいいのではないでしょうか。


もしも私が分析するなら、今回のような事例はSEMが適しています。

「因子分析」で使用した尺度の再検討から初めて、その違いを考察します。
「ロジスティック回帰」で外的基準との関連を取り直して、基本を抑え、
尺度得点を「分散分析」など基本的な分析をかけて、平均を生の数字で理解しなおして、

その上で、可能なら調査対象に「面接」をして、生の実感を拾います。
数字を読み過たないように。

必要なら
豊田 秀樹先生が書かれている
共分散構造分析シリーズ(朝倉書店)
にでているように、
先の「抑うつ傾向」と「アルコール依存」の因果関係を統計的に算出することもやるかもしれません。

しかし、単純に、分散分析といったものでデータの情報が十分に良くわかれば、それで満足して
それ以上をやらないと思います。

高度な統計手法でなければ対処できないものでないかぎり
それを使う必要があるのでしょうか。
高度な手法を使えば使うほど発見があるかというと
別にそんなことはないと思います。


さしみは、素材がよければ、最高の調理法です。
研究の成果は、結局は着想に帰結します。

私のような社会人から見て、研究できるということはすばらしいことです。
多くの人の役に立つ、すばらしい事実を発表して、よき研究生活をすごしてください。

嫌味ではなく、
Kazuさんの論文の成功をかげながら楽しみにしています。
私の学生時代を思い出しますから。

がんばってわーい(嬉しい顔)
補足
>ロジスティック回帰分析で解析可能である,という事でよろしいのでしょうか?

先に、書いたように、やっていいと思います。


厳密につっこんで理解してみれば、その分析結果がどの程度意味のあるものかという点では、
心理系の研究手法は、つっこまれどころがおおいんです。

ただ、その意味で言えば、ロジスティック回帰分析にこだわんないで
分散分析で、平均を比較したりしてもいいし、そっちのほうが面白いでしょうね。
引用論文などの都合にあわせてやってみていいと思います。


繰り返しますが、心理系の研究手法は、他の学問からは、つっこまれどころがおおいんです。

だから、この一般的には、論文の結果を元に、よく雑誌のアンケートであるような
「この質問3つ以上該当だと、あなたは◎◎です!」みたいな断定的主張はちょっと厳しいと思ったほうがいいと思います。

すでに他の統計手法に話題が移っているので、必要ないかもしれませんが、他のメンバーの方の参考になれば、ということで、回帰分析が因果関係を示すとはっきり言いたくない根拠となる文献を示しますね。

Even though we warned that causality is never proven by regression analysis, when a researcher specifies that Y=f(X), an implicit causal linkage is assumed, In general, this functional relationship runs from X to Y (i.e., the value of Y is dependent on the value of X). But in many situations the dependency may run both ways (i.e., X is also a function of Y). [Schroeder, Sjoquest, Stephan (1986) Understanding Regression Analysis: An Introductory Guide (Quantitative Applications in the Social Sciences), p77, Sage Publications]

(略)…just because a regression analysis has indicated a strong relationship between two variables, this does not imply that the variables are related in any causal sense. Causality implies necessary correlation. Regression analysis can only address the issues on correlation. It cannot address the issue of necessity. Thus, our expectations of discovering cause and effect relationships from regression should be modest.[Montgomery, Peck, & Vining (2001) Introduction to Linear Regression Analysis, 3rd Edition, pp42, Wiley-Interscience]

以下の文献は、回帰分析が因果関係を証明できないということを証明している研究です。
Glymour, Spirtes & Schenines(1994) In Place of Regression in Humphreys (Ed) Patrick Suppes: Scientific Philosopher: Volume 1: Probability and Probabilistic Causality , 339-366, Springer


とりあえず、ネット上の情報も。↓

http://www.csus.edu/indiv/y/yangy/145Ch3.htm

4.2 Regression Analysis

(省略)The primary objective in regression analysis is to estimate and/or predict the (population) mean or expected value of the dependent variable in terms of the known or fixed values of the independent variable(s). But dependence of one variable on other variable(s) in regression analysis does not necessarily mean causation. As Kendall and Stuart point out, "A statistical relationship, however strong and however suggestive, can never establish causal connection: our ideas of causation must come from outside statistics, ultimately from some theory or other."






久しぶりに基礎的なことを復習できたので、良い機会をいただいたと感謝しています。

2005年の日本公衛誌の、16点と四分位値で算出された研究の詳しい情報(正確なタイトルと著者名)も教えてくださいね。私もCES-Dよく使っていますので興味があります。

>30:むぎわらさん

>平日の夜をつぶして、2時間近くもかけているんです。悪意と思われては無念

そうですよね。皆さん貴重なお時間を割いて書き込みをしていらっしゃるのに,こちらこそそれを逆手に捉えてしまい,大変申し訳ありませんでした。また,どれだけ自身が,統計解析に関し無知であるのかも,改めて痛感しました。そういう意味で,今回ここで質問して良かった,そう思っています。むぎわらさん,本当にありがとうございます。

>32:豊次郎さん

>2005年の日本公衛誌の、16点と四分位値で算出された研究の詳しい情報(正確なタイトルと著者名)も教えてくださいね。

小林幸太・小林玲子・久保清香・園田智子・森 満(2005).抑うつ症状とその関連要因についての検討―北海道内の一短期大学における調査から― 日本公衛誌,52,55-65.です。
一応,以下のように解析手法を改変してみました。ただ,きっとこれでもかなりダメダメな手法だと感じています。一応,本研究題目としては,「アルコール問題と抑うつ性の相互的因果関係性およびソーシャル・サポートによる緩衝効果」なんですが,どうも共分散構造分析(検証的因子分析)の理解に苦しんでいます。引き続き,皆さんの貴重なお時間を仰ぎ,お願いとさせて頂きます。

まず,本研究仮説としては,(a) アルコール依存症指標尺度得点が低い群よりも高い群の方が,抑うつ性指標尺度得点は高く,抑うつ性指標尺度得点が低い群より高い群の方が,アルコール依存症指標尺度得点は高い。

(b)アルコール依存症指標尺度得点および抑うつ性指標尺度得点が高い群より低い群の方が,ソーシャル・サポート指標尺度得点は高い。よって,アルコール問題と抑うつ性の相互的因果関係性は高く,ソーシャル・サポートによる緩衝効果は大きい。です。

それで改変した解析手法なんですが,アルコール問題と抑うつ性を規定するソーシャル・サポートとの関係を明らかにするために,パス解析を行い用いる変数は,3水準に整理します。第1水準はアルコール依存症指標尺度KAST得点であり,第2水準は抑うつ性指標尺度CES-Dの下位尺度によって,アルコール問題にどのような影響を及ぼすかを検討するため,Radloff(1977)による探索的因子分析で抽出された下位因子であるポジティブ感情を除いた3変数(うつ気分,身体症状,対人関係)を用います。

また,第3水準はMSPSSの3因子構造による下位項目に関して,“家族サポート”,“重要他者サポート”,“友人サポート”による各々異なったサポート源からの機能による影響に関して検討するため,ソーシャル・サポート指標尺度MSPSS得点の3変数(家族サポート,重要他者サポート,友人サポート)です。

分析は変数増加法の重回帰分析によって行い,第1水準を基準変数とし,第2水準3変数を説明変数とする分析と,第1第2水準の変数を基準変数とし,第3水準の3変数を説明変数とする分析を行い,アルコール問題および抑うつ性に対するソーシャル・サポートによる影響について検討します。

分析は一括投入法により,標準偏回帰係数,単相関係数および回答平均値を算出する。標準偏回帰係数説明率の検定は5%および1%水準を基準とする。いずれも偏相関係数の有意水準5%水準で投入を打ち切る。という方策を用いようと考えているんですが,きっとまた見当違いな分析だと思います。どうか,引き続きよろしくお願い致します。
>また、単変量ロジスティック回帰分析と多変量ロジスティック回帰分析との違いもよく分からないでいます。

■単変量ロジ回

アウトカム:二分変数(Dichotomous Variable)

⇒単回帰に相当

■多重ロジ回

アウトカム:二分変数(Dichotomous Variable)

⇒重回帰に相当

■多変量ロジ回

アウトカム:多二分変数(Multiple Dichotomous Variable)

⇒多変量回帰に相当
※多変量回帰は、Yが1変量ではなくベクトルになります
※多変量ロジ回の場合、多変量2項分布(ベクトルの要素の1つ1つが2項分布)を仮定

ログインすると、残り9件のコメントが見れるよ

mixiユーザー
ログインしてコメントしよう!

統計家 更新情報

統計家のメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。

人気コミュニティランキング