ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

統計家コミュの正規分布をしていない従属変数、説明変数の重回帰分析

  • mixiチェック
  • このエントリーをはてなブックマークに追加
正規分布をしていない従属変数、説明変数の重回帰分析について
質問があります。

従属変数 = 離散値(回数)、正規分布していない。
説明変数 = いずれも連続量、正規分布していない。

の場合、重回帰的なことをしたければ
どの方法を使えばいいでしょうか。

ちなみに、説明変数の中にターゲットとなる(式に入って欲しい)
変数が一つありまして、Spearmanの順位相関を使うと
従属変数とターゲット変数との間に正の相関が出ますが、
普通の重回帰分析(ステップワイズ法)を行うと
ターゲット変数は除外されてしまいます。

よろしくお願いします。

コメント(10)

Hydeさん、回答ありがとうございます。

素人考えなのですが、
ポアソン分布を仮定しているのなら
回数の生起が稀にしかおこらない場合にしか使えないものなのでしょうか?
> 正規分布をしていない従属変数、説明変数
とは,
正規分布に近似できない(みなすことができない)変量
ということでしょうか?
それとも,パラメトリックな分布を仮定できないほどメチャクチャな分布なのでしょうか?
ある程度分布の形状が定まっているならば
順序ロジット回帰などで対応できるかと思います.


ところで,
ポアソン分布はある単位区間での応答回数の分布です.
> 回数の生起が稀にしかおこらない場合
これは,
生起確率が0に近く,試行数が十分に大きい二項分布が
ポアソン分布で近似できる
こととごちゃまぜになってませんか?
satoさん、ありがとうございます。

>> 正規分布をしていない従属変数、説明変数
>とは,
>正規分布に近似できない(みなすことができない)変量
>ということでしょうか?
各変数のサンプル数が非常に少なく(すべてn=8)、
Kolmogorov-Smirnovの検定でも正規分布と認定されません。

>ポアソン分布はある単位区間での応答回数の分布です.
>> 回数の生起が稀にしかおこらない場合
>これは,
>生起確率が0に近く,試行数が十分に大きい二項分布が
>ポアソン分布で近似できる
>こととごちゃまぜになってませんか?
なってました(^^;

今ポアソン回帰が使える統計ソフトを入れて
トライしてます・・・。
 ご議論、大変勉強になりました。

 私だったら、あまり深く考えずに、「回数だったらポアソン回帰!」でやってしまってますね。皆様のご議論を「なるほど、なるほど」と勉強させていただきました。

 ROMで全く貢献できませんでしたが、御礼のご挨拶だけさせていただきたく。
>> Hyde さん

比例オッズモデルと順序ロジットモデルは同義のようです.
手頃なwebページを,と探していたらpdfになった論文がありました.
www.ism.ac.jp/editsec/toukei/pdf/50-2-201.pdf

比例オッズモデルを御存じでしたら紹介するまでもないかと思いますが,
解説書としては下記の本が読みやすいですね(対訳の良さは別として)
カテゴリカルデータ解析入門(Alan Agresti著の邦訳)
http://www.saien-t.com/publication/med_sta/kategori.html


>> mum さん

やや偏った意見かもしれませんが...

データ数8では分析にかけないほうが良いと思います.
Kolmogorov-Smirnovの検定があてならないのは目をつぶるとしても,
説明変数の数>データ数
なんてことになってませんか?
また,少数データではχ2乗分布,F分布を用いた検定を
行っても良いか判断できないと思います.

なんらかの意志決定や結論を導くための分析であれば
データ数を増やすこと(サンプリングもできれば)をお薦めします.

なお,わたしの知っている範囲では
極少数のデータを用いる分析は
2×2分割表でのフィッシャーの正確検定
良くできた実験計画で取られたデータへの分散分析
くらいですね.

さらに蛇足ですが,
ステップワイズ法は,
説明変数の組合せによる分散の比を
F分布を用いて検定するので
正の相関がある=変数採択
とはなりません.
説明変数の組合せによって判断されます.
shintaroさん
satoさん
含めてみなさま
ありがとうございます。

ポアソン回帰分析はソフトにはじかれてしまって
先に進みません。すこしずつ勉強しています。

>satoさん

nが少ないのは、サンプルが人ではなくネットワーク(集団)だからです。サンプル数を増やすのは難しいです。

>説明変数の数>データ数
>なんてことになってませんか?
説明変数の数は7です。危ないかも。

>また,少数データではχ2乗分布,F分布を用いた検定を
>行っても良いか判断できないと思います.
なるほど。

他のお話も非常にためになりました。

多変量解析を使うのを止めて相関分析で話をするか、
さらに他の方法を使うか、少し考えてみます。

ありがとうございました。
>> mumさん

もうこのtopicを見ていないかもしれませんが...

> nが少ないのは、サンプルが人ではなくネットワーク(集団)だからです。
> サンプル数を増やすのは難しいです。


収集したデータがどのようになっているか分かりませんが,
Hydeさんが指摘しているように,
対象となっている8集団を個人として扱う
ことができないのでしょうか.

ある集団に所属する≠個人の特徴が皆同じ

ということを考えると,
分析対象を個人として,所属集団を一つの説明変数とするのが
良いのではないかと思います.
もちろん,mumさんの手元にあるデータの状態次第ですが.

# サンプル数=サンプルサイズと解釈しました.

ログインすると、みんなのコメントがもっと見れるよ

mixiユーザー
ログインしてコメントしよう!

統計家 更新情報

統計家のメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。

人気コミュニティランキング