統計家コミュの教えてください（サンプリングの考え方）

統計調査を勉強しはじめ、
そしていつも、トピで勉強させていただいております。

今回、基本的なことかも知れず恐縮ですが、
一点どなたかご教示ください。

例えばの話なのですが、
　全国の市町村にある全ての（市町村立）小学校に
アンケート調査票を配布する。
　そして、約２０００くらいの対象に対して、
３割の６００（市・町・村の各々５０以上はある）有効
回答数があった。
　市立・町立・村立の属性によって、色々な差異がある
（例えば、制度や規模から生じる様々な問題など）と
　いう実態がある（という仮説）という前提がある。

そこで、
?市町村立の小学校の実態を推測するのに、
　有効回答を使って、市町村立小学校の全体を推測する。
?市立の小学校のみの実態を推測するのに、
　市立の小学校のみの有効回答を使って、市立の全体を推測する

　上記の??は、このような考え方でいいか（確かだろうか・・・）考えていますが、

?市立を除く、町立・村立の小学校の実態を推測（２つの属性に
共通な事実があったとして）するのに、町立・村立の２つの属性
の有効回答を使って、市立・町立の全体を推測する。

この?が、（無作為のサンプリングを前提とした）統計処理として、問題がないか？
　→町立・村立を各々個別に統計処理して、（加重平均など
　　して）２つの属性の全体を推測する？、という方法に
　　なるのか？

どなたか、恐縮ですが、ご教示いただけると助かります。

コメント(3)

最初
全て
最新の40件

[1] mixiユーザー 10月12日 10:03

?-?の前に前提部分に触れておきます．
サンプリングのサイズ（データ数）は，
目的とする分析手法に適ったサイズが求められます．
# 誤差分散，検出力などを考慮

また，仮説に見合ったデータの収集を行わなければなりません．
ヨーダさんの挙げた例に沿うと，
・市町村立のそれぞれに十分なサンプルサイズが必要
・制度・規模の属性ごとに十分なサンプルサイズが必要
です．
例のように悉皆調査の形式で調査票を配布した場合，
市立の学校は500校，町立は90校，村立は10校
の回答数で，村立のデータを分析するには足りないサイズだ...
と，なりかねません．
# 実際の学校数に比例する場合も考えられます．
# また，「率先して回答する」属性が隠れているかもしれません．

明確な意図で属性を考慮してサンプルを得る場合，
属性ごとにランダムサンプリングでデータ収集し，
かつ，十分なサンプルサイズの回収を
目標としたほうがいいと思います．

サンプルサイズが十分であれば，?，?は問題ないかと思います．
?は，無闇に属性をつぶすようなことはせず，
各属性の推定値が近似と言えるか分析すべきだと思います．
「属性に共通な事実」がどのようなことか分かりませんが，
必ず無視できる属性であれば，
最初から属性別にデータを取る手間が無駄になってしまいますね．
せっかくデータを取るのであれば，
共通な事実が確かか見極めるために，
属性別を残す方が良いと思います．

ちなみに，加重平均は，任意の変数に対して，
町立は2倍，村立は3.5倍...のように
測定値を倍数に変換してから平均することです．
これは根拠が無い限りお薦めできませんね．

[2] mixiユーザー 10月12日 12:18

?は、「市立・町立の全体を推測する。」
ではなく「町立・村立の全体を推測する。」
ですかね？？

[3] mixiユーザー 10月15日 16:58

satoさん、かべっちさん

さっそくのご返信ありがとうございます！
（また、返信がおそくなってしまい申し訳ございません）

>?は、「市立・町立の全体を推測する。」
>ではなく「町立・村立の全体を推測する。」
>ですかね？？

かべっちさんへ
　肝心な質問を書き間違えてしまいました。。
　ご指摘のとおり、町立・村立です。
　ありがとうございます。

satoさんへ
>?-?の前に前提部分に触れておきます．
>サンプリングのサイズ（データ数）は，
>目的とする分析手法に適ったサイズが求められます．
># 誤差分散，検出力などを考慮
>また，仮説に見合ったデータの収集を行わなければなりませ>>ん．
>ヨーダさんの挙げた例に沿うと，
>・市町村立のそれぞれに十分なサンプルサイズが必要
>・制度・規模の属性ごとに十分なサンプルサイズが必要
>です．
>例のように悉皆調査の形式で調査票を配布した場合，
>市立の学校は500校，町立は90校，村立は10校
>の回答数で，村立のデータを分析するには足りないサイズ>だ...
>と，なりかねません．

ありがとうございます。
留意したいと思います。

># 実際の学校数に比例する場合も考えられます．
># また，「率先して回答する」属性が隠れているかもしれません．

なるほど、この属性が隠れているかも知れませんね・・

>明確な意図で属性を考慮してサンプルを得る場合，
>属性ごとにランダムサンプリングでデータ収集し，
>かつ，十分なサンプルサイズの回収を
>目標としたほうがいいと思います．
>
>サンプルサイズが十分であれば，?，?は問題ないかと思い
>ます．

ありがとうございます。
まずは安心しました。

>?は，無闇に属性をつぶすようなことはせず，
>各属性の推定値が近似と言えるか分析すべきだと思います．
>「属性に共通な事実」がどのようなことか分かりませんが，
>必ず無視できる属性であれば，
>最初から属性別にデータを取る手間が無駄になってしまいま>すね．
>せっかくデータを取るのであれば，
>共通な事実が確かか見極めるために，
>属性別を残す方が良いと思います．

アドバイスありがとうございます。

>ちなみに，加重平均は，任意の変数に対して，
>町立は2倍，村立は3.5倍...のように
>測定値を倍数に変換してから平均することです．
>これは根拠が無い限りお薦めできませんね．

確かに加重平均の根拠は見当たらなさそう、
な感じもするので、留意します。

前提としての注意点も含めてアドバイス
していただき、ありがとうございます！

正しく修正して、

>～の有効回答を使って、市立・町立の全体を推測する。
　
↓

>　「町立・村立の全体を推測する。」

の場合に、加重平均以外に何らかの手立ては
あるか、悩みどころです。
コメントなどご教示いただけると幸いです。

ログインすると、みんなのコメントがもっと見れるよ