ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

統計家コミュの教えてください(サンプリングの考え方)

  • mixiチェック
  • このエントリーをはてなブックマークに追加
統計調査を勉強しはじめ、
そしていつも、トピで勉強させていただいております。

今回、基本的なことかも知れず恐縮ですが、
一点どなたかご教示ください。

例えばの話なのですが、
 全国の市町村にある全ての(市町村立)小学校に
アンケート調査票を配布する。
 そして、約2000くらいの対象に対して、
3割の600(市・町・村の各々50以上はある)有効
回答数があった。
 市立・町立・村立の属性によって、色々な差異がある
(例えば、制度や規模から生じる様々な問題など)と
 いう実態がある(という仮説)という前提がある。

そこで、
?市町村立の小学校の実態を推測するのに、
 有効回答を使って、市町村立小学校の全体を推測する。
?市立の小学校のみの実態を推測するのに、
 市立の小学校のみの有効回答を使って、市立の全体を推測する

 上記の??は、このような考え方でいいか(確かだろうか・・・)考えていますが、

?市立を除く、町立・村立の小学校の実態を推測(2つの属性に
共通な事実があったとして)するのに、町立・村立の2つの属性
の有効回答を使って、市立・町立の全体を推測する。

この?が、(無作為のサンプリングを前提とした)統計処理として、問題がないか?
 →町立・村立を各々個別に統計処理して、(加重平均など
  して)2つの属性の全体を推測する?、という方法に
  なるのか?

どなたか、恐縮ですが、ご教示いただけると助かります。

コメント(3)

?-?の前に前提部分に触れておきます.
サンプリングのサイズ(データ数)は,
目的とする分析手法に適ったサイズが求められます.
# 誤差分散,検出力などを考慮

また,仮説に見合ったデータの収集を行わなければなりません.
ヨーダさんの挙げた例に沿うと,
・市町村立のそれぞれに十分なサンプルサイズが必要
・制度・規模の属性ごとに十分なサンプルサイズが必要
です.
例のように悉皆調査の形式で調査票を配布した場合,
市立の学校は500校,町立は90校,村立は10校
の回答数で,村立のデータを分析するには足りないサイズだ...
と,なりかねません.
# 実際の学校数に比例する場合も考えられます.
# また,「率先して回答する」属性が隠れているかもしれません.

明確な意図で属性を考慮してサンプルを得る場合,
属性ごとにランダムサンプリングでデータ収集し,
かつ,十分なサンプルサイズの回収を
目標としたほうがいいと思います.

サンプルサイズが十分であれば,?,?は問題ないかと思います.
?は,無闇に属性をつぶすようなことはせず,
各属性の推定値が近似と言えるか分析すべきだと思います.
「属性に共通な事実」がどのようなことか分かりませんが,
必ず無視できる属性であれば,
最初から属性別にデータを取る手間が無駄になってしまいますね.
せっかくデータを取るのであれば,
共通な事実が確かか見極めるために,
属性別を残す方が良いと思います.

ちなみに,加重平均は,任意の変数に対して,
町立は2倍,村立は3.5倍...のように
測定値を倍数に変換してから平均することです.
これは根拠が無い限りお薦めできませんね.
?は、「市立・町立の全体を推測する。」
ではなく「町立・村立の全体を推測する。」
ですかね??
satoさん、かべっちさん

さっそくのご返信ありがとうございます!
(また、返信がおそくなってしまい申し訳ございません)

>?は、「市立・町立の全体を推測する。」
>ではなく「町立・村立の全体を推測する。」
>ですかね??

かべっちさんへ
 肝心な質問を書き間違えてしまいました。。
 ご指摘のとおり、町立・村立です。
 ありがとうございます。

satoさんへ
>?-?の前に前提部分に触れておきます.
>サンプリングのサイズ(データ数)は,
>目的とする分析手法に適ったサイズが求められます.
># 誤差分散,検出力などを考慮
>また,仮説に見合ったデータの収集を行わなければなりませ>>ん.
>ヨーダさんの挙げた例に沿うと,
>・市町村立のそれぞれに十分なサンプルサイズが必要
>・制度・規模の属性ごとに十分なサンプルサイズが必要
>です.
>例のように悉皆調査の形式で調査票を配布した場合,
>市立の学校は500校,町立は90校,村立は10校
>の回答数で,村立のデータを分析するには足りないサイズ>だ...
>と,なりかねません.

ありがとうございます。
留意したいと思います。

># 実際の学校数に比例する場合も考えられます.
># また,「率先して回答する」属性が隠れているかもしれません.

なるほど、この属性が隠れているかも知れませんね・・

>明確な意図で属性を考慮してサンプルを得る場合,
>属性ごとにランダムサンプリングでデータ収集し,
>かつ,十分なサンプルサイズの回収を
>目標としたほうがいいと思います.
>
>サンプルサイズが十分であれば,?,?は問題ないかと思い
>ます.

ありがとうございます。
まずは安心しました。

>?は,無闇に属性をつぶすようなことはせず,
>各属性の推定値が近似と言えるか分析すべきだと思います.
>「属性に共通な事実」がどのようなことか分かりませんが,
>必ず無視できる属性であれば,
>最初から属性別にデータを取る手間が無駄になってしまいま>すね.
>せっかくデータを取るのであれば,
>共通な事実が確かか見極めるために,
>属性別を残す方が良いと思います.

アドバイスありがとうございます。

>ちなみに,加重平均は,任意の変数に対して,
>町立は2倍,村立は3.5倍...のように
>測定値を倍数に変換してから平均することです.
>これは根拠が無い限りお薦めできませんね.

確かに加重平均の根拠は見当たらなさそう、
な感じもするので、留意します。

前提としての注意点も含めてアドバイス
していただき、ありがとうございます!


正しく修正して、

>〜の有効回答を使って、市立・町立の全体を推測する。
 


> 「町立・村立の全体を推測する。」

の場合に、加重平均以外に何らかの手立ては
あるか、悩みどころです。
コメントなどご教示いただけると幸いです。

ログインすると、みんなのコメントがもっと見れるよ

mixiユーザー
ログインしてコメントしよう!

統計家 更新情報

統計家のメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。

人気コミュニティランキング