ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

統計家コミュのベイジアンって結局なんでしょう?

  • mixiチェック
  • このエントリーをはてなブックマークに追加
ベイズの定理って、条件付確率だと理解しています。

良くある問題で、世間には緑と青のタクシーが4:1であって、事故の目撃者が「青だ」って言ったときに、目撃者が間違えずに答える確率が90%だとして、本当に青のタクシーである確率はいくらかとかそんなの。
(緑と青が逆かもしれないし、数字は適当です。)

この話が、なんで「立場」の話まで発展するかが、良く分からないのです。ベイジアンっていう人種のような言い方が不思議。重桝先生も「ベイジアンの立場をとって」とか言うのが良く分からなくって。。。

ベイジアンって結局なんなんでしょう?
#と聞いてみます。

コメント(10)

 先日大恥かいたshintaroです。懲りずに挑戦させて下さい。よろしくお願いいたします。

 ベイズ統計に対する批判は、
 1.主観確率、という確率の定義を認めるか、
 2.ベイズの定理にしたがって確信が更新されるという仮定が本当に成立するのか、
 3.事前分布をいうものを、データと等価のものとして扱うことに問題がないのか、

の3点に集約されるのではないでしょうか。公理系とかそういった形式的な部分はいずれも問題がないわけです。だからこそ、批判はこれらを用いて問題ない、とする人々の立場に対するものになると。逆に言えば、ベイズ統計の論理そのものに対する批判はあまり聞いたことがありません。ベイズ統計を利用することそのものに対する批判がほとんどだと思っています。

 1.については、推定したい未知母数そのものが、確率的に変動する、と仮定している点が批判されています。「明日10時の東京の天気は、晴れる確率40%」という表現はベイズ的です。頻度論の立場からは、「明日10時の東京の天気」は未知ではあるが確定的なものなので、確率で表現すること自体がおかしい、というわけです。

 あと学会発表なんかでは、2と3に関連する批判がよくあります。これは、現実の題材に、2や3といったモデルを仮定することが妥当か、という議論なので、普通に考えればベイズ統計そのものに対する批判ではないように見えます。しかしよくよく議論をしていると「そもそも、ベイズ統計に反対」という立場からの批判が結構あるというのも実際のところです。こうなると、ベイズ統計そのものへの批判、と取れるわけです。

 繁桝先生が「ベイジアンの立場をとって」と言うときは、「主観確率を用います。ベイズの定理によって確信が更新されるというモデルが成り立ち、無情報量でない事前分布が用いられていることを仮定します」という意味だと思います。
うーむ,やっぱり出てきてしまいました.

shintaroさんが詳しく説明されていますが,核心となるのは1の「主観確率を認めよ」という点だと思います.

確率の定義はいくつもある(頻度論的確率など)のですが,主観確率を用いる場合,ある人がある未知の事象に対して持つ確信度としての確率が,確率の公理を満たすものでなければならないことになります.心理学的にはそんなことはないわけですが,これを認めないと後が続かないのです.

これさえ認めれば,2は仮定というよりも公理から導かれるベイズの定理を用いた推測に関することですから,少なくとも確率論的には正当化されています(これを人間の確信度の更新という思考プロセスになぞらえて正当化する必要はない;むしろformalな推測のメカニズムがベイズの定理によって提供されていると見るべき).3も事前分布を尤度関数にくっつけるとデータと等価の解釈になってしまうということであって,ベイズの定理を使う以上必然ではないでしょうか.(この辺り,何かおかしなことを言っているようでしたら是非ご意見お願いします.)

余談ですが,個人の確信度をproperな確率分布(=事前分布)として表す作業はprobability assessmentと呼ばれていて,それだけでも統計学の一分野となっています.私は下記の本をちょっとだけかじりました.

Lad, F. (1996). Operational subjective statistical methods. NY: Wiley.

また,科学哲学の枠内でベイズ主義を論じたものに次があります.

内井惣七 『科学哲学入門』(世界思想社,1995年)

文献で少しお茶を濁してみました.すみません.
メールソフトで迷惑メールを排除するプログラムはベイズ推定を使ってますね。
最近は統計学会に行くとベイズ派と非ベイズ派で熱い論戦が交わされるわけですが、トレンドの一つということでしょうか。
ここのトピック楽しく読ませてもらいます。
ぎょうけん様、はじめまして。

>ここのトピック楽しく読ませてもらいます。


 そんなことおっしゃらずに、なんか書いて下さい(笑)。多くの方が書いてくだされば、私の間違いや誤解も薄まるというもので。

 統計学会では、例えばどんなことで論戦になっていました?
はじめまして。統計学専攻D1のなんたろうといいます。
興味あるトピックなので書き込みさせていただきます。

うちの大学にはベイジアンの先生や院生の方が多くいらっしゃるので、色々話を聞くことも多いのですが・・。
(ちなみに私は非ベイジアンです)

私もぼよよんさんと同じく何でベイジアンと呼ばれるのか?でしたが。少しずつ分かってきたのは、やはり推定する対象の違いですかね。

頻度論では
・未知母数を推定。(また、その標準誤差も推定)
なのに対し、ベイズ推定は
・未知母数の分布を推定
ということになります。

これに関して、ベイズ専門用語も多くあるのが特徴です。
samplingというと、私はある母集団からデータをとってくる、調査のようなものを想像するのですが、ベイズ推定では事前分布から乱数を発生させることを指します。
他にも共役、properなど・・・。

そのような状況がベイジアンと呼ばれる理由かなと。

shintaroさんの天気の話を補足すると・・。

「明日10時の東京の(真の)天気は、晴れる確率40%」という表現はベイズ的。
「明日10時の(真の)東京の天気は晴れ」が頻度論ですね。

ベイズであれ、頻度論であれ、予測(推定)する場合は
「予測では、明日10時の東京の天気が晴れである確率はXX%」
という表現にどちらもなります。

正直、ベイズ論争を聞いてる場合、それは勘違いでは?という論点もあるような気がします。

未だに聞いててよく分からなかったのが、
「ベイズ推定では区間推定ができる」
ですね・・・。

たぶん、分布を推定することを言ってるのかなあと思うのですが。頻度論でも未知母数を推定した際、推定誤差が出るのですから、誤差項に分布を仮定しておけば区間推定可能だと思うのですが。発言した本人に聞いてもお茶を濁されたので、未だにわからないです^^;

以上、勘違いありましたらご容赦を。ベイズ推定はこれからも定着していって、統計の専門家以外でも使われるでしょうから、勉強していきたいと思います。
(こういうディスカッションしたいなぁ。私の周りでは出来ない。分散って言っても分からない人ばっかりだから。研究員の癖に)

http://bookweb.kinokuniya.co.jp/guest/cgi-bin/wshosea.cgi?W-NIPS=995079210X

この本読んでて(分かりにくいところもありますが。。。)

手元に無いんですけど、、、

ここで論じているのはむしろ「確率がいくつだと思うか」という話が、実験条件によって変わる(プロスペクト理論など)という話が印象深かったですね。

主観的確率って「40%だと思う」ということを取り扱うって意味ですかね。

ベイジアンというより「人間の理解のあり方も勘案せよ」ってだけで、個人的には「そんなの当たり前じゃないの?」って気もしますが。。。(何で議論になるんでしょうね)。

どうせ、未来も現在の事実も過去の出来事も厳密に記述できないですしね。(って開き直るのが嫌いな人もたくさん居るわけか)
なんたろうさん、はじめまして。shintaro@大学です。私も慎太郎でございます。今後とも是非、よろしくお願いします。

>ベイズ推定では事前分布から乱数を発生させることを指します。

 これは流行のMarkov chain Monte Carlo(MCMC)のことだと思いますが、サンプルといえば、基本的にはベイズでも母集団からの標本だと思います。ベイズ統計の人のなかには、MCMCをものすごく嫌がる人もいますので(笑)。

 ベイズの標本で、頻度論の標本と扱いが異なるのは、たいていの場合、厳密な独立性ではなく、交換可能性さえ保証されていれば計算を進めてよい、というところではないでしょうか。


>誤差項に分布を仮定しておけば区間推定可能だと思うのですが。

 「確率」という言葉の使い方の問題だと思います。頻度論では、予測・推定であっても、

「予測では、明日10時の東京の天気が晴れである確率はXX%」

という表現はできません。この「確率」は、信頼区間の誤解かと思われます。

 頻度論において、「n標本から母数μの推計値Mについて、90%信頼区間を求める」というのはよく見る形式ですが、この90%の意味は、

「n標本の抽出を100回繰り返して、それぞれから90%信頼区間を求めるとする。100個の90%信頼区間のうち、約90個の信頼区間には、μが含まれていると考えることが妥当である」

という意味です。「90%の確率で、この区間にμが含まれている」という解釈をよく見ますが、これは頻度論の立場からすればやはり正確な表現ではなく、ベイズの表現なのです。
”100項目しらべれば、5項目くらいは有意水準5%で検定とかできるわけよ。”

と教えてもらった瞬間から、”統計なんて”って思いました。

あくまでも、真摯な態度を一応示す手段に過ぎないと思います。
>統計なんて。

未だに「自動的に統計的な構造が分かる技術が欲しい」とかタコな事を抜かす馬鹿ヤロウが多いので。。。(あ、これは愚痴ですね。ごめんなさい)
なんたろうさんの書き込み:
>頻度論では
>・未知母数を推定。(また、その標準誤差も推定)
>なのに対し、ベイズ推定は
>・未知母数の分布を推定
>ということになります。

これは頻度論の考え方への私の疑問なのですが,変量効果モデル(random effect model)や階層モデル(hierarchical linear modelなど)では下位の母数に対して上位の母数で規定される分布を仮定しますよね?これらをベイズとまったく同一視することはできないかもしれませんが,母数に分布を仮定するという意味で形式上はベイズと同じものになってしまいます.頻度論者はこのような点については何も違和感を感じないのでしょうか?

区間推定の議論に関しては,shintaroさんのおっしゃっていることが的を得ていると思います.頻度論では母数は固定ですから,「母数そのもの」についての確率的な議論は絶対に不可能です.両者とも,「母数の推定量」に関する確率的な議論は可能ですが.
>shintaroさん
はい、よろしくお願いします。同じ慎太郎で統計の先輩がいるのはなんか心強いです(笑)

信頼区間の話は納得。「確率」という言葉の話ですか・・・。

あれ?でも、頻度論では「コインを100回投げて50回表がでる」時、コインの表が出る確率は2分の1とするのですよね。

>100個の90%信頼区間のうち、約90個の信頼区間には、μが含まれていると考えることが妥当である」

という意味からすると「90%の確率で、この区間にμが含まれている」というつい解釈してしまう・・・^^;

やはり、まだ消化しきれてないようです。
難しいモデルを知ってても、 こういう土台の部分につまずいてしまいます。ちょいとじっくり他の本を読んだりして考えてみます。

ログインすると、みんなのコメントがもっと見れるよ

mixiユーザー
ログインしてコメントしよう!

統計家 更新情報

統計家のメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。

人気コミュニティランキング