ベイズ 統計 の 理論 と 方法。 ベイズ統計学基礎

ベイズ統計の理論と方法

ベイズ 統計 の 理論 と 方法

詳細は「」を参照 ベイズの定理と組み合わせて確率的推論を行う方法がによって始められ、現在言うところのの端緒となった。 事象の確率という考え方を採用する特徴がある。 現在は例えば、の発見・分類といった作業のコンピュータを用いた自動化()等のふるい分けにも利用されている。 概要 [ ] 事象Bのについて、• ベイズの定理を使えば、事後確率 P B A は下記に従って計算される。 なお事象 B の確率の観点からは、 P A は規格化定数としての意味しかないため、しばしば省略される。 批判 [ ] ベイズ統計学では、事象の確率という考え方を採用し、必ずしも頻度には基づかない確率を「確率」として見なす。 またベイズの定理を用い、 事前確率及びを仮定した下で 事後確率を与える、という相対的なメカニズムを主張している。 したがって 事後確率の計算結果の信憑性や有用性は、事前分布と尤度の設定にかかっており、慎重を期すことが必要である。 これはが、不確実性を含む問題を人によって異なる確率を用いて定式化することを許容する subjective probability という立場をとっていることによる。 この立場はまだ解析対象となっていない新たな問題へのアプローチを可能にするという利点がある一方で、確率の決め方について客観性に欠けるという批判もある()。 応用例 [ ] 薬物検査 [ ] 薬物検査の例を表す樹形図。 さらに社会の0. 005 0. )つまりの数はの数より多い。 これは非使用者が使用者に比べて多いからである。 たとえば、もし無作為に1000人が検査されるならば、995人の非使用者と5人の使用者がいると期待される。 995人の非使用者からは0. 5人の使用者からは 0. よって陽性であると期待される15人のうち、5人のみが薬物使用者である。 この例における特異度の重要性が次の計算からわかる。 脚注 [ ]• 参考文献 [ ]• ; Price, Richard 1763. PDF. 53 0 : 370—418. Gelman, Andrew; Carlin, John B. ; Stern, Hal S. ; Dunson, David B. ; Vehtari, Aki; Rubin, Donald B. 2014. Texts in Statistical Science Series Third ed. CRC Press. Stigler, Stephen M. 1986. The Belknap Press of Harvard University Press. 関連項目 [ ].

次の

「ベイズ統計の理論と方法」勉強会 by IMACEL Academy #1

ベイズ 統計 の 理論 と 方法

同時分布は条件付き確率を使って、以下の様に2通りに書くことができます。 この式こそが ベイズの定理となります。 ベイズの定理に関係する用語 もう一度ベイズの定理を記載しておきます。 すなわち、ベイズ統計学ではベイズ統計学に纏わる用語に意味が与えられています。 ベイズの式と、「 事後分布」、「 エビデンス」、「 尤度関数」、「 事後分布」の相関関係についておさえておきましょう。 ベイズの式からは、事後分布が3つのパーツに分けられる、という事がわかります。 ベイズ統計の中枢とも言えます 例 袋 Aを選んでいるなら青が出やすいし、袋 B を選べば赤が出やすい。 という様に、原因と結果が紐づけられていることを意味します。 事後分布の総和は 1 にならなければならないが、そのことに寄与するのが「エビデンス」、すなわち定数のこと。 例 袋Bを選んでいるのだから、赤が出やすい。 という考え方。 という考え方です。 演繹的な考え方とは真逆の考え方になります。 例 赤が出やすいということは、引いた袋は bなのではないか。 という考え方。 」という考え方になる。

次の

ベイズ推定

ベイズ 統計 の 理論 と 方法

ベイズ推定(ベイズすいてい、: Bayesian inference)とは、の考え方に基づき、観測(観測された事実)から、推定したい事柄(それの起因である原因)を、的な意味ですることを指す。 が基本的な方法論として用いられ、名前の由来となっている。 に応用されて の代表的な方法となっている。 標語的には、「真値は分布する」、「点推定にはこだわらない」などの考え方に依拠している。 概要 [ ] いま、 Aおよび Xを離散とする。 ここで、 P X A のことをと呼ぶ。 (ベイジアン)の考え方では、 A を定数とする必要はなく、上記のような分布に従う確率変数としてよい(客観的に定義できるものではないから、である)。 このように確率分布をより客観的にする方法(ベイズ改訂)を利用して、 A を推定する方法が、ベイズ推定である。 さらに新たな証拠が加えられれば、事後確率を新たに事前確率として扱い、ベイズ改訂を繰り返すこともできる(さらに高い客観性が期待される)。 一方、 A は「原因」であるから、従来のでは、確率分布 P A は既に決定しているものであり、従って X を条件とする確率 P A X A は意味がない。 従来の推計統計学は既に確固たる数学的理論として構築され、多方面に応用されている。 しかしながら母数 a を定数と仮定した上で造り上げられた理論であることから、必ずしも応用に向いたものではない(例えばを決定しにくいへの応用など)という批判がされる。 一方で、ベイズ推定は人間のの過程をモデル化したものとも考えられ、人間の思考様式になじむとも主張されている。 ベイズ推定に対する批判としては、事前確率が主観的で一意的に決められない、またそれをもとにして事後確率を求めても、それが客観的な確率分布に収束するという保証がない、といったものがある。 しかし現在では特にを用いた方法の発展によりベイズ推定の方法も発展し、を識別するためのなどの応用が進んでいる。 事前分布としては全くがない場合にはなどが用いられ(もちろん情報があれば他の分布でよい)、一般には異なる事前確率分布からなどで安定した結果(事後確率分布)が得られれば、実用的に問題はないと考えられている。 ベイズ推定の具体例 [ ] どちらのボウルにクッキーがあるか? [ ] クッキーのいっぱい詰まったボウルが2つあるとしよう。 ボウル 1には10個のチョコチップクッキーと30個のプレーンクッキーが、ボウル 2にはそれぞれが20個ずつある(これを前提知識とする)。 どちらか1つのボウルをランダムに選び、さらにランダムにクッキーを取り出す。 結果、クッキーはプレーンだった。 これがボウル 1から取り出されたという確率はどれくらいか? 半分以上だというのは直感的に分かる(ボウル 1の方がプレーンクッキーが多いから)。 正確な答えをベイズ推定で出そう。 ボウル 1を選ぶという事象を H 1、ボウル 2を選ぶという事象を H 2とする。 「プレーンクッキーが出た」という観察結果を「データ D」とする。 5 と分かる。 75 0. 6 に改訂される。 臨床検査における偽陽性 [ ] はどのような検査でも問題になる。 完全な検査はありえず、検査結果が誤って陽性(実際には陰性)となることもある。 例えば患者に特定の病気の検査を行う場合、実際には病気でないのに病気だという検査結果を出してしまうことが(少ないながら)ある。 ベイズの定理から、もし病気が稀なものならば、(検査自体が正確でも)陽性の結果の多くが偽陽性ということもありうるのがわかる。 特定の病気の検査で、成功率が非常に高い、具体的には• 99)検査結果は正しく「陽性」となる。 95)検査結果は正しく「陰性」となる。 としよう。 そして患者の0. 001)。 こうして、検査結果が陽性だったという条件下で、それが偽陽性である確率をベイズの定理を用いて計算しよう。 A を「患者が病気である」という事象、 B を「結果が陽性だった」という事象とする。 001 0. 981 となる。 検査の正確性は見かけ上高いにもかかわらず、病気の発生率が非常に低い(1000分の1)ため、陽性の結果となった患者の圧倒的多数(100人に98人)が実際には病気でない。 それでも陽性の結果となった患者のうち実際病気である割合 0. 019 は、検査結果を知る前の割合 0. 001 より大幅に絞り込まれている。 このように検査は決して無駄ではなく、再検査によってより正確な結果を知ることができる。 さて、検査は理想的には、患者が病気でないときには非常に高い信頼性で陰性の結果を出さねばならない。 数学的にいうとこれは、上記の分母の第2項が第1項に比較して小さくなければならないということである。 たとえば病気でない患者について 0. 999 の確率で陰性の検査結果が出る(上の例では 0. この例のようにベイズの定理は、稀な条件における検査は、1回の検査で信頼の置ける結果を出せる高い正確性を持つと共に、偽陽性の可能性を覚悟せねばならないことを教えてくれる。 の確率も同様にベイズの定理から計算することができる。 法廷 [ ] ベイズ推定は、法廷で個々のもしくはが証拠を矛盾なく収集し、「合理的疑いがあるかどうか」に関する個人の基準に従って総合的に被告人の有罪無罪を推定するために用いることができる。 G を、被告人が有罪である事象とする。 E を、被告人の が現場で見出された DNA と一致する事象とする。 p E G を、被告人が有罪であるとの条件 G の下で DNA が一致する事象 E の確率とする(これらは通常確率1であると見なされる)。 p G E を、DNA が一致する条件 E の下で被告人が有罪である事象 G の確率とする。 p G を、DNA の一致 以外の証拠に基づいて被告人が有罪だと陪審員が個人的に推定する確率とする。 また法医学的に、ランダムに選んだ人のDNAが現場のDNAと一致する確率は100万分の1、つまり 10 -6 であるとされているとしよう。 事象 E の起こり方は2つありうる。 被告人が有罪である(事前確率 0. 3)か、または無実(事前確率 0. 7)であってしかも彼はDNAが偶然一致する100万分の1の人間の1人であるか、である。 99999766667 ベイズ推定の方法で、ある段階での事後確率を次の事前確率にするという形で全ての証拠を整合的に繋ぎ合わせることができる。 ただし陪審員は最初の証拠を考慮する前に有罪の確率について事前確率分布を持っていなければならない。 これには、事件が起きた町の適切な人々(性別、年齢などを考慮する)からランダムに選んだ誰かの有罪確率を用いればよかろう。 一般の陪審員にベイズの定理を説明するためには、確率よりもの形(有罪・無罪の確率比)で示すのが分かり易いかもしれない。 上の例では、被告人が有罪の事前確率を 0. 3 とする陪審員の考えは、「オッズ 3:7 で有罪」と表現される。 ベイズ因子は100万、従って事後オッズは300万:7、あるいは約429,000:1で有罪となる。 潜水艦沈没事故 [ ] 1968年5月、アメリカの原子力潜水艦が大西洋で行方不明となった。 この時捜索と並行して用いられた手法は次のものであった。 まず海図上を多数のグリッドに分割してそこに潜水艦が沈んでいる事前確率を経験に基づいて割り振っておき、確率の高い所を捜索し、捜索の結果そこに見付からなかったら全体の確率を改訂する。 また確率の高いところを捜索し、これを繰り返して絞り込みを行う。 この方法で潜水艦は発見された。 ある領域に潜水艦が沈んでいる確率を p とし、実際にそこにあるという条件でそれが発見される確率を q としよう。 それ以外の領域については残りの確率 1 - p を、事前確率に比例する形で割り振る。 モンティ・ホール問題 [ ] 詳細は「」を参照 3つの扉のうち1つだけに賞品が入っていて、回答者はそれを当てたら賞品がもらえる。 ただし扉は次のように2段階で選ぶことができる。 まず回答者は3つの扉からどれか1つを選ぶ。 次に、答を知っている司会者が、選んでいない扉で賞品の入っていない扉1つを開けてみせる。 ただし、回答者が当たりの扉を選んでいる場合は、残りの扉からランダムに1つを選んで開けるとする。 このあと回答者は扉を1回選び直してもよい。 2の段階で司会者から示された扉を B、残りの扉を C としよう。 だから、2の段階でもう1つの扉を選び直した方が当たる確率が高い。 1で選んだかどうかは主観的なもので確率に関係ないのではないか?という気がするが、実際は扉 A を選んだと表明することで司会者の行動に影響を与えているのである。 潜水艦の例では、確率が高いとして選んだ領域から捜索している点で違う。 P A , P C を、それぞれ A, C が当たりである事前確率とし、 P B A , P B C を、それぞれ A, C が当たりである場合に司会者が B を開ける確率とする。 従って、モンティ・ホール問題では、「ただし、回答者が当たりの扉を選んでいる場合は、残りの扉からランダムに1つを選んで開けるとする。 」という条件が最も重要であることに留意すべきである。 参考 [ ] 以上は、モンティ・ホール問題に対して、ベイズ確率を計算した場合である(ベイズ推定)。 もし「頻度確率」を計算する問題として考えた場合も同じ結果が得られる。 ただし議論の形は異なる。 以下、頻度確率の考え方で、「扉を換えるのと換えないのと、どちらが当たる確率が高いか?」を計算してみる。 最初の選択を変えないと決めた場合、最初に選んだ扉をすぐ開けても事情は同じである。 これが最初の選択を変えないと決めた場合に当たる確率である。 一方、最初に選択した扉を常に変更した場合に当たる確率は、上述の確率を1から引いた値になる。 してみると、ベイズ確率の計算で最も重要であった、「ただし、回答者が当たりの扉を選んでいる場合は、残りの扉からランダムに1つを選んで開けるとする。 」という条件は、頻度確率では何の意味も持たないことに留意すべきである。 二項分布母数の事後分布 [ ] これまでは確率論的な例だったが、統計学的な(多数のものを扱う)例として、二項分布の母数の事後分布を計算することを考えよう。 同じ問題はベイズも考えている。 観察結果が、成功 m 回、失敗 n 回となったとする。 具体的にはでも、誰かに賛成・反対の意見を聞くのでもよい。 母数 a (試行回数、成功確率)について事前確率 p a で表されるとする。 上の例のベータ分布のように、事後分布が同じタイプの分布になるような事前分布をという。 5 以上となる確率は 0. 891 となり、どちらかといえば新薬の方がよいと考えられる。 このようにベイズ推定を使うと、小さい標本でも暫定的に母数を推定することができる。 脚注 [ ]• 従来の(および「確率」に対する的な考え方)とは多少異なる考え方を採用している。 関連項目 [ ]•

次の