ベイズ統計_04_事前分布・基本的なベイズ推論(1)

1.

ベイズ統計 04 事前分布・基本的なベイズ推論(1) 分寺杏介神戸大学大学院経営学研究科  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

2.

（前回のおさらい）尤度関数｜頻度主義の場合 ▌尤度関数は「所与のデータ𝑌は，どの設定から発生しやすいか」を表すもの頻度主義的には，パラメータの「真の値」＝「真の設定」がただ一つ存在する ▶ 統計的推測としては，最も発生しやすい設定を選ぶのが良かろう ▌最尤推定 (maximum likelihood estimation: MLE) 例クジを3回ひいたらちょうど1回当たった。このときクジの当たり確率 𝜋 の最尤推定値は？尤度関数は𝐿 𝜋 𝑘 = 1 = 3𝐶1 𝜋 1 1 − 𝜋 2 = 3𝜋 1 − 𝜋 2 【左図】 1 3 この尤度関数は， 𝜋 = のときに最大値を取るので最尤推定値は 𝜋ො = 1 3 「３回中１回当たった」という結果は 𝜋ො = 1 の設定から発生したと考えるのが 3 一番尤もらしい推論ですねぇ 04 事前分布・基本的なベイズ推論(1) 2

3.

（前回のおさらい）尤度関数の使い方｜ベイズ統計の場合 ▌尤度関数は「所与のデータ𝑌は，どの設定から発生しやすいか」を表すものベイズ統計的には，各設定に対する信念の強さを確率分布として表す ▶ ベイズ統計では，尤度関数がそのまま各設定に対する信念の更新式となる例クジを3回ひいたらちょうど1回当たった。このときクジの当たり確率 𝜋 の事後確率は？尤度関数は𝐿ベイズの定 𝜋 𝑘 = 1 と確率分 = 3𝐶1 𝜋 1 1 − 𝜋 2 = 3𝜋 1 − 𝜋 2 【左図】ここからはデータを，ラータをとするこれがそのまま「データによる信念の更新」を表す尤度 04 事前分布・基本的なベイズ推論(1) 3

4.

完成したstanコード data { どんな形のデータ(𝑌)が与えられるかを指 int N; • 試行数 int K; • 当たり数する。今回の例では } の2つが与えられている。 ※stanコードでは「こんな形式のデータが来る」を指実際のデータはRから渡します。 parameters { 推定するする。今回の例では real <lower=0,upper=1> pi; ラータ(𝜃)を指 • 成功確率 } の1つだけ。 model { 実際に事後分の形を規定するもの(𝑃 𝑌 𝜃 𝑃 𝜃 )を指する。 K ~ binomial(N, pi); } します。そのため，事前分布𝑃 𝜃 と尤度𝑃 𝑌 𝜃 の両方を書いている。 𝑃 𝜃𝑌 = 𝑃 𝑌𝜃 𝑃 𝜃 𝑃 𝑌 04 事前分布・基本的なベイズ推論(1) まだ尤度しか書いていない ▶ 事前分布の設定の話へ 4

5.

１事前分引き続き二項分の推定を例に 04 事前分布・基本的なベイズ推論(1) 5

6.

事前分とはデータを𝑌 ，ラータを𝜃 とするベイズの定理 𝑃 𝑌𝜃 𝑃 𝜃 𝑃 𝜃𝑌 = 𝑃 𝑌 事前分データが与えられる前から持っている，パラメータ自体の確率分布。なおベイズ統計では主観確率分布を置くことが可能。つまり • 去年の国勢調査から得られた分布，みたいなデータに基づくものでも • 「俺はこう思う」というなんの根拠のないものも（理論上）許してくれる。 04 事前分布・基本的なベイズ推論(1) 6

7.

stanにおける事前分の設定 ▌基本的な書き方は尤度関数とほぼ同じです p. 4のコードの場合，当たり確率パラメータ pi の事前分布を指 pi ~ xxx(y, z); 【例】一様分布を指したいのでパラメータがy, zのxxx分布，という意味 𝜋 ∼ 𝑥𝑥𝑥(𝑦, 𝑧) したい場合（piは0から1の値なので） model { pi ~ uniform(0, 1); K ~ binomial(N, pi); } 事前分布と尤度を書く順番は自由です ※stanでは，事前分布を書かなければ「そのラータが取りうる値すべて」を範囲に持一様分 04 事前分布・基本的なベイズ推論(1) が自動的に置かれる 7

8.

事前分に情報を与えたい ▌一様分はいわば「由不十分の法則」データのみから客観的に当たり確率を推測しているという意味では一つの考え方としては間違ってはいない当たり確率に関する情報が何も無い，という状態しか表現できない ▌一方で「ベイズ統計は事前情報を加えてこそ」という意見もあるその情報が客観的か主観的か，についてはいろいろな考えがあるけれどもなんの情報もない事前分一様分 uniform(0,1) 主観的な？信念を加えた事前分こいは何分？（根拠はないが）今日は設定が甘いはず！ 04 事前分布・基本的なベイズ推論(1) 8

9.

ベータ分｜Beta distribution ▌ベルヌーイ試行の「確率」や「割合」などに関する確率分 𝑁回 • シュートが決まる確率 • 病気になる確率 • 商品を買う確率関数ラータ略記期待値分散 B 𝛼, 𝛽 は「ベータ関数」ですが正規化数なので気にしなくてOKです 1 𝑃 𝜋 = 𝜋 𝛼−1 1 − 𝜋 𝛽−1 B 𝛼, 𝛽 𝛼 𝛽 確率 𝜋 確率 1−𝜋 ２つで分布の形が決まる 𝐵𝑒𝑡𝑎(𝛼, 𝛽) 𝛼 𝛼+𝛽 𝛼𝛽 𝛼 + 𝛽 2 (𝛼 + 𝛽 + 1) 04 事前分布・基本的なベイズ推論(1) 9

10.

ベータ分の特徴一様分 ▌0から1の範囲しかとらない ▌ ラータによって多様な形に変わる ▶ 0から1の値をとる変数なら基本これでOK ▌確率に関する事前分として用いられるみたい 𝛼 = 1, 𝛽 = 1 左右対称の山左下がり 𝛼 = 15, 𝛽 = 15 𝛼 = 4, 𝛽 = 10 𝛼 = 5, 𝛽 = 2 𝛼 = 1, 𝛽 = 3 𝛼 = 5, 𝛽 = 1 ゼロイチの信念 𝛼 = 0.1, 𝛽 = 0.1 左に偏った信念右に偏った信念右下がり 𝛼, 𝛽の値を変えることで，事前の信念の強さを自由に表現することができる現在では事前分布として何らかの確率分布を用いるとき，その分布の本来の意味は大して重要ではないことが多い。単に「分布の形がそれっぽい」「計算上楽だから」という由で大抵は選ばれている 04 事前分布・基本的なベイズ推論(1) 10

11.

ベータ分２ののラータラータ 𝜃 = {𝛼, 𝛽} の意味は？ ▌二項分と比べてみる二項分の確率関数 𝑘 ベータ分 𝑃 𝑘 𝜋, 𝑛 = 𝑛𝐶𝑘 𝜋 1 − 𝜋 𝑛−𝑘 の確率密度 1 𝑃 𝜋 = 𝜋 𝛼−1 1 − 𝜋 𝛽−1 B 𝛼, 𝛽 カーネルの形がよく似ている！どちらのカーネルも𝜋 成功した数 1 − 𝜋 失敗した数だと考えると二項分ベータ分 𝑘回成功し， 𝑛 − 𝑘回失敗する確率 𝛼 − 1回成功し， 𝛽 − 1回失敗した際の成功率の信念を表したもの 04 事前分布・基本的なベイズ推論(1) 11

12.

[beta]

事前分

を指定して再度stanを実行してみる

▌事前分 を追加したstanコード
model_binom.stan

あとは前回と同じように走らせるだけ

data {
int N;
int K;

library(cmdstanr)
model <- cmdstan_model(“model_binom.stan”)
stan_data <- list(N=3, K=1)

}
parameters {

result2 <- model$sample(data = stan_data)

real <lower=0,upper=1> pi;
}

前回の結果と
比べてみましょう

model {
pi ~ beta(5,2);
K ~ binomial(N, pi);
}
04 事前分布・基本的なベイズ推論(1)

12

13.

事前分を変えてみる ▌事後分を比較するデータは変わらず(N=3,K=1)，事前分 // pi ~ beta(1, 1); だけが変わっている pi ~ beta(5, 2); pi ~ uniform(0, 1); 前回の結果回の結果 04 事前分布・基本的なベイズ推論(1) 13

14.

事前分の恣意性の問題 ▌ベイズの定に従って事後分 𝐿(𝜋|𝑘 = 1, 𝑛 = 3) uniform(0, 1); × 前回 ∝ 𝐿(𝜋|𝑘 = 1, 𝑛 = 3) beta(5, 2); 回が生成されるのだから当然の結果 × ∝ 04 事前分布・基本的なベイズ推論(1) 14

15.

ベイズ推定における大事なこと（特にデータが少ない場合）事前分分析時には事前分は結果に大きな影響を与えるの報告が必要そして「なぜその事前分布を採用したのか」由付けも重要 ▌査読や学会発表で言われがちなコントこんな結果になりました素人質問で恐縮ですが… その結果って事前分の設定の影響受けてないですか？ ………… 04 事前分布・基本的なベイズ推論(1) 15

16.

事前分に関する疑問点 1. そもそもなぜラータ𝜋の事前分 2. じゃあ他の場合はどんな分にベータ分を置いたの？を置けばいいの？ 3. 事前分の形はどうやって決めたら怒られないの？論的にはフリーハンドで書いたこんなのでもいいのだが現実的にはこんな分布は使えない。なぜ？あるいはデータからノンパラメトリックな事前分布を用意したらだめなのか？ 04 事前分布・基本的なベイズ推論(1) 信念の主観性を極限まで認めたらこんなグネグネな分になりそう 16

17.

（前提として）そもそも ▌ノンラトリックな確率分を用いる由ラトリックな事前分の場合事前分尤度事後分 × ∝ 0.25では0.264で，0.26では0.275で，… 一応フーリエ級数展開などを使えばこれも関数として表せると思いますが複雑すぎて扱いにくくなってしまいますノンラトリックな分を使ってしまうと結局ラータの取りうる各点での値を一一計算する必要が生じてしまう 04 事前分布・基本的なベイズ推論(1) この例のように１ラータの場合や離散ラータならできなくはないのですが… 17

18.

（前提として）そもそもラトリックな確率分を用いる由 ▌取り扱いがラクだからちっちゃい事は気にするな一応フーリエ級数展開などを使えばこれも関数として表せると思いますが複雑すぎて扱いにくくなってしまいます 1 𝑃 𝜋 = 𝜋 𝛼−1 1 − 𝜋 𝛽−1 B 𝛼, 𝛽 扱いやすい関数の形で表現してあげる 04 事前分布・基本的なベイズ推論(1) 18

19.

事前分の決め方①｜分の形 Q. 成功確率のパラメータ𝜋の事前分布をベータ分布にした由は？ A. そもそも𝜋は(0,1)の値しか取らないのでベータ分代わりに切断分 𝑁(0.5, 1) が自然だからを使うのはダでしょうか？ 𝜋 = 0.5が一番ありそうだけどあまり自信はない高いか低いかは五分五分 04 事前分布・基本的なベイズ推論(1) 𝑁(0.5, 1)の一部 19

20.

事前分の決め方①｜分の形 Q. 成功確率のパラメータ𝜋の事前分布をベータ分布にした由は？ A. そもそも𝜋は(0,1)の値しか取らないのでベータ分代わりに切断分が自然だからを使うのはダでしょうか？ 𝑁(0.5, 1)の一部両端を除けば 𝐵𝑒𝑡𝑎(1, 1) だいたい同じ ▼ ← は無情報事前分？ 04 事前分布・基本的なベイズ推論(1) 20

21.

事前分の決め方①｜分の形 Q. 成功確率のパラメータ𝜋の事前分布をベータ分布にした由は？ A. そもそも𝜋は(0,1)の値しか取らないのでベータ分代わりに切断分が自然だからを使うのはダでしょうか？ 𝑁(0.5, 100)の一部完全に一致 04 事前分布・基本的なベイズ推論(1) 𝐵𝑒𝑡𝑎(1, 1) 21

22.

事前分の決め方①｜分の形 Q. 適当な分布を(0,1)で切断したら何でも良い？それよりもベータ分布が良い由は？ A. 自然共役事前分だから 𝑃 𝜃𝑌 ∝𝑃 𝑌𝜃 𝑃 𝜃 において，事前分 𝑃 𝜃 と事後分 𝑃 𝜃 𝑌 が同じ※ になることが知られている分のこと ※もちろんパラメータは変わるが，この場合は同じ「ベータ分布」になるということ 04 事前分布・基本的なベイズ推論(1) 22

23.

自然共役事前分ベータ分のラータ 𝑃 𝜃 𝑌 ∝ 𝑃 𝑌 𝜃 𝑃 𝜃 にいて２のラータ 𝑃 𝜃 にベータ分事前分二項分 , （𝐵𝑒𝑡𝑎(𝛼, 𝛽)）， 𝑃 𝑌 𝜃 に二項分の確率関数 = （𝐵𝑖𝑛𝑜𝑚(𝜋, 𝑛)）を置く尤度と比べてみる二項分 p. 11より = { , } の意味は？ベータ分の確率密度 1 カーネルの形がよく似ている！どちらのカーネルも成功した数 1 失敗した数だと考えると二項分回成功し，ベータ分回失敗する確率 1回成功し， 1回失敗した際の成功率の信念を表したもの 04 事前分布・基本的なベイズ推論(1) 確率と確率分布 23

24.

自然共役事前分 𝑃 𝜃 𝑌 ∝ 𝑃 𝑌 𝜃 𝑃 𝜃 にいて 𝑃 𝜃 にベータ分（𝐵𝑒𝑡𝑎(𝛼, 𝛽)）， 𝑃 𝑌 𝜃 に二項分（𝐵𝑖𝑛𝑜𝑚(𝜋, 𝑛)）を置く尤度事前分 𝑃 𝑘 𝜋, 𝑛 × 𝑃 𝜋 = 𝑛𝐶𝑘 𝜋 𝑘 1 − 𝜋 𝑛−𝑘 × 1 = 𝑛𝐶𝑘 × 𝜋 𝑘+ 𝛼−1 1 − 𝜋 B 𝛼, 𝛽 1 𝜋 𝛼−1 1 − 𝜋 𝛽−1 B 𝛼, 𝛽 𝑛−𝑘 + 𝛽−1 = 正規化数 × 𝜋 𝛼+𝑘 −1 1 − 𝜋 事前分 𝛽+𝑛−𝑘 −1 事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった 04 事前分布・基本的なベイズ推論(1) 24

25.

ベータ分の更新事前分事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった 𝐵𝑒𝑡𝑎 𝛼, 𝛽 𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 成功回数𝛼 − 1，成功回数𝛼 + 𝑘 − 1，失敗回数𝛽 − 1のときの失敗回数𝛽 + (𝑛 − 𝑘) − 1のときの成功確率の分布データ（尤度）これまでに 10回ヒットを打っており 20回アウトになっている 𝐵𝑒𝑡𝑎(11,21) 成功確率の分布日の試合ヒット4回アウト1回 04 事前分布・基本的なベイズ推論(1) これまでに 10+4回ヒットを打っており 20+1回アウトになっている 𝐵𝑒𝑡𝑎(15,22) 25

26.

ベータ分の更新事前分事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった 𝐵𝑒𝑡𝑎 𝛼, 𝛽 𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 成功回数𝛼 − 1，成功回数𝛼 + 𝑘 − 1，失敗回数𝛽 − 1のときの失敗回数𝛽 + (𝑛 − 𝑘) − 1のときの成功確率の分布 𝐵𝑒𝑡𝑎(11,21) データ（尤度）成功確率の分布 𝐵𝑒𝑡𝑎(15,22) 日の試合ヒット4回アウト1回 04 事前分布・基本的なベイズ推論(1) 26

27.

更新前後の期待値事前分事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった ▌ベータ分 𝛼 𝐵𝑒𝑡𝑎 𝛼, 𝛽 の期待値は 𝛼+𝛽 ▶ 事後分の期待値はラータ意味事前分 𝛼+𝛽 𝛼 𝛼+𝛽 事前情報の総量尤度 𝑛 データの総量 𝑘 𝑛 データの平均値 𝛼+𝑘 𝛼+𝑘 = 𝛼 + 𝑘 + (𝛽 + 𝑛 − 𝑘) 𝛼 + 𝛽 + 𝑛 𝛼+𝛽 𝛼 𝑛 𝑘 = + 𝛼 +𝛽 +𝑛𝛼 +𝛽 𝛼 +𝛽 +𝑛𝑛 合計1 事前期待値事後期待値 = 事前情報のウェイト × 事前期待値 + データのウェイト × (データの平均値) 04 事前分布・基本的なベイズ推論(1) 27

28.

確認するまでもないこと 𝑃 𝜃 𝑌 ∝ 𝑃 𝑌 𝜃 𝑃 𝜃 にいて 𝑃 𝜃 に切断正規分事前分（𝑁 𝜇, 𝜎 [0,1]）， 𝑃 𝑌 𝜃 に二項分尤度（𝐵𝑖𝑛𝑜𝑚(𝜋, 𝑛)）を置く 3.14のほう 2 𝜋 − 𝜇 𝑘 1 − 𝜋 𝑛−𝑘 × 𝐶 𝜋 exp − 𝑃 𝑘 𝜋, 𝑛 × 𝑃 𝜋 = ൞ 𝑛 𝑘 2𝜎 2 2𝜋𝜎 2 0 1 正規化定数 × exp − 2 𝜋− 事後 𝜇 2 事後 𝜎 2 0≤𝜋≤1 otherwise の形にはならない事後分事前分 𝑁 𝜇, 𝜎 が尤度によって更新されても𝑁(∗,∗)にはならない 04 事前分布・基本的なベイズ推論(1) 28

29.

自然共役事前分の組み合わせ https://avilen.co.jp/personal/knowledge-article/conjugate-prior-distribution/ (2024/04/17閲覧) 04 事前分布・基本的なベイズ推論(1) 29

https://avilen.co.jp/personal/knowledge-article/conjugate-prior-distribution/

30.

共役事前分すごいじゃないですか！ ▌ リット計算しやすい事前分布においたパラメータの意味がわかりやすい・説明しやすい計算機などなかった当時には「計算しやすい」というリットは莫大だったが，現代ではそのリットはあまり感じられない（データが超大きいときくらい？）。そのため普通に一様分をおいたり，切断分を使うことはよくある。 ▌デリット複雑な問題では存在しないことが多々ある完全にフラットな事前分布を設そもそも推できないことが多い上問題があるケースがある 04 事前分布・基本的なベイズ推論(1) 30

31.

[beta]

（補足）stanにおける事前分
▌基本的には形だけで決めたら良い
前半の例で言えば
pi ~ beta(1,1) でも pi ~ uniform(0,1) でも結果にはなんの影響もない…はず
計算時間もほぼ変わらない

▌ただし切断分

切断分布を使う場合

の使用は要注意

parameters {

形が同じなら最終的な結果も同じになるはずだが
単純に計算効率が低下してしまう

real <lower=0,upper=1> pi;
}
model {

1. normal(0, 100)に基づいて乱数生成

pi ~ normal(0， 100);

2. もし(0,1)の範囲外だったら生成した乱数を棄却

K ~ binomial(N, pi);
}

04 事前分布・基本的なベイズ推論(1)

31

32.

共役事前分がうまくいかないケース例逆ガンマ分正規分の分散ラータの共役事前分 𝜎 ∼ 𝐼𝑛𝑣𝐺𝑎𝑚𝑚𝑎(𝑟, 𝑠) ▌ 詳しいはそのうち出てきますラータの意味的には２が小さくなるほど無情報に近づくつまり一様分布に近づいていく，はず ▌しかし実際には…？ 𝑟 = 𝑠 = 0.001 𝑟=𝑠=1 𝑟 = 𝑠 = 0.01 𝑟 = 𝑠 = 0.1 𝑟 = 𝑠 = 0.1 𝑟 = 𝑠 = 0.001 𝑟 = 𝑠 = 0.01 [0, 0.05]を拡大 04 事前分布・基本的なベイズ推論(1) 𝑟=𝑠=1 32

33.

共役事前分がうまくいかないケース例逆ガンマ分正規分の分散ラータの共役事前分 𝜎 ∼ 𝐼𝑛𝑣𝐺𝑎𝑚𝑚𝑎(𝑟, 𝑠) ▌ 詳しいはそのうち出てきますラータの意味的には２が小さくなるほど無情報に近づくつまり一様分布に近づいていく，はず ▌しかし実際には…？とても小さい値に山が残ってしまう 𝑟 = 𝑠 = 0.001 「分散はとても小さい」という信念？ 𝑟 = 𝑠 = 0.01 𝑟 = 𝑠 = 0.1 推定結果に変な影響を与えてしまう (e.g., Gelman, 2006) ただし常識的な 𝜎 の値においてはほぼ完全にフラットな分布 ▶ その点においては確かに「無情報」を表している 04 事前分布・基本的なベイズ推論(1) 𝑟=𝑠=1 33

https://stat.columbia.edu/~gelman/research/published/taumain.pdf

34.

事前分に関する疑問点 1. そもそもなぜ ▶ 共役事前分ラータ𝜋の事前分にベータ分を置いたの？だから（ただしstanの中では別に一様分とかでもOK） 2. じゃあ他の場合はどんな分を置けばいいの？ケースバイケースなので，先行研究を参考にしたりしましょう。後の授業でも少しず分かってくると思います。 3. 事前分の形はどうやって決めたら怒られないの？ 04 事前分布・基本的なベイズ推論(1) 34

35.

事前分に関する疑問点 1. そもそもなぜ ▶ 共役事前分ラータ𝜋の事前分にベータ分を置いたの？だから（ただしstanの中では別に一様分とかでもOK） 2. じゃあ他の場合はどんな分を置けばいいの？ケースバイケースなので，先行研究を参考にしたりしましょう。後の授業でも少しず分かってくると思います。 3. 事前分の形はどうやって決めたら怒られないの？ 04 事前分布・基本的なベイズ推論(1) 35

36.

事前分の決め方②｜分のラータ ▌「事前分にどの程度の情報を入れるか」はベイズにとって諸刃の剣情報を入れることで推が安するようになったり精度があがったり情報を入れることで「主観的だ」と叩かれたり個人的なおすすめ基本的には情報をあまり入れないが，現実的に取りうる範囲はきちんと定める主観的だといわれたくない確率分布が正則 (proper) ではあってほしい積分したら1になる Gelmanのおすすめこちらのページを参照してください。 04 事前分布・基本的なベイズ推論(1) 36

https://github.com/stan-dev/stan/wiki/Prior-Choice-Recommendations

37.

Gelmanのおすすめ（抜粋） ▌Gelmanって誰？コロンビア大学の統計学の教授 stanを作った人 Bayesian Data Analysis (BDA) の第一著者 ▌事前分の５のレベル標準化されたスケールでの話基本的に事前分布は「どの程度の情報を含むか」がカギ • Flat prior (not usually recommended); • Super-vague but proper prior: normal(0, 1e6) (not usually recommended); • Weakly informative prior, very weak: normal(0, 10); • Generic weakly informative prior: normal(0, 1); • Specific informative prior: normal(0.4, 0.2) or whatever. 04 事前分布・基本的なベイズ推論(1) 37

https://stat.columbia.edu/~gelman/

38.

Gelmanのおすすめ（抜粋） ▌弱情報事前分の場合はどう考えてもありえない値は出ないようにもしかしたらありえる値は出てもおかしくないように ▌Fully informativeよりはWeakly informativeに事前分布の情報が減ると基本的には推精度が下がるが，それよりも広い範囲の値をカバーできる頑健性のメリットのほうが大きい ▌常に使用した事前分は明示すること When using informative priors, be explicit about every choice ▌一様分や切断分よりは弱情報事前分がよいベイズ統計では尤度と事前分の両方を分析者が決める必要があるので事前分を報告しないと「コイツ分かってないな」と思われてしまいます！値域が明確に決まる場合でないと制約がきつすぎる 04 事前分布・基本的なベイズ推論(1) 38

39.

感度分析 (sensitivity analysis) 事前分を変えてみて，結果に与える影響を判断する方法例クジを100回ひいたらちょうど20回当たりました。ただ，元々「結構当たる」との評判を聞いていたので事前分を𝐵𝑒𝑡𝑎(5,2)と設定してクジの当たり確率 𝜋 の事後分を出してみました。すると，「その結果，事前分の影響を受けてない？」と突っ込まれました。 ▌まずは普通に事後分を出してみる事後分 A 尤度 𝐵𝑒𝑡𝑎(5,2) 𝐵𝑒𝑡𝑎(25,82) 80回ハズレ，20回当たり事前分 × どんな分布？ ∝ 04 事前分布・基本的なベイズ推論(1) 39

40.

感度分析事前分を変えてみて，結果に与える影響を判断する方法例クジを100回ひいたらちょうど20回当たりました。ただ，元々「結構当たる」との評判を聞いていたので事前分を𝐵𝑒𝑡𝑎(5,2)と設定してクジの当たり確率 𝜋 の事後分を出してみました。すると，「その結果，事前分の影響を受けてない？」と突っ込まれました。 ▌よくあるやり方事前分布をできるだけ無情報に近づける A 尤度 × どんな分布？ 𝐵𝑒𝑡𝑎(21,81) 80回ハズレ，20回当たり事前分 𝐵𝑒𝑡𝑎(1,1) 事後分 Flat or Super-vague prior ∝ 04 事前分布・基本的なベイズ推論(1) 40

41.

感度分析事前分を変えてみて，結果に与える影響を判断する方法例クジを100回ひいたらちょうど20回当たりました。ただ，元々「結構当たる」との評判を聞いていたので事前分を𝐵𝑒𝑡𝑎(5,2)と設定してクジの当たり確率 𝜋 の事後分を出してみました。すると，「その結果，事前分の影響を受けてない？」と突っ込まれました。 ▌２の事前分のもとで結果を比べてみると黒：𝐵𝑒𝑡𝑎(5,2) 赤：𝐵𝑒𝑡𝑎(1,1) 当然多少のズレはあるものの概ね同じような結果になっているといえるような気がするもちろん扱っている変数の中身や要求される精度によって受け取り方は変わります 04 事前分布・基本的なベイズ推論(1) 41

42.

感度分析 ▌もし結果が大して変わらなければ事前分布の恣意性はそんなに影響が無いのだろうそう言えるくらいデータが集まっているとか自分の予想としては𝐵𝑒𝑡𝑎(5, 2)で表せるくらいの信念だったが，報告したら文句を言われたので𝐵𝑒𝑡𝑎(1, 1)でも試してみました。そしたら結果がほとんど変わらなかったので， 𝐵𝑒𝑡𝑎(5, 2)で良くない？ってことになりました。 ▌もし結果が結構ちがったらやはり事前分布に明確な由付けが必要となるだろう「なぜ無情報にしたのか？」とか「なぜ値域がそのように制限できるのか？」とか ▌感度分析の比較対象は同じ分でなくても良い「𝐵𝑒𝑡𝑎(1,1)」vs.「𝑁(0, 100, 0, 1)」とかベータ分布切断正規分布 04 事前分布・基本的なベイズ推論(1) 42

43.

２分析実践編(1) 二項分のラータ 04 事前分布・基本的なベイズ推論(1) 43

44.

いよいよここからは実際の分析をやっていきたいと思います ▌基本的には同じ分析を ① 非ベイズ的方法（最尤法や標本論的な仮説検定）◀ 時間がなさそうだったらスキップ ② 解析的なベイズ（共役事前分を利用した方法） ③ 数値計算的なベイズ（StanでMCMC）の1+2 ターンでやっていきます。 ▌その過程で stanに慣れましょうできればRにも慣れましょう 04 事前分布・基本的なベイズ推論(1) 44

45.

事例例あなたはある地域でテレビ番組の視聴率調査を任されました。ただお金がないのでその地域の家を一軒一軒回って「番組を見ているか」100件訪ねて調べることにしました。その結果13件がその番組を見ていました。このとき，番組の視聴率の点推定・区間推定をしてみましょう。まずはなにより事例の整推定に必要な情報 𝑌 調査した件数 𝑛 = 100 視聴していた件数 𝑘 = 13 𝜃 視聴率 𝜋 尤度 𝑃(𝑌|𝜃) 二項分布 𝐵𝑖𝑛𝑜𝑚(𝑘|𝜋, 𝑛) 事前分布 𝑃(𝜃) （例）ベータ分布 𝐵𝑒𝑡𝑎(1,1) データ推回の事例したいパラメータ 04 事前分布・基本的なベイズ推論(1) 「視聴率なんだから0-100%まで一様なはずがない」と思って情報を与えるのも一つの策です。【例】そもそもその時間にテレビを見てる人が40%くらいらしいので高々40%と仮して𝐵𝑒𝑡𝑎(2,9) 45

46.

非ベイズ的点推定 ▌二項分の最尤推定値は簡単に求めることができます本来の最尤法 ▌尤度関数が最大になるポイントを発見する＝対数尤度関数が最大になるポイントを発見する 𝐿 𝜋 𝑘, 𝑛 = 𝑓 𝑘 𝜋, 𝑛 = 𝑛𝐶𝑘 𝜋 𝑘 1 − 𝜋 𝑛−𝑘 04 事前分布・基本的なベイズ推論(1) 𝐿𝐿 𝜋 𝑘, 𝑛 46

47.

非ベイズ的点推定 ▌二項分の最尤推定値は簡単に求めることができます本来の最尤法 ▌尤度関数が最大になるポイントを発見する＝対数尤度関数が最大になるポイントを発見する対数尤度関数の導関数がゼロになるポイントを発見する 𝐿𝐿 𝜋 𝑘, 𝑛 𝐿𝐿 𝜋 𝑘, 𝑛 = log 𝑛𝐶𝑘 𝜋 𝑘 1 − 𝜋 𝑛−𝑘 = log 𝑛𝐶𝑘 + 𝑘 log 𝜋 + 𝑛 − 𝑘 log 1 − 𝜋 𝐿𝐿 𝜋 𝑘, 𝑛 ′ = 𝑘 𝑛−𝑘 + =0 𝜋 1−𝜋 最尤推定量 𝑥 𝜋ො = 𝑛 04 事前分布・基本的なベイズ推論(1) 0.13 47

48.

非ベイズ的区間推定（いくか方法がありますが…一の方法をご紹介します） ▌二項分二項分の正規近似を利用した方法は 𝑛 が大きいとき正規分 𝑁 𝑛𝜋, 𝑛𝜋 1 − 𝜋 で近似できる標準偏差今回の場合𝑛 = 100, 𝜋ො = 0.13 なので… 𝐵𝑖𝑛𝑜𝑚(100,0.13) 𝑁(13, 3.36) ほぼ同じ 04 事前分布・基本的なベイズ推論(1) 48

49.

非ベイズ的区間推定の手順 1 とりあえず95%区間を作る求めたい区間の上限・下限をそれぞれ𝜋𝐿 , 𝜋𝑈 とする ▶ 𝜋𝐿 , 𝜋𝑈 をどのように設定すると 𝑃 𝜋𝐿 ≤ 𝜋 ≤ 𝜋𝑈 = 0.95 となるかを求めたら良い 𝜋𝐿 , 𝜋𝑈 の値をどのように設定したら「 𝜋𝐿 から 𝜋𝑈 の間に真の視聴率 𝑝 が含まれている確率（割合）が95%になる」のかを求めたい 2 既知の確率分に従う統計量になるように変形する正規近似と中心極限定により，視聴している世帯数の標本分布は 𝑘 ∼ 𝑁 𝑛𝜋, 𝑛𝜋 1 − 𝜋 ▶ これを標準化した 𝑧 = 𝑘−𝑛𝜋 𝑛𝜋(1−𝜋) ▶𝑃 𝜋𝐿 ≤ 𝜋 ≤ 𝜋𝑈 の真ん中が 𝑃 は，標準正規分布に従う 𝑘−𝑛𝜋 𝑛𝜋(1−𝜋) 𝑋 − 𝑛𝜋𝑈 𝑛𝜋(1 − 𝜋) 𝑧= 𝑘 − 𝑛𝜋 𝑛𝜋(1 − 𝜋) で近似できる ∼ 𝑁(0,1) になるように変形させると ≤ 𝑋 − 𝑛𝜋 𝑛𝜋(1 − 𝜋) 04 事前分布・基本的なベイズ推論(1) ≤ 𝑋 − 𝑛𝜋𝐿 𝑛𝜋(1 − 𝜋) 一旦逆になりますが気にしない 49

50.

非ベイズ的区間推定の手順（づき） 3 もう一 95%区間を作る 𝑧= 𝑘−𝑛𝜋 𝑛𝜋(1−𝜋) が標準正規分布に従う，ということは ▶ 𝑃 −1.96 ≤ 𝑘−𝑛𝜋 𝑛𝜋(1−𝜋) ≤ 1.96 = 0.95 と分かる 4 2 の式を対応させると… 3 より 2 より 𝑃 𝑃 −1.96 ≤ 𝑋 − 𝑛𝜋𝑈 𝑛𝜋(1 − 𝜋) 𝑋 − 𝑛𝜋𝑈 𝑛𝜋(1 − 𝜋) ≤ = −1.96 このままだと真値𝜋がわからないと信頼区間が作れない… 𝑋 − 𝑛𝑝 𝑛𝑝(1 − 𝑝) 𝑋 − 𝑛𝜋 𝑛𝜋(1 − 𝜋) 終わりだよ… ≤ 1.96 = 0.95 ≤ 𝑋 − 𝑛𝜋𝐿 𝑛𝜋(1 − 𝜋) 𝑋 − 𝑛𝜋𝐿 𝑛𝜋(1 − 𝜋) = 0.95 = 1.96 04 事前分布・基本的なベイズ推論(1) 𝑘 − 1.96 𝑛𝜋(1 − 𝜋) 𝑛 𝑘 + 1.96 𝑛𝜋(1 − 𝜋) 𝜋𝑈 = 𝑛 𝜋𝐿 = 50

51.

非ベイズ的区間推定の手順（づき） 5 推定値で代用する 𝑘 標本比率（視聴率）の最尤推量 𝜋 ො = は一致性を持つ 𝑛 𝑛 が十分に大きければ 𝜋 のかわりに 𝜋ො を用いて区間を作ったとしても同じ95%の割合で真値 𝜋 を含む区間になるということです。 ▶ サンプルサイズが大きければ 𝜋ො は母数 𝜋 に一致する！ 𝑛𝜋(1 ො − 𝜋) ො 𝜋𝐿 = 𝜋ො − 1.96 𝑛 𝑘 − 1.96 𝑛𝜋(1 − 𝜋) 𝜋𝐿 = 𝑛 𝜋ො で置き換え 𝜋𝑈 = 𝑘 + 1.96 𝑛𝜋(1 − 𝜋) 𝑛 𝜋𝑈 = 𝜋ො + 1.96 0.13 − 1.96 𝜋ො = 0.13 𝑛 = 100 𝑃 𝜋ො − 1.96 回のデータを当てはめると 𝑛𝜋(1 ො − 𝜋) ො 𝑛 𝑛𝜋(1 ො − 𝜋) ො 𝑛𝜋(1 ො − 𝜋) ො ≤ 𝜋 ≤ 𝜋ො + 1.96 𝑛 𝑛 = 0.95 ▶ すべての標本でこの区間を作った場合 95%の割合で真値 𝜋 が含まれる 3.36 3.36 ≤ 𝑝 ≤ 0.13 + 1.96 100 100 答およそ0.064から0.196 04 事前分布・基本的なベイズ推論(1) 51

52.

ベイズ推定（まずは解析的に） ▌二項分のラータ𝜋を手計算で行うには共役事前分を利用する推定に必要な情報 𝑌 調査した件数 𝑛 = 100 視聴していた件数 𝑘 = 13 𝜃 視聴率 𝜋 尤度 𝑃(𝑌|𝜃) 二項分布 𝐵𝑖𝑛𝑜𝑚(𝑘|𝜋, 𝑛) 事前分布 𝑃(𝜃) （例）ベータ分布 𝐵𝑒𝑡𝑎(1,1) データ推回の事例したいパラメータ事後分は A 𝐵𝑒𝑡𝑎(14,88) 04 事前分布・基本的なベイズ推論(1) 52

53.

（再掲）ベータ分の更新事前分事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった 𝐵𝑒𝑡𝑎 𝛼, 𝛽 𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 成功回数𝛼 − 1，成功回数𝛼 + 𝑘 − 1，失敗回数𝛽 − 1のときの失敗回数𝛽 + (𝑛 − 𝑘) − 1のときの成功確率の分布これまでに 0件視聴しており 0件視聴していなかった 𝐵𝑒𝑡𝑎(1, 1) データ（尤度）成功確率の分布日の調査視聴13 未視聴87 04 事前分布・基本的なベイズ推論(1) これまでに 0+13件視聴しており 0+87件は未視聴 𝐵𝑒𝑡𝑎(14, 88) 53

54.

点推定はどうする？ ▌これがラータの分だとすると，この分の代表値を使えば良さそう代表値と言えば… ① 平均値（期待値）事後期待値（EAP） ② 中央値事後中央値（MED） ③ 最頻値事後確率最大推値（MAP） 04 事前分布・基本的なベイズ推論(1) 54

55.

点推定値①平均値 ① 平均値（期待値）事後期待値（EAP: Expected A Posteriori） ▌ 期待値なので正確には න 𝜃𝑃 𝜃 𝑌 𝑑𝜃 Θ Rの組み込み関数でやる場合 integrate(function(pi){dbeta(pi,14,88)*pi},lower=0,upper=1) すべてのありえる𝜃について事後確率𝑃 𝜃 𝑌 による重み付け平均を取る ▌ もうちょっと簡単には 0.137 1. 右の分布から乱数を作りまくる 2. 平均をとる mean(rbeta(100000,14,88)) stanも乱数を大量に作る方法なので，このやり方でEAPが計算できます（後ほど紹介） 04 事前分布・基本的なベイズ推論(1) 55

56.

点推定値②中央値 ② 中央値事後中央値（MED: median） ▌ 中央値なので正確には qbeta(0.5,14,88) ▌ もうちょっと簡単に事後分が解析的にわからない場合 0.135 1. 右の分布から乱数を作りまくる 2. 中央値をとる median(rbeta(100000,14,88)) stanも乱数を大量に作る方法なので，このやり方でMEDも計算できます（後ほど紹介） 04 事前分布・基本的なベイズ推論(1) 56

57.

点推定値③最頻値 ③ 最頻値事後確率最大推定値（MAP: Maximum A Posteriori） 0.13 まりこれは最尤法だ！ • 事前分が一様で • 点推定値がMAP推定値のときベイズ推定の結果は最尤法と完全に一致 Rの組み込み関数でやる場合 optimize(¥(x) dbeta(x,14,88), interval = c(0,1), maximum = TRUE) ▌ もうちょっと簡単に？先程までと同じように乱数の最頻値を取ってもだめ（連続変数の場合） 04 事前分布・基本的なベイズ推論(1) 57

58.

点推定はどうする？ ▌これがラータの分だとすると，この分の代表値を使えば良さそう代表値と言えば… 𝜋 =0.1から0.15までを拡大してみると 0.13 0.135 0.137 ① 平均値（期待値）事後期待値（EAP）=0.137 ② 中央値事後中央値（MED）=0.135 ③ 最頻値事後確率最大推値（MAP）=0.13 結局どれがいいの？ 04 事前分布・基本的なベイズ推論(1) 58

59.

点推定値の選び方基本的には，記述統計量としての代表値の選択と同じです（ケースバイケース） ▌完全に左右対称の分なら全部同じになる ▌こんなのだったらどうする？ MAPなら最尤法と同じ感じでわかりやすい？ EAPは分布の情報をきちんと使ってるただしEAPは外れ値に大きく引っ張られるので注意よく使われる気がする MEDは外れ値に対して頑健（ベイズ的な推値） ▶パラメータを確率分布として考えるという意味で 04 事前分布・基本的なベイズ推論(1) 59

60.

ベイズ的区間推定 ▌事後分において，頻度主義的な信頼区間と同じように「範囲」を考えると？ ① 左右の端を切る事後分 Equal-tailed interval 𝐵𝑒𝑡𝑎(14,88) ② 上から数えていく Highest posterior density interval ▌ベイズ統計における区間確信区間または信用区間と呼ばれます credible interval ベイズ統計では「信念」を考えていると言えるのでラータの設定に対して「強い信念＝確信がある」的なニュアンスで「確信区間」と呼んでいる…のかも？ 04 事前分布・基本的なベイズ推論(1) 60

61.

ベイズ的区間推定①左右の端を切る ① 左右の端を切る等裾事後確信区間 (ETI: Equal-tailed interval) 非ベイズ的信頼区間と同じように左右の端を2.5%ずつ切り取ると95% 事後分右の場合の95%確信区間は 0.078 qbeta(0.025,14,88) から 0.210 𝐵𝑒𝑡𝑎(14,88) の間 qbeta(0.975,14,88) 04 事前分布・基本的なベイズ推論(1) 61

62.

ベイズ的区間推定②上から数えていく ② 上から数えていく最大事後密度確信区間 (HDI: Highest posterior density interval) ▌ 事後分を「各値のありえそう度（信念）の強さの集合」として見ると ▶ 事後密度が高いところは「最もありえそうな気がする設定」といえる ▼ 最もありえそうな一点（＝MAP） 04 事前分布・基本的なベイズ推論(1) ▼ ありえそうランキング上位50% 62

63.

ベイズ的区間推定②上から数えていく ② 上から数えていく最大事後密度確信区間 (HDI: Highest posterior density interval) ▌ 同じ調子で「最もありえそうな上位95%」を集めていけば… ▼ ありえそうランキング上位95% 右の場合の95%HDIはだいたい 0.073 から 0.204 の間 04 事前分布・基本的なベイズ推論(1) 63

64.

区間推定値の選び方 ▌左右対称の分なら結局同じ ▌ETI(等裾信用区間)のほうが計算はラク乱数の場合でも分位点（2.5, 97.5%点）を計算するのは簡単 ▌こんなのだったらどうする？このあたり山が複数ある実際に事後分布がこの様になった場合推がうまく行っていない可能性もありますが複雑なモデルではありえないことも無いのですのあたりが含まれるのおかしくない？ ▌左右の端を切った場合 HPDが良いのかもしれないおすすめされるが計算が大変なので，単峰の場合はとりあえず両端を切ってもまあ大丈夫 04 事前分布・基本的なベイズ推論(1) 64

65.

区間推定値の選び方 ▌左右対称の分なら結局同じ ▌ETI(等裾信用区間)のほうが計算はラク乱数の場合でも分位点（2.5, 97.5%点）を計算するのは簡単ゼロ付近を拡大したもの ▌こんなのだったらどうする？頂点が無い【例】二項分布に従う試行について「n回挑戦して一回も成功しなかったデータ」（負の二項分布や指数分布） ▌最頻値（この場合ゼロ）が含まれないのおかしくない？ HPDが良いのかもしれないおすすめされるが計算が大変，あるいはこのような場合は右だけで5%切るのもあり，かも 04 事前分布・基本的なベイズ推論(1) 65

66.

[beta]

最後はstanで同じ結果を出してみる
推定に必要な情報

model_binom.stan
data {

回の事例
𝑌

調査した件数

𝑛 = 100

視聴していた件数

𝑘 = 13

𝜃

視聴率

𝜋

尤度

𝑃(𝑌|𝜃)

二項分布

𝐵𝑖𝑛𝑜𝑚(𝑘|𝜋, 𝑛)

事前分布

𝑃(𝜃)

（例）ベータ分布

𝐵𝑒𝑡𝑎(1,1)

データ

int N;
int K;
}
parameters {

推

したいパラメータ

real <lower=0,upper=1> pi;
}
model {

}

library(cmdstanr)

pi ~ beta(1,1);

model <- cmdstan_model(“model_binom.stan”)

K ~ binomial(N, pi);

stan_data <-

A

list(N=100, K=13)

result <- model$sample(data = stan_data)

04 事前分布・基本的なベイズ推論(1)

66

67.

結果から点推定値を出す Rユーザーはこういうときsummary()を使いたくなりますが， cmdstanrではこのようにオブジェクトの中にメソッドがある，という表し方をします result$summary() 対数尤度点推定はどうする？左からこれがラータの分だとすると，この分の代表値を使えば良さそう 90%確信区間事後平均値(EAP)，事後中央値（MED），事後分のSD 代表値と言えば (Equal-tailed interval) p. 58 とりあえず EAPとMEDは先程の結果と完全に一致 = 平均値（期待値）事後期待値（からまでを拡大してみると）中央値事後中央値（）最頻値事後確率最大推値（）結局どれがいいの？ 04 事前分布・基本的なベイズ推論(1) 67

68.

その他の推定値の出し方 ▌MAP ▶ cmdstanの中に最適化計算（＝最尤推定）がある MAP <- model$optimize(data = stan_data) MAP$summary() ▌95%（ETI / HDI） ▶ 別の（準備）ッケージを使うのが良さそうです install.packages(“tidybayes”) library(tidybayes) （実行） result$draws(format = “df”) |> # 乱数を全部取り出す（出力形式を指定して） spread_draws(pi) |> # 下の関数が使いやすいように整形 mode_hdi() # その名の通り最頻値(MAP)とHDIを計算 04 事前分布・基本的なベイズ推論(1) 68

69.

点推定と区間推定 ▌95%（ETI / HDI） ▶ tidybayes （実行）ッケージを使う result$draws(format = “df”) |> # 乱数を全部取り出す（出力形式を指定して） spread_draws(pi) |> # 下の関数が使いやすいように整形 mode_hdi() # その名の通り最頻値(MAP)とHDIを計算他の点推定・区間推定も xxx_yyy()の名前で実行可能点推定値 mode (MAP) 関数名設定意味 xxx mean 事後平均 (EAP) median 事後中央値 (MED) mode 事後最頻値 (MAP) qi 等裾信用区間 (ETI) hdi 最高事後密度区間 (HDI) 区間推定値 (HDI) ▲ 前ページと僅かにずれているのですがよくわかりません… yyy （例）mean_qi(), median_hdi() 04 事前分布・基本的なベイズ推論(1) 69

70.

一応事後分も書いてみる ▌tidybayes （実行）ッケージの関数を使って書いてみると library(ggplot2) result$draws(format = "df") |> spread_draws(pi) |> ggplot(aes(x=pi)) + stat_halfeye(point_interval = "mode_hdi") 点推定値と95%区間 04 事前分布・基本的なベイズ推論(1) 70

71.

まとめと次回予告まとめ ▌事前分の決め方がなんとなく分かりました基本的には結構弱めの情報を入れておくくらいがよいどういう設にせよ，その根拠を明確にする必要がある ▌二項分のラータ推定を最尤法＆ベイズで実行しました共役事前分布がある場合には解析的に事後分布を求めることができる事前分布が一様分布のとき，最尤推値はMAPと一致する点推・区間推のいくつかの方法もstanの結果からできる次回予告共役事前分布がある＝解析的にも解ける引き続き，いくつかの基本的な問題例を見ていきます。 04 事前分布・基本的なベイズ推論(1) 71

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

Kyosuke Bunji

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

ベイズ統計_02_確率の基本とベイズの定理

ベイズ統計_01_イントロダクション

ベイズ統計_03_尤度

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

ベイズ統計_05_基本的なベイズ推論(2)

各ページのテキスト