ベイズ統計_12_ベイズ階層モデリング2

11.1K Views

July 09, 24

#ベイズ統計 #ベイズ階層モデリング #Stan #回帰分析 #データ分析

スライド概要

神戸大学大学院経営学研究科で2024年度より開講している「ベイズ統計」の講義資料「12_ベイズ階層モデリング(2)」です。引き続きマルチレベル線形回帰分析について，階層事前分布を使うことのメリットについて少し解説した後で，モデルを拡張する方向性の1つとして「レベル2の説明変数」「回帰係数間の相関構造」をstanで扱うためのモデルの書き方を解説しています。
【変更履歴】
・2025/08/04：正規分布の表記をN(平均, 分散)に統一

Kyosuke Bunji

@BunjiRo

スライド一覧

神戸大学経営学研究科准教授　分寺杏介（ぶんじ・きょうすけ）です。主に心理学的な測定・教育測定に関する研究を行っています。講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は，炎上させずにこっそりお伝えいただけると幸いです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

Kyosuke Bunji 69.6K

ベイズ統計_02_確率の基本とベイズの定理

Kyosuke Bunji 56.4K

ベイズ統計_01_イントロダクション

Kyosuke Bunji 49.6K

ベイズ統計_03_尤度

Kyosuke Bunji 47.7K

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

Kyosuke Bunji 46.1K

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

Kyosuke Bunji 44.5K

各ページのテキスト

ベイズ統計 12 ベイズ階層モデリング(2) 分寺杏介神戸大学大学院経営学研究科  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

（前回のおさらい）データの階層性 ▌大抵のデータに対して，階層性を考えることもできるし無視できることもあるコンビニ店舗地域企業従業員課部本部学校生徒学級学校地域企業 ▌基本的には入れ子（ネスト）の関係にあると考える【コンビニの場合】地域A 地域B … 店舗1 店舗2 … 店舗10 店舗11 店舗12 … 店舗20 12 ベイズ階層モデリング(2) 上位カテゴリが複数（e.g., 部署と支社）ある場合や１つの個体が複数の上位カテゴリに所属する（e.g., SNSのグループ）場合はまた別のモデルが必要になりますがこの講義では最もシンプルなのような形式のみを考えていきます 2

（前回のおさらい）階層性に注意して分析しよう ▌個体の効果と集団の効果が区別できなくなってしまうため例勉強時間が長い学生ほど模試の成績が高いのかを調べることにしました。以下の図は，勉強時間と模試の得点の散布図です。ちなみにこのデータは，地元の３つの高校から得られたものです。グループごとに見てみると模試の得点勉強時間が長いほど成績が向上することが示される高校学力勉強時間 A 屈指の進学校短め B 普通の公立ふつう C … 長めやっぱ勉強したほうがいいんじゃねーか勉強時間グループ間のベースラインの違いのせいで全体では結果が違って見えてしまった 12 ベイズ階層モデリング(2) シンプソンのパラドックス 3

（前回のおさらい）はじめにやったこと ▌グループごとに異なる回帰係数を推定する 1 地域店舗 1 2 2 … 10 11 12 EAP 10 … 20 EAP 𝛽0 1.3117 𝛽0 1.7616 𝛽DIST -0.1917 𝛽DIST 𝛽FLOOR 0.0554 𝛽ITEMS -0.0011 … 91 92 … 100 EAP 𝛽0 0.7723 -0.1646 𝛽DIST -0.2158 𝛽FLOOR 0.0550 𝛽FLOOR 0.0586 𝛽ITEMS -0.0013 𝛽ITEMS -0.0012 ただ「10店舗による回帰分析」を10回繰り返しただけ 12 ベイズ階層モデリング(2) 4

（前回のおさらい）ベイズ階層モデリング ▌本当にやりたいこと 1 地域店舗 1 2 2 … 10 11 12 EAP 10 … 20 EAP 𝛽0 1.3117 𝛽0 1.7616 𝛽DIST -0.1917 𝛽DIST 𝛽FLOOR 0.0554 𝛽ITEMS -0.0011 例えば … 91 92 … 100 EAP 𝛽0 0.7723 -0.1646 𝛽DIST -0.2158 𝛽FLOOR 0.0550 𝛽FLOOR 0.0586 𝛽ITEMS -0.0013 𝛽ITEMS -0.0012 地域1の回帰係数の推定に地域1以外から得られる情報を組み込めたら最高 12 ベイズ階層モデリング(2) もちろん他の地域でも同じ 5

（前回のおさらい）いざやってみると ▌事後予測チェック（データの密度）を比較してみるとグループごとに独立に推定した場合階層ベイズモデルにした場合 ppc_dens_overlay(dat$sales, SALES_pred_H1) ppc_dens_overlay(dat$sales, SALES_pred_H2) 階層事前分布を導入したところで明確に良くなった，という感じには見えない…？ 12 ベイズ階層モデリング(2) 6

１階層ベイズモデルの利点 12 ベイズ階層モデリング(2) 7

なぜあまり差が出なかったのか？ ▌10店舗あれば，ある程度の推定はできてしまうため 1 地域店舗 1 2 … 10 beta_DIST[1]の事後分布 cf. 階層ベイズモデルの場合 EAP 𝛽0 1.3117 𝛽DIST -0.1917 𝛽FLOOR 0.0554 𝛽ITEMS -0.0011 多少のズレはあれど，事後分布の幅はさほど変わらないと言えるくらいにはデータも情報を持っている，ということです 12 ベイズ階層モデリング(2) 8

利点①｜推定の安定性 ▌SALES_predの事後分布のSD 階層ベイズモデル SALES_predに限らず，階層性をもつパラメータはいずれも同じような傾向が見られます 𝑦=𝑥 階層事前分布を通して情報が与えられるパラメータの事後分布はよりシャープな形になることが多いただし真値に近づけるか（＝精度が向上するか）は場合によります。（例：あるグループが他のグループとは特異的なパラメータを持つ場合，むしろずれてしまう可能性もある）階層ベイズモデルではない 12 ベイズ階層モデリング(2) 9

10.

利点①｜推定の安定性（別の例）あるいは単純に10店舗もない地域，とか地域３の担当者がサボったため，ここだけ10店舗ではなく 3店舗しかデータが得られませんでした。試しにsalesとdistの散布図を見てみると… 問題を簡単にするためこれ以降は説明変数をdistのみとした単回帰分析モデルを考えます ▲単回帰直線この地域では，駅から遠いほど売上が伸びるようです 12 ベイズ階層モデリング(2) 10

11.

利点①｜推定の安定性（別の例）あるいは単純に10店舗もない地域，とか地域３の担当者がサボったため，ここだけ10店舗ではなく 3店舗しかデータが得られませんでした。実際に階層ベイズではないモデルで回帰分析をすると… 問題を簡単にするためこれ以降は説明変数をdistのみとした単回帰分析モデルを考えます３店舗のみ 10店舗全て beta_DISTのEAP beta_DISTのEAP 0.776 -0.199 点線が真値かどうかはまた別の話ですデータがとても少ない場合回帰係数は大きく歪んでしまうことがある！ 12 ベイズ階層モデリング(2) 11

12.

利点①｜推定の安定性（別の例）あるいは単純に10店舗もない地域，とか地域３の担当者がサボったため，ここだけ10店舗ではなく 3店舗しかデータが得られませんでした。階層ベイズモデルで回帰分析をすると… 問題を簡単にするためこれ以降は説明変数をdistのみとした単回帰分析モデルを考えます 3店舗のみ｜not階層 beta_DISTのEAP 0.776 10店舗全て beta_DISTのEAP -0.199 beta_DISTのEAP -0.093 3店舗のみ｜階層階層ベイズモデルならばデータが少ない場合でもある程度安定する別の見方をすると「過学習の抑制」 12 ベイズ階層モデリング(2) 12

13.

[beta]

単回帰分析のnot 階層ベイズモデルのstanコード
▌distと切片のみの単回帰分析モデル
model_grouped_dist.stan
data {
int N;
int G;
array[N] real SALES;
vector[N] DIST;
array[N] int REGION;
}
parameters {
vector[G] beta_0;
vector[G] beta_DIST;
real <lower=0> sigma;
}

transformed parameters {
vector[N] yhat;
for(i in 1:N){
yhat[i] = beta_0[REGION[i]] + beta_DIST[REGION[i]]*DIST[i];
}
}
model {
beta_0 ~ normal(0, 100);
beta_DIST ~ normal(0, 100);
sigma ~ cauchy(0, 10);
}

SALES ~ normal(yhat, sigma);

generated quantities {
array[N] real SALES_pred;
SALES_pred = normal_rng(yhat, sigma);
}

ブリッジサンプリングをしたい場合などは
target記法で書きましょう

12 ベイズ階層モデリング(2)

13

14.

[beta]

単回帰分析の階層ベイズモデルのstanコード
▌distと切片のみの単回帰分析モデル
model_multilevel_dist.stan
data {
int N;
int G;
array[N] real SALES;
vector[N] DIST;
array[N] int REGION;
}
parameters {
vector[G] beta_0;
vector[G] beta_DIST;
real <lower=0> sigma;

transformed parameters {
vector[N] yhat;
for(i in 1:N){
yhat[i] = beta_0[REGION[i]] + beta_DIST[REGION[i]]*DIST[i];
}
}
model {
beta_0 ~ normal(mu_beta_0, sigma_beta_0);
beta_DIST ~ normal(mu_beta_DIST, sigma_beta_DIST);
sigma ~ cauchy(0, 10);
mu_beta_0 ~ normal(0, 100);
mu_beta_DIST ~ normal(0, 100);
sigma_beta_0 ~ cauchy(0, 10);
sigma_beta_DIST ~ cauchy(0, 10);

real mu_beta_0;
real mu_beta_DIST;
real <lower=0> sigma_beta_0;
real <lower=0> sigma_beta_DIST;

}

SALES ~ normal(yhat, sigma);
}
generated quantities {
array[N] real SALES_pred;
SALES_pred = normal_rng(yhat, sigma);
}

12 ベイズ階層モデリング(2)

ブリッジサンプリングをしたい場合などは
target記法で書きましょう

14

15.

ベイズ階層モデルのちから ▌２つのモデルで得られるbeta_DIST[3]の事後分布【階層モデルのないとき】 EAP 0.776 【階層モデルのあるとき】 EAP -0.093 3店舗のデータから推定するしかないので他の地域での傾きを考慮すると回帰係数は正のほうに寄ってしまうこの地域も大体同じようなものだろう（そして情報が少ないのであまり自信はない）（データとはあまり合わないがやむなし） 12 ベイズ階層モデリング(2) 15

16.

メリット②｜新しいデータの予測「未開の地」だったあの地域に進出することにしたぞい駅からの距離は近いほうが良いかね？（実は駅から2kmのいい土地が買えそうなんだよ）ルチレベルモデルの定式（考）グループで差がない【階層モデルを知らない人】の回帰分析 = 地域によるから，まだわからないですねェグループごとに切片が異なる（ラン（レベル）切片モデル） = 資料11 p. = 8 = （レベル）グループごとに傾きも異なる（ラン（レベル）切片・傾きモデル） = = （レベル） = = ▲ ここが全体的な傾向ベイズ階層モデリング【階層モデルを知っている人】この地域の情報は何もないですが，他の地域の全体的な傾向から ◯◯だと言えそうです（駅から2kmだと売上の予測は▲▲です） 12 ベイズ階層モデリング(2) 16

17.

予測してみよう ▌未知の地域𝑁𝐸𝑊に所属する店舗の回帰モデルの式は 𝑦𝑁𝐸𝑊 𝑖 = 𝛽0 𝑁𝐸𝑊 𝛽DIST 𝑁𝐸𝑊 DIST𝑁𝐸𝑊 𝑖 𝜀𝑁𝐸𝑊 𝑖 𝛽0 𝑁𝐸𝑊 = 𝜇𝛽0 𝑢0 𝑁𝐸𝑊 𝑢0 𝑁𝐸𝑊 ∼ 𝑁 𝜎𝛽20 𝛽DIST 𝑁𝐸𝑊 = 𝜇𝛽DIST 𝑢DIST 𝑁𝐸𝑊 𝑢DIST 𝑁𝐸𝑊 ∼ 𝑁 𝜎𝛽2DIST 𝛽0 𝑁𝐸𝑊 ∼ 𝑁 𝜇𝛽0 𝜎𝛽20 𝛽DIST 𝑁𝐸𝑊 ∼ 𝑁 𝜇𝛽DIST 𝜎𝛽2DIST ▌（データのない）未知の地域𝑁𝐸𝑊の回帰係数の事前分布は beta_0_new ~ normal(mu_beta_0, sigma_beta_0); beta_DIST_new ~ normal(mu_beta_DIST, sigma_beta_DIST); ベイズの定理的には，データがない場合事後分布＝事前分布となる ▌これをもとにgenerated quantitiesブロックで回帰係数を予測する 12 ベイズ階層モデリング(2) 17

18.

[beta]

未知の地域の係数を予測するstanコード
▌distと切片のみの単回帰分析モデル

p. 14のモデルをベースにした修正

model_multilevel_dist_pred.stan
data {
int N;
int G;
array[N] real SALES;
vector[N] DIST;
array[N] int REGION;
}

transformed parameters {
vector[N] yhat;
for(i in 1:N){
yhat[i] = beta_0[REGION[i]] + beta_DIST[REGION[i]]*DIST[i];
}
}
model {
beta_0 ~ normal(mu_beta_0, sigma_beta_0);
beta_DIST ~ normal(mu_beta_DIST, sigma_beta_DIST);
sigma ~ cauchy(0, 10);

parameters {
vector[G] beta_0;
vector[G] beta_DIST;
real <lower=0> sigma;
real mu_beta_0;
real mu_beta_DIST;
real <lower=0> sigma_beta_0;
real <lower=0> sigma_beta_DIST;

mu_beta_0 ~ normal(0, 100);
mu_beta_DIST ~ normal(0, 100);
sigma_beta_0 ~ cauchy(0, 10);
sigma_beta_DIST ~ cauchy(0, 10);
}

SALES ~ normal(yhat, sigma);

generated quantities {
array[N] real SALES_pred;
SALES_pred = normal_rng(yhat, sigma);

}

real beta_0_new;
real beta_DIST_new;
beta_0_new = normal_rng(mu_beta_0, sigma_beta_0);
beta_DIST_new = normal_rng(mu_beta_DIST, sigma_beta_DIST);

}

real SALES_pred_new;
SALES_pred_new = normal_rng(beta_0_new + beta_DIST_new*2, sigma);

「駅から2km」の店舗の予測
12 ベイズ階層モデリング(2)

18

19.

新しい地域の回帰直線の予測 𝛽0 𝑁𝐸𝑊 の事後分布各iterationから回帰直線を作成して薄ーく重ねまくったプロット 𝛽DIST 𝑁𝐸𝑊 の事後分布どうやら負の影響である可能性が高いですただ，距離は僅かな影響しかないでしょう 12 ベイズ階層モデリング(2) 19

20.

新しい地域の新しい店舗のSALESの予測各iterationから回帰直線を作成して薄ーく重ねまくったプロット SALESの事後予測分布駅から2kmに店舗を作った場合のSALESはだいたいこれくらいになります 12 ベイズ階層モデリング(2) 20

21.

２階層ベイズモデルの拡張あとは皆さんの想像力次第 12 ベイズ階層モデリング(2) 21

22.

拡張①｜レベル2に説明変数をいれる ▌回帰係数の差異の理由を推測したい DISTがSALESに強く影響するのはどんな地域？【仮説のロジック事実とは異なります】 • DISTがSALESに影響するのは電車メインの都会 • だとすると，面積が小さい・人口の多い地域ほど DISTの影響は大きくなるのでは？もしその理由が多少なりともわかれば p. 17 未開の地域の予測この地域は面積が◯◯であるため DISTの回帰係数はだいたい■■くらいになりそうです予測の精度を上げることができる！ 12 ベイズ階層モデリング(2) 22

23.

新しいデータを使って予測してみよう ▌データの読み込み "data_region.csv"をワーキングディレクトリに配置して dat_region <- read.csv("data_region.csv") この名前はなんでもOK region: 地域 population: その地域の人口 area: その地域の面積 ※データは適当に作ったので，実際とは異なります。 12 ベイズ階層モデリング(2) 23

24.

回帰係数と地域の変数の関係を見てみる ▌とりあえずp. 14のモデルで推定した回帰係数について library(cmdstanr) model <- cmdstan_model("model_multilevel_dist.stan") stan_data <- list(N=100, G=10, SALES=dat$sales, DIST=dat$dist, REGION=dat$region) result <- model$sample(data=stan_data) beta_DIST_EAP <- result$summary("beta_DIST")$mean plot(dat_region$area, beta_DIST_EAP) のどうやら広い地域ほど𝛽DIST の影響は弱まりそうこの関係をモデルに加えてより精緻な推定を目指そう！地域の面積地域4の外れ値感に引っ張られているような気もしますがそのあたりの判断はお任せします 12 ベイズ階層モデリング(2) 24

25.

回帰式はどうなる？ ▌もとの階層線形モデルの式レベル1 レベル２ 𝑦𝑔𝑖 = 𝛽0𝑔 𝛽DIST 𝑔 DIST𝑔𝑖 𝛽0𝑔 = 𝜇𝛽0 𝑢0𝑔 𝛽DIST 𝑔 = 𝜇𝛽DIST 𝑢DIST 𝑔 𝜀𝑔𝑖 【plate notation】 𝜎𝛽20 𝑢0𝑔 ∼ 𝑁 𝑢DIST 𝑔 ∼ 𝑁 𝜎𝛽2DIST 𝛽AREA 𝜇𝛽DIST AREA𝑔 𝛽DIST 𝑔 𝛽DIST 𝑔 ∼ 𝑁 𝜇𝛽DIST 𝜎𝛽2DIST ▌レベル2に説明変数を追加すると 𝛽DIST 𝑔 = 𝜇𝛽DIST 𝛽AREA AREA𝑔 𝑢DIST𝑔 ∼ 𝑁 𝜎𝛽2DIST 𝛽DIST 𝑔 ∼ 𝑁 𝜇𝛽DIST 𝑢DIST 𝑔 12 ベイズ階層モデリング(2) 𝜇𝛽0 𝛽0𝑔 DIST𝑔𝑖 𝛽AREA AREA𝑔 𝜎𝛽2DIST 𝜎𝛽DIST SALES𝑔𝑖 𝜎𝛽0 𝑖 data 𝑔 group (REGION) 𝜎𝑒 25

26.

stanコードを拡張してみましょう ▌再びp. 14のモデルをベースにして拡張してみます ※次ページにコード例が載っているので，考えたい人は一旦ストップです【ヒント】 • 前ページのplate notation的には，追加の登場人物は 𝛽𝐴𝑅𝐸𝐴 （パラメータ） 𝐴𝑅𝐸𝐴 （データ）の２つのみ • モデル式的には𝛽DIST 𝑔 ∼ 𝑁 𝜇𝛽DIST 𝜎𝛽2DIST が 𝛽DIST 𝑔 ∼ 𝑁 𝜇𝛽DIST 𝛽AREA AREA𝑔 𝜎𝛽2DIST に変わっただけ（モデルの式がきちんと理解できていればコードの修正は割と簡単です） 12 ベイズ階層モデリング(2) 26

27.

[beta]

レベル2に説明変数を追加したstanコード
▌distと切片のみの単回帰分析モデル

p. 14のモデルをベースにした修正

model_multilevel_dist_area.stan
data {
int N;
int G;
array[N] real SALES;
vector[N] DIST;
array[N] int REGION;
vector[G] AREA;
// modelブロックでforループを使うなら
// array[G] real AREA;
// ↑でも大丈夫
}
parameters {
vector[G] beta_0;
vector[G] beta_DIST;
real <lower=0> sigma;
real beta_AREA;
real mu_beta_0;
real mu_beta_DIST;
real <lower=0> sigma_beta_0;
real <lower=0> sigma_beta_DIST;
}

transformed parameters {
vector[N] yhat;
for(i in 1:N){
yhat[i] = beta_0[REGION[i]] + beta_DIST[REGION[i]]*DIST[i];
}
}
model {
beta_0 ~ normal(mu_beta_0, sigma_beta_0);
beta_DIST ~ normal(mu_beta_DIST + beta_AREA*AREA, sigma_beta_DIST);
// forループで書くと
// for(g in 1:G){
//
beta_DIST[g] ~ normal(mu_beta_DIST + beta_AREA*AREA[g], sigma_beta_DIST);
// }
sigma ~ cauchy(0, 10);
mu_beta_0 ~ normal(0, 100);
mu_beta_DIST ~ normal(0, 100);
beta_AREA ~ normal(0, 100);
sigma_beta_0 ~ cauchy(0, 10);
sigma_beta_DIST ~ cauchy(0, 10);
}

SALES ~ normal(yhat, sigma);

generated quantities {
array[N] real SALES_pred;
SALES_pred = normal_rng(yhat, sigma);
}

12 ベイズ階層モデリング(2)

27

28.

推定＆結果を見てみる model_area <- cmdstan_model("model_multilevel_dist_area.stan") stan_data <- list(N=100, G=10, SALES=dat$sales, DIST=dat$dist, REGION=dat$region, AREA=dat$area) result_area <- model_area$sample(data=stan_data) result_area$summary("beta_AREA") mcmc_dens(result_area$draws("beta_AREA")) 結構複雑なモデルなので実は推定はシビアであまりきれいにサンプリングできているとは言えない（とりあえず今は無視して進めます。）（余裕がある人は，どうやったらうまくサンプリングできるか考えてみてください。）広い地域ほど距離の影響は弱まりそうです（車社会だから？） 12 ベイズ階層モデリング(2) 28

29.

AREAを追加した影響はほかにも【AREAなしモデルでの結果】 ▌beta_DISTの事後分布を比べてみる次ページと行き来して比較してみてください 12 ベイズ階層モデリング(2) 29

30.

AREAを追加した影響はほかにも【AREAありモデルでの結果】 ▌beta_DISTの事後分布を比べてみる前ページと行き来して比較してみてください AREAなしモデルのほうが mu_beta_DISTのほう（EAP）へ寄っている AREAありモデルのほうは𝛽AREA AREA𝑔 の項が追加されたことで𝜇𝛽DIST へのshrinkが抑制された？ただそれが真値に近づいているかは別の話もちろん「適切な説明変数を入れたら」の話です 12 ベイズ階層モデリング(2) 30

31.

AREAを追加した影響はほかにも ▌SALES_predの事後予測分布のSDを比べてみる 𝑦=𝑥 あり AREAありモデルのほうが beta_DISTの推定に関する情報が増えた推定がより精緻になったと言えるその結果，事後予測分布についても AREAありモデルのほうが事後SDは小さい傾向が見られるもちろん「適切な説明変数を入れたら」の話ですなし 12 ベイズ階層モデリング(2) 31

32.

拡張②｜回帰係数間の相関関係を考える ▌説明変数の影響や切片との間には関係があることも【例】コンビニの売上について FLOORの影響が大きい地域のほうが DISTの影響も大きい，とかないかね？ Cor 𝛽FLOOR 𝛽DIST 【例】勉強時間と模試の成績について基礎学力が高い学校ほど勉強時間あたりの成績の上昇が大きい，とかは？ Cor 𝛽0 𝛽1 もし回帰係数の間に相関があれば，これも情報として利用できる！ • 推定や予測の精度があがる例えばFLOORとDISTの影響はいずれも • 背後に共の原因があるかも，と話がふくらむその地域の都会度によって変わっているかも 12 ベイズ階層モデリング(2) 32

33.

回帰係数間の相関をモデルに加える ▌distのみのルチレベルモデル（p. 14のコード）レベル1 𝑦𝑔𝑖 = 𝛽0𝑔 𝛽DIST 𝑔 DIST𝑔𝑖 レベル 𝛽0𝑔 = 𝜇𝛽0 𝑢0𝑔 ２ 𝛽DIST 𝑔 = 𝜇𝛽DIST 𝑢DIST 𝑔 𝜀𝑔𝑖 𝛽0𝑔 ∼ 𝑁 𝜇𝛽0 𝜎𝛽20 𝜎𝛽20 𝑢0𝑔 ∼ 𝑁 𝑢DIST 𝑔 ∼ 𝑁 𝜎𝛽2DIST 𝛽DIST 𝑔 ∼ 𝑁 𝜇𝛽DIST 𝜎𝛽2DIST 2つの係数は独立に正規分布に従うと仮定していた ▌2つの係数に相関関係を許容するとレベル1 𝑦𝑔𝑖 = 𝛽0𝑔 𝛽DIST 𝑔 DIST𝑔𝑖 レベル 𝛽0𝑔 = 𝜇𝛽0 𝑢0𝑔 ２ 𝛽DIST 𝑔 = 𝜇𝛽DIST 𝑢DIST 𝑔 𝐮𝑔 = 𝑢 𝑢0𝑔 DIST 𝑔 ∼𝑁 𝜷𝑔 = 𝜎𝛽20 係数の共分散を Cov で表すことにします Cov Cov 𝜎𝛽2DIST 𝛽0𝑔 𝛽DIST 𝑔 ∼𝑁 𝜇𝛽0 𝜇𝛽DIST 𝜎𝛽20 Cov Cov 𝜎𝛽2DIST 2つの係数が多変量正規分布に従うと仮定したらよい！ 12 ベイズ階層モデリング(2) 33

34.

stanで多変量正規分布を扱う場合 ▌相関のあるパラメータを1つのベクトルとして用意する // parametersブロック vector[G] beta_0; vector[G] beta_DIST; // parametersブロック array[G] vector[2] beta; beta array beta[g] vector beta[g][1]=𝛽0𝑔 beta[g][2]=𝛽DIST 𝑔 ▌平均・共分散行列もそれぞれ1つにまとめて用意すると良い // parametersブロック real mu_beta_0; real mu_beta_DIST; real <lower=0> sigma_beta_0; real <lower=0> sigma_beta_DIST; // parametersブロック vector[2] mu_beta; cov_matrix[2] Sigma_beta; 12 ベイズ階層モデリング(2) cov_matrix型で指定すると共分散行列の性質を満たさないサンプリングが行われなくなる（ので，<lower=0>などは不要） 34

35.

stanで多変量正規分布を扱う場合（続き） ▌modelブロックもそれに合わせて【事前分布】 mu_beta_0 ~ normal(0, 100); mu_beta_DIST ~ normal(0, 100); sigma_beta_0 ~ cauchy(0, 10); sigma_beta_DIST ~ cauchy(0, 10); mu_beta ~ normal(0, 100); Sigma_beta ~ inv_wishart(3, diag_matrix(rep_vector(1,2))); 【尤度に関するところ】 transformed parameters { vector[N] yhat; for(i in 1:N){ yhat[i] = beta_0[REGION[i]] + beta_DIST[REGION[i]]*DIST[i]; } } // 以下はmodelブロック beta_0 ~ normal(mu_beta_0, sigma_beta_0); beta_DIST ~ normal(mu_beta_DIST, sigma_beta_DIST); transformed parameters { vector[N] yhat; for(i in 1:N){ yhat[i] = beta[REGION[i]][1] + beta[REGION[i]][2]*DIST[i]; } } // 以下はmodelブロック beta ~ multi_normal(mu_beta, Sigma_beta); 12 ベイズ階層モデリング(2) 35

36.

（補足）inv_wishartってなんですか mu_beta ~ normal(0, 100); Sigma_beta ~ inv_wishart(3, identity_matrix(2)); ▌ 多変量正規分布の共分散行列の共役事前分布として知られている逆ガンマ分布（カイ二乗分布）を多変量に一般化したもの ▌ きちんと共分散行列の性質を満たすような空間からサンプリングしてくれる ↑の理由と合わせて，共分散行列の事前分布としてよく用いられてきたただ逆ガン分布のときと同様に批判もあったりしますそしてサンプリングの効率の観点からは逆ウィシャート分布は使わない方法のほうが良かったりします ▌ 2つのパラメータの設定 1つめを「パラメータ数+1」，2つ目を単位行列にする事が多い相関（非対角成分）の周辺分布が一様分布＝無情報になるため identity_matrix(2)で2×2の単位行列を作っている 12 ベイズ階層モデリング(2) 36

37.

[beta]

回帰係数間の相関を許容したstanコード
▌distと切片のみの単回帰分析モデル

p. 14のモデルをベースにした修正

model_multilevel_dist_cor.stan
data {
int N;
int G;
array[N] real SALES;
vector[N] DIST;
array[N] int REGION;
}
parameters {
array[G] vector[2] beta;
real <lower=0> sigma;
vector[2] mu_beta;
cov_matrix[2] Sigma_beta;
}

transformed parameters {
vector[N] yhat;
for(i in 1:N){
yhat[i] = beta[REGION[i]][1] + beta[REGION[i]][2]*DIST[i];
}
}
model {
beta ~ multi_normal(mu_beta, Sigma_beta);
mu_beta ~ normal(0, 100);
Sigma_beta ~ inv_wishart(3, identity_matrix(2));
sigma ~ cauchy(0, 10);
}

SALES ~ normal(yhat, sigma);

generated quantities {
array[N] real SALES_pred;
SALES_pred = normal_rng(yhat, sigma);
}

ブリッジサンプリングをしたい場合などは
target記法で書きましょう

▌あとはいつもどおり推定してみてください
12 ベイズ階層モデリング(2)

37

38.

結果を見てみる ▌mu_beta ▌Sigma_beta EAPで見るならば 𝜷𝑔 = 𝛽0𝑔 𝛽DIST 𝑔 ∼𝑁 7.53 − . 68 .3 2 − . 3 6 − . 3 6 . 37 12 ベイズ階層モデリング(2) −0.0306 𝛽0 𝛽DIST 間の相関は 0.312 0.137 ≃ − . 48 38

39.

[beta]

（おまけ）多変量正規分布のサンプリングを効率よくするには
▌共分散行列の代わりに「SD（ベクトル）」と「相関行列」をサンプリングする
𝚺=

𝜎𝛽20

Cov

Cov 𝜎𝛽2DIST

=

𝜎𝛽20

Cor × 𝜎𝛽0 𝜎𝛽DIST

Cor × 𝜎𝛽0 𝜎𝛽DIST

𝜎𝛽2DIST

=

// この修正に関係ある箇所だけ抜粋
parameters {
corr_matrix[2] R_beta; // 相関行列
vector<lower=0>[2] sigma_beta; // SDベクトル
}
transformed parameters {
matrix[2,2] Sigma_beta = quad_form_diag(sigma_beta, R_beta);
}

model {
R_beta ~ lkj_corr(2);
sigma_beta ~ cauchy(0, 10);
}

𝜎𝛽0

Cor 𝜎𝛽0

𝜎𝛽DIST Cor

𝜎𝛽DIST

= 𝐒′𝐑𝐒

相関行列𝐑
【transformed parametersについて】
• cov_matrix[2]で宣言してもよいが，必ず共分散行列になるので
無駄なチェックを避けるため普 のmatrixとして指定している
• quad_form_diag(matrix, vector)は
1. vectorを対角成分にもつ対角行列𝐒を作る
2. それをmatrix(𝐑)と合わせて𝐒′𝐑𝐒を計算する
▲を効率よくやってくれる関数です
【modelについて】
• lkj_corr()は相関行列の事前分布として推奨されているもの
• lkj_corr(2)は弱情報，lkj_corr(1)は無情報

12 ベイズ階層モデリング(2)

39

40.

[beta]

（おまけ）多変量正規分布のサンプリングを効率よくしたstanコード
▌全体

p. 38のモデルをベースにした修正

data {
int N;
int G;
array[N] real SALES;
vector[N] DIST;
array[N] int REGION;
}
parameters {
array[G] vector[2] beta;
real <lower=0> sigma;
vector[2] mu_beta;
corr_matrix[2] R_beta;
vector<lower=0>[2] sigma_beta;
}

transformed parameters {
matrix[2,2] Sigma_beta = quad_form_diag(R_beta, sigma_beta);
vector[N] yhat;
for(i in 1:N){
yhat[i] = beta[REGION[i]][1] + beta[REGION[i]][2]*DIST[i];
}
}
model {
beta ~ multi_normal(mu_beta, Sigma_beta);
mu_beta ~ normal(0, 100);
R_beta ~ lkj_corr(2);
sigma_beta ~ cauchy(0, 10);
sigma ~ cauchy(0, 10);
}

SALES ~ normal(yhat, sigma);

generated quantities {
array[N] real SALES_pred;
SALES_pred = normal_rng(yhat, sigma);
}

さらに効率 するためには，
• 相関行列をコレスキー分解する
• betaをそれぞれ独立に（一変量）正規分布からサンプリングし，
といったテクニックが有効です
12 ベイズ階層モデリング(2)

を使って多変量正規分布に従うように変換する

40

41.

扱わなかったけれども重要な話 ▌回帰係数にはグループ効果と個体の効果が混ざっている可能性 𝛽DIST 𝑔 がマイナスの場合「駅から遠い店舗ほど売上が下がる」ただし個体の「駅からの距離」は「グループ平均」と「グループ平均からの差」の和回帰式のうち「駅からの距離」に関する部分はグループ平均からの差 𝛽DIST 𝑔 DIST𝑔𝑖 = 𝛽DIST 𝑔 DIST𝑔𝑖 − DIST𝑔 グループ平均 𝛽DIST 𝑔 DIST𝑔 𝛽DIST 𝑔 はこの両方を考慮して推定された値になっている • 𝛽DIST 𝑔 DIST𝑔𝑖 − DIST𝑔 について𝛽DIST 𝑔 がマイナスとはグループ内で相対的に遠い店舗ほど売上が下がる • 𝛽DIST 𝑔 DIST𝑔 について𝛽DIST 𝑔 がマイナスとは平均的に駅から遠いグループほど売上が下がる 12 ベイズ階層モデリング(2) 41

42.

扱わなかったけれども重要な話｜中心の必要性 ▌式に従って分けてあげたらよいのでは？グループ平均からの差グループ平均 𝛽DIST 𝑔 DIST𝑔𝑖 = 𝛽DIST 𝑔 DIST𝑔𝑖 − DIST𝑔 店舗レベルの効果を表しているのでレベル1の説明変数 𝛽DIST 𝑔 DIST𝑔 グループレベルで中心した値をグループレベルの効果を表しているのでレベル2の説明変数 ∗ DIST𝑔𝑖 とする ▌すると全体のモデル式はレベル1 𝑦𝑔𝑖 = 𝛽0 𝑁𝐸𝑊 レベル 𝛽0𝑔 = 𝜇𝛽0 ２ 𝛽DIST 𝑔 = 𝜇𝛽DIST ∗ 𝛽DIST 𝑔 DIST𝑔𝑖 𝜀𝑔𝑖 𝑢0𝑔 𝛽DIST 𝑔 DIST𝑔 𝑢0𝑔 ∼ 𝑁 𝑢DIST 𝑔 𝑢DIST 𝑔 ∼ 𝑁 グループレベルの効果を分離するためには説明変数の中心が必要です 12 ベイズ階層モデリング(2) 𝜎𝛽20 𝜎𝛽2DIST このあたりの話は，ベイズ統計とは別にルチレベルモデルについて勉強してください。 42

43.

まとめと次回予告【まとめ】 ▌ベイズ階層モデルについて深掘りしましたどのような場合にメリットがあらわれるのかもっと複雑な問題に対応できるようにするためには，自由に拡張したらよい（ただしうまく推定できる範囲内で）【次回予告】 ▌別のモデルの実装例を紹介します離散パラメータを使うモデル（混合分布・ゼロ過剰分布）を紹介します ※ で実行する場合少しテクニックがいるのですが，知っておくと表現の幅が広がると思います。 12 ベイズ階層モデリング(2) 43