18.1K Views
December 20, 22
スライド概要
Smith et al. (2022) A step-by-step tutorial on active inference and its application to empirical data. J Math Psychol. の1節までをまとめたものです.
続編はこちら(https://www.docswell.com/s/k_fujita/ZVVJNE-2023-09-04-233859).
Active inference 1 Smith et al. (2022) A step-by-step tutorial on active inference and its application to empirical dataのまとめ 藤⽥ ⼀寿 Active inferenceの理解に必要そうな内容をまとめたものです. Active infefenceや⾃由エネルギー原理に本気で取り組みたい⼈は元論⽂を読みましょう.
Bayesian inferenceとActive inference
Active inference • Active inferenceのフレームワークは次の2つ前提に基づいている. • 知覚と学習は変分⾃由エネルギーとして知られる量の最⼩化として理解で きる. • ⾏動選択,プランニング,decision-makingは期待⾃由エネルギーの最⼩ 化として理解できる.
Active inferenceの2つのコンセプト • Active inferenceは2つのコンセプトに基づいている. • ⽣物は情報を集めるため環境に対し積極的に関わり,好ましい観察( ⾷べ物とか⽔)を求め,好ましくない観察(怪我や空腹)を避ける. • Bayesian inference • 新たな観察(新たな感覚⼊⼒)を得るとき,確率分布として理解される信 念をアップデートする最適な⼿法を記述した確率のルールに基づく統計⼿ 順
ベイズ定理 𝑜 𝑠, 𝑚 ! 𝑠 𝑚 ! 𝑜𝑚 • 𝑠: 状態,𝑚: 世界モデル,𝑜: 観察 • 𝑝 𝑠 𝑚 : prior belief(事前信念) • 𝑝 𝑠 𝑜, 𝑚 = ! • これは新たな観測を⾏う前の𝑠に関する確率分布(Bayesian belief)を表す. • 𝑠は⼈間が信念を持つ可能性があるものなら何でも良い. • 𝑝 𝑜 𝑠, 𝑚 : likelihood(尤度) • ある状態のとき特定の観察がされる確率を表す. • 例えば,直線を観測したという状態は四⾓形を観測することと⼀致するが円と は⼀致しない. • 𝑝 𝑜 𝑚 : model evidence(周辺尤度) • どれほど観測が世界モデルと⼀致するか. • 𝑝 𝑠 𝑜, 𝑚 : posterior belief(事後信念) • 新たな観測がされた後に,新たな信念がなるべき確率分布を表す.
ベイズルール • ベイズルールは新たなデータを踏まえて,どのように信念を最適にアッ プデートするかを記述している. • 新たな信念(posterior)にたどり着くには, 1. 以前の信じていたこと(prior)を持ってくる. 2. 異なった可能な状態が新たな観測とどれほど⼀致しているかについて信じ ていること (likelihood) と,以前信じていたこと (prior) を融合させる. 3. モデルと観測の全体的な⼀致を考慮する. ⾔い換えれば,モデルが含む可能な状態のあらゆるセットの下で,観測がどれほど もっともらしいか;model evidence 𝑝 𝑜 𝑚 4. 𝑝 𝑜 𝑚 で割って,posterior beliefが正しい確率分布(総和が1になる) を維持する.
Bayesian inferenceの例 へこみ 出っ張り へこみと出っ張りを隠れ状態もしくは感覚刺激(画像)の原因だ と⾒なそう.どちらの状態が画像を作り出したかを推論するため にBayesʼ theoremを使う. はじめは,状態が「へこみ」か「出っ張り」かは五分五分だと信 じている. これは事前信念priorである. Prior 𝑝 𝑠 𝑝(へこみ) 0.45 = 0.55 𝑝(出っ張り) 右の円の画像は「へこみ」か ら⽣成されるか「出っ張り」 から⽣成されるか?どちらだ ろうか. 事後信念posteriorを求めるためlikelihoodを求める. Likelihood 𝑝 𝑜 𝑠 𝑝(画像 ∣ へこみ, 上から光) 0.9 = 0.1 𝑝(画像 ∣ 出っ張り, 上から光) ⼈は上から光が来ることを前提としているため,条件に含まれて いる.
Bayesian inferenceの例 へこみ 出っ張り 同時確率を求める. Joint 𝑝 𝑜, 𝑠 = 𝑝 𝑜 𝑠 𝑝(𝑠) 𝑝(画像, へこみ ∣ 上から光) 0.45×0.9 0.405 = = 0.55×0.1 0.055 𝑝(画像, 出っ張り ∣ 上から光) 周辺尤度を求める. Marginal likelihood 𝑝 𝑜 = ∑! 𝑝(𝑜, 𝑠) 𝑝(画像 ∣ 上から光) 0.405 + 0.55 = [0.46] 事後信念を求める. Posterior 𝑝 𝑠 𝑜 𝑝(へこみ ∣ 画像, 上から光) 0.405/0.46 0.88 = = 0.055/0.46 0.12 𝑝(出っ張り ∣ 画像, 上から光) 事後信念から,最も有り得そうな隠れ状態はへこみである事が分 かる. 右の円の画像は「へこみ」か ら⽣成されるか「出っ張り」 から⽣成されるか?どちらだ ろうか. 実は,この画像は「へこみ」からも「出っ張り」からも⽣成され るため,画像から 「へこみ」か「出っ張り」は分からない.しか し,光は上からくるという前提を持っているため,我々は画像が 「へこみ」であると知覚する.
⽣成モデル • ⽣成モデル𝑝 𝑜, 𝑠 • 隠れ状態や隠れ原因と呼ばれる直接知ることができない脳の外部の物体や事象𝑠 により,どのような観測(感覚⼊⼒)𝑜が⽣成されるかについてのモデル • モデルは様々な状態𝑠の集合を含むことができる. • 例えば,⼀つのセットは可能な形状を表す状態を表し,他のセットは可能な物体 の位置の状態を表すといった具合に,モデルが持つ状態のセットに制限はない. • モデルは様々な観測可能な結果𝑜のセットを含むことができる. • 例えば,⼀つは視覚からくる可能な観測のセットで,もう⼀つは聴覚からくる可 能な観測のセットといった具合に,モデルが持つ観測のセットに制限はない. • 可能な状態と観測のすべてのセットが指定されると,⽣成モデルは結合確 率𝑝(𝑜, 𝑠)で表される.この確率分布は状態と観測のすべての可能な組み合わ せについてのものである. • ⽣成モデルは世界についての信念により構成されるが,不正確でも良い.
⽣成過程 • ⽣成過程とは,世界で実際に起こることについて⾔及している. • 状態と感覚刺激の真の関係を表す. • ⽣成過程と⽣成モデルは⼀致しなくて良い. • 間違った信念の下での⾏動をシミュレートするとき(例えば,幻覚や妄想 をモデル化するとき ),⽣成モデルと⽣成過程と差が重要となる.
Bayesian inferenceは扱いにくい • Bayesian inferenceではベイズルールを使っているため,周辺尤度を 計算する必要がある. • 周辺尤度を計算するためには, • すべての可能な状態について結合確率の和を計算する必要があるため,離 散的であれば何度も計算する必要がある. • 連続的であっても解析的な周辺尤度が求まるとは限らない. • つまり,Bayesian inferenceは計算的に扱いづらい. • Bayesian inferenceではない近似⼿法を使いたい.
VFEとsurprisal • 近似的⼿法では変分⾃由エネルギー(VFE)が重要である. • VFEは近似推論を可能にする計算上扱いやすい量 • これを説明するために,self-informanationやsurprisalとして知られる情報 理論的な量を紹介する必要がある. • Surprisalは観測された結果とモデルで予測された結果の差異を反映し ている. • Surprisalは− ln 𝑝 𝑜 𝑚 と書かける. • 𝑝 𝑜 𝑚 はmodel evidenceと呼ばれる. • これは,モデルが結果をどれだけ説明できるか(モデル𝑚が与えられた条 件のもとで結果がどれほど出やすいか)を表す. • これは𝑝 𝑜, 𝑠 ∣ 𝑚 の周辺化されたもので,周辺尤度でもある.
VFEとsurprisal • Surprisalの最⼩化はmodel evidenceを最⼤化と等しい. • lnは単調増加関数だから 𝑝 𝑜 𝑚 が⼤きければ⼤きいほどsurprisalは⼩さ くなる. • VFEは常にsurprisal以上である. • − log 𝑝(𝑜) ≤ ∑! 𝑞 𝑠 log Surprisal " ! # $,! VFE • つまり,VFEを最⼩化することは,model evidenceを最⼤化する⽅法 でもあることを意味する. • これは前述の計算な困難さの問題を回避し、状態に対する事後信念の 推論を可能にする.
厳密Bayesian inferenceの例 Exact Bayesian Inference Prior 𝑝 𝑠 0.5 0.5 Likelihood 𝑝 𝑜 𝑠 0.8 0.2 𝑝 𝑜 𝑠 𝑝 𝑠 Joint 𝑝 𝑜, 𝑠 0.4 0.1 % 𝑝 𝑜, 𝑠 Marginal likelihood 𝑝 𝑜 0.5 計算が困難な 場合がある. ! 𝑝(𝑜, 𝑠)/𝑝(𝑜) Posterior 𝑝 𝑠 ∣ 𝑜 0.8 0.2 • 厳密Bayesian Inference簡単な例 • 我々は状態に関する事前信念𝑝 𝑠 と新しい観測の尤度𝑝 𝑜 𝑠 を与えら れている. • 我々は,その新しい観測が与えられたときの状態に関する事後確率 𝑝 𝑠 𝑜 を推論したい. • Bayesian Inferenceでは周辺尤度𝑝 (𝑜)が必要だが,この計算は最も単 純な分布以外では,計算集約的であるか,計算が困難である.
近似Bayesian inferenceの例 Approximate Bayesian Inference: 変分⾃由エネルギーが最⼩となる𝑞(𝑠)を探す. まず,Posteriorの 近似𝑞(𝑠)を⽤意し ておく. 𝑞 𝑠 = 𝑝(𝑠) 0.5 𝑞 𝑠 = 0.5 変分⾃由エネルギー 𝑞 𝑠 𝐹 = ; 𝑞 𝑠 ln 𝑝(𝑜, 𝑠) 初期の𝐹 𝐹 = 0.5 ln !∈1 𝑞(𝑠) = 𝑞(𝑠) = 0.6 0.4 0.8 0.2 Update 1 0.6 0.4 𝐹 = 0.6 ln + 0.4 ln = 0.798 0.4 0.1 Update 3 𝐹 = 0.8 ln 0.2 0.2 + 0.2 ln = 0.693 0.4 0.1 0.5 0.5 + 0.5 ln = 0.916 0.4 0.1 𝑞(𝑠) = 0.7 0.3 Update 2 𝐹 = 0.7 ln 𝑞(𝑠) = 0.9 0.1 Update 4 𝐹 = 0.9 ln 0.7 0.3 + 0.3 ln = 0.721 0.4 0.1 0.9 0.1 + 0.1 ln = 0.730 0.4 0.1 • 𝐹 を最⼩化するために逐次的にposteriorの近似分布 𝑞 𝑠 をアップデートする. • このアップデートで,真のposteriorを近似が⾒つかる. • つまり,𝑞 𝑠 が𝐹を最⼩化するとき,それが真のposteriorを近似しているだ ろう.
Bayesian inferenceからactive inference • Predictive codingなどのフレームワークでBayesian inferenceは知覚 と学習をモデル化に使われている. • Active inferenceでは,Bayesian inferenceを2つの⽅法で拡張する. • Active inferenceはカテゴリー推論(例えば猫であるか⽝であるか)を モデル化する.しかし,連続的な推論(変数は連続的,例えば速さ, 動きの向き,明るさなど)ではない. • Active inferenceはdecision-making中に最適な⼀連の⾏動の推論をモ デル化する. • 可能な⾏動の選択肢についての確率分布の推論をする. • これは,それぞれの⾏動が選ばれたときのゴールに着く確率をエンコード すると考えることができる.
⽅策とプランニング • プランニングにおいて,可能な⼀連の⾏動を⽅策という. • ⽅策は𝜋と書く. • ⽅策を考慮すると,⽣成モデルは次のように書ける. • 𝑝 𝑜, 𝑠, 𝜋 = 𝑝 𝑜 𝑠, 𝜋 𝑝 𝑠 𝜋 𝑝 𝜋 • Active inferenceの⽅策は,強化学習で⽤いられる⽅策と異なる. • Active inferenceの⽅策は,⼀連の⾏動である. • 例えば,状態1,状態2,状態3に移動するのが1つのプランである. • 強化学習の⽅策は,状態から⾏動への関連付けで構成される. • 例えば,もし状態が1なら状態2に移動し,もし状態が3なら状態1に移動す る.つまり⽅策は条件付き確率で𝜋(𝑎 ∣ 𝑠)で表せる.
Preference(好み) • 意思決定をするために,あるpolicyを他のpolicyより⾼い価値に結びつ ける⼿段が必要である. • そのために,preference(好み)を考慮する. • Active inferenceでは報酬とか価値といった追加の変数は無い. • Preferencesはprior preference distributionと呼ばれる,事前分布にエ ンコードされる. • Prior preference distributionを𝑝(𝑜 ∣ 𝐶)と表現する. • 変数𝐶は,エージェントのpreferencesを表す. • この分布において,観測が⾼い確率ならば,その観測は報酬がより⾼ いと扱われる. • Prior preferencesが, phenotypeにより⽣物が暗黙のうちに「期待」 する観測(すなわち、⽣物が⽣存および/または繁殖を維持するため に求めるべき観測)を符号化していると考えることができる.
Prior preferencesの例 • ⼈間は体温が36.5〜37.5℃の範囲で観測され続ける場合にのみ⽣存で きる. • したがって,そのような観測が起こる確率は⾼いということを暗黙の うちに必要としている. • もし⼈間が⾃分の体温が「予想される」温度から逸脱している(ある いは逸脱しそうである)と認識した場合,この逸脱を最⼩化するため にどのpolicyを取るか(例えば、寒いときや寒くなることが予想され るときは避難所を探すなど)を推論する. • この意味では,⽣存可能な範囲内の体温は最も驚きの少ない体温であ る.
⾃由エネルギー最⼩化による部分 観測マルコフ決定過程(POMDP) の解き⽅の簡単な紹介
マルコフ決定過程と部分観測マルコフ決定過程 • マルコフ決定過程(Markov decision process)は次のことを記述する. • 世界の観念的な状態についての信念 • 時間変化に対しどのように状態を予測するか • 状態の信念に基づき,好みの結果もしくは報酬を探しだすために,どのように⾏動を選ぶ か • マルコフ決定過程では、エージェントが⾏動を選ぶとき,現在の状態についての信 念だけが重要である. • 過去の状態に関するすべての知識が現在の状態に関する信念に暗黙的に含まれている. • 部分的に観測可能というのは,エージェントが⾃分のいる世界の状態についての信 念をはっきり知らないことを意味する. • この場合,状態は隠れていると呼ばれる. • エージェントは,観察(すなわち感覚⼊⼒)に基づいて、ある隠れ状態と別の状態 のどちらにある可能性が⾼いかを推論しなければならない. • そして、⾏動を選択するためにこの情報を使⽤しなければならない.
変分推論 • Active inferenceでは変分推論として知られる近似推論の形式を使い部 分観測マルコフ決定過程解決する. • 推論の過程は次のとおりである. • まず,状態についての近似事後分布𝑞 𝑠 を導⼊する. • 次は、この分布と⽣成モデル𝑝 𝑜, 𝑠 との類似性をKL ダイバージェンス⽤い 計算する. • KLダイバージェンスは2つの分布間の⾮類似度の尺度 • 分布が⼀致するときは0で,分布の⾮類似度が⾼くなるほど⼤きくなる. • VFEは、我々が最⼩化したいsurprisalに近似事後分布と真の事後分布のKL ダイバージェンスを⾜したもに対応する. • 変分推論では,VFE を最⼩にする値が⾒つかるまで系統的に 𝑞(𝑠)を更新し する. • そのとき,𝑞(𝑠)は真の事後分布𝑝(𝑠|𝑜)に近似される.
KLダイバージェンス • KLダイバージェンスは2つの分布の⾮類似度で,次のように書ける. • 𝐷!" 𝑞 𝑥 ∥ 𝑝 𝑥 − ∑$∈' 𝑞 𝑥 ln = 𝐸# % $ # $ $ ln # $ % $ = ∑$∈' 𝑞 𝑥 ln # $ % $ = • 情報理論から⾒れば,KLダイバージェンスは𝑞 𝑥 のすべての知識を与 えられた上で,𝑝 𝑥 を構築するためにどれだけ情報が必要かを表す.
Model evidence • Model evidenceは次のように書かれる. • 𝑝 𝑜 = ∑(,* 𝑝 𝑜, 𝑠, 𝜋 • よって負のlog model evidenceは • − ln 𝑝 𝑜 = − ln ∑(,* 𝑝 𝑜, 𝑠, 𝜋 = − ln ∑(,* • = − ln ∑(,* 𝑞 𝑠, 𝜋 % +,(,* # (,* = − ln 𝐸# • 𝑞 𝑠, 𝜋 は近似分布である. 𝐸# (,* (,* % +,(,* # (,* # (,* % +,(,* # (,* は期待値を表す.
変分⾃由エネルギーVFE • Model evidencは次のように書かれる. • − ln 𝑝 𝑜 = − ln 𝐸@ A,B ! C,A,B @ A,B • Jensenʼs不等式より • − ln 𝑝 𝑜 = − ln 𝐸@ A,B ≤ −𝐸@ • 𝐹 = 𝐸@ A,B • 𝐸@ ln A,B ln @ A,B ! C,A,B @ A,B ! C,A,B A,B ! C,A,B @ A,B 𝑝 𝑜, 𝑠, 𝜋 ln 𝑞 𝑠, 𝜋 = 𝐸@ A,B 𝑞 𝑠, 𝜋 ln 𝑝 𝑜, 𝑠, 𝜋 =𝐹 が変分⾃由エネルギーVFEである. は 𝑞 𝑠, 𝜋 と 𝑝 𝑜, 𝑠, 𝜋 のKLダイバージェンスになっている. • これは,⽣成モデル𝑞 𝑜, 𝑠, 𝜋 と近似事後分布𝑞 𝑠, 𝜋 の違いの期待値である.
Model evidenceとVFE • − ln 𝑝 𝑜 ≤ 𝐸# (,* ln # (,* % +,(,* =𝐹 • VFEは常に − ln 𝑝 𝑜 以上である. • つまり,VFEを最⼩化することによりmodel evidenceの負の対数の上 界を最⼩化できる. • よって, VFEの最⼩化により model evidence 𝑝 𝑜 は同じままか増加 する. • VFEの最⼩化しても − ln 𝑝 𝑜 が変化しなければ𝑝 𝑜 は変化しない. • VFEの最⼩化とともに − ln 𝑝 𝑜 が減少すれば𝑝 𝑜 は増加する. 𝐹 − log 𝑝 𝑜 logは単調増加関数なので,ln 𝑓を最⼤化すれば𝑓も最⼤化される.
知覚における近似Bayesian inference • 知覚、学習、意思決定における近似Bayesian inferenceに必要なのは、 VFEを最⼩化する𝑠の値(すなわち,𝑠に関する近似事後分布)を探す 扱いやすいアプローチである. • これは,VFEに対して勾配降下法を適⽤することで達成できる.
⽅策とVFE • 能動推論では,可能な各⽅策に対して個別にVFE 𝐹* を計算することに 注意したい. • ある⽅策を選ぶと特定の観測を得る可能性を⾼くなるから. • 例: • 左側に椅⼦,右側にテーブルがあると思っている状況を考える。左を⾒る ことを選んだという条件の下では,テーブルより椅⼦を観察する可能性が ⾼くなる. • これは,椅⼦の観察が左を⾒るという⽅策を選択したevidenceとして機能 することを意味する. • 観測が⽅策のevidenceとなるため,近似posterior 𝑞 𝑠 𝜋 と⽣成モデ ル 𝑝 𝑜, 𝑠 𝜋 の両⽅が⽅策に条件付けされる. • これは,例えば,エージェントが実⾏する⾏動に対して誤った信念を持っ ている可能性や,⾃分の意図した⽅策と真の観測された⾏動とが⼀致しな いことに驚く可能性を考慮するような場合に有効だろう.
VFEの式展開 • 脳が知覚の間にVFEの勾配降下を実現する⽅法の⼀つが予測誤差の最 ⼩化だろう. • 理由は次の数式から明らかにされる. • 𝐹* = 𝐸# (∣* ln # 𝑠𝜋 % 𝑜, 𝑠 𝜋 = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑜, 𝑠 𝜋 • = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑜 𝑠, 𝜋 𝑝 𝑠 𝜋 • = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 𝜋 • = 𝐷!" 𝑞 𝑠 𝜋 ∥ 𝑝 𝑠 𝜋 Complexity − 𝐸# − 𝐸# (∣* (∣* ln 𝑝 𝑜 𝑠, 𝜋 ln 𝑝 𝑜 𝑠, 𝜋 Accuracy • VFEはcomplexity引くaccuracyである.
𝐹$ の解釈 • 𝐹B = 𝐷EF 𝑞 𝑠 𝜋 ∥ 𝑝 𝑠 𝜋 Complexity − 𝐸@ A∣B ln 𝑝 Accuracy 𝑜 𝑠, 𝜋 • Complexityは事前信念と事後信念の間のKLダイバージェンスである. • 信念をより⼤きく修正する必要があるとき,Complexityは⼤きくなる. • より⼤きなcomplexityは観測のランダムな側⾯を説明するために信念を変更す る可能性がより⾼いことを意味し,ランダムさを説明するために信念を変更す るとモデルの将来の予測⼒を減少させる可能性がある(統計学における overfittingに似ている). • Accuracyは予測精度(すなわち,モデルの状態に関する信念を与えられた ときの観測の確率)を反映している. • ある状態が起こると思っていて予定通りの観測が得られれば低い値になる. • したがって,脳は予測誤差を最⼩化(accuracyの最⼤化)する⼀⽅必要以 上に信念を変更しない(complexityの最⼩化する)とき,脳はVFEを最⼩ 化するだろう.
知覚とVFE • 能動推論の枠組みでは,知覚と学習の両⽅のタスクは新しい観測の後に(近似的 に)最適な事後信念を⾒つけるためにVFEを最⼩化することである. • 知覚は新しい観測のたびに事後状態推定を⾏うことに対応する. • 学習は多くの観測にわたってモデル中の事前分布と尤度分布をよりゆっくりと更新 することに対応する. • 感覚⼊⼒は本質的にノイズが多く,単純に各試⾏で最適な事後分布を求めると適合 するノイズが増え、オーバフィッティングする. • 幸いなことに、VFE最⼩化ではこの問題を⾃然に回避することができる. • VFEはモデルのcomplexityからそのモデルのaccuracyを差し引いたものを測定する. • Accuracyはモデルの信念が感覚⼊⼒をどれだけうまく予測できるかを意味する. • Complexityは、新しい感覚⼊⼒を受け取ったとき⾼い正確さを維持するために信念をどれ だけ変える必要があるかを意味している。 • 知覚は、感覚⼊⼒の原因に関する信念の変化のうち,その⼊⼒を適切に説明できる 必要最⼩限の変化を⾒出そうとする.
VFEのもう⼀つの式展開 • 𝐹* = 𝐸# (∣* ln # 𝑠𝜋 % 𝑜, 𝑠 𝜋 = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑜, 𝑠 𝜋 • = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 𝑝 𝑜 𝜋 • = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − ln 𝑝 𝑜 𝜋 • = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − 𝐸# • = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − ∑( 𝑞 𝑠 𝜋 ln 𝑝 𝑜 𝜋 • = 𝐸# (∣* ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − ln 𝑝 𝑜 𝜋 (∣* 𝐸! "∣$ ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − log 𝑝 𝑜 ∣ 𝜋 ln 𝑝 𝑜 𝜋 • この式はVFEは常に⽅策に関してsurprisal以上であることを⽰す. • VFEはsurprisalに対する上界である. 𝐹"
VFEの解釈 • 機械学習では,ln 𝑝 𝑜 𝜋 をevidence,VFEにマイナスを掛けたもの % 𝑜, 𝑠 𝜋 − 𝐹* = 𝐸# (∣* ln をevidence lower bound (ELBO)と呼ぶ. # 𝑠𝜋 • ELBOを最⼤化することは機械学習においてよく⽤いられる最適化ア プローチである(Winn & Bishop, 2005). • VFEは予測誤差を混合したものと⾒なすこともできる. • Complexityは事後信念と事前信念の差の平均 • Accuracyは予測された結果と観測された結果の差 • つまりActive inferenceはこの2つの誤差に対応した予測誤差の最⼩化 として記述できる.
Active inferenceと⾏動 • Active inferenceは知覚の予測誤差を最⼩にすることだけを⽬的とした ものではなく,⾏動選択のモデルでもある. • 最適な⾏動を推論する場合,好ましい未来の観測をもたらすために⾏ 動するため,現在の観測結果を単純に考慮することはできない. • つまり,最適な⾏動を推測するためには,モデルは可能な⽅策ごとに 未来に⽣じる⼀連の状態と観測を予測すべきである. • そして,モデルはそれらの異なる⼀連の未来の状態と観測に関連した 期待⾃由エネルギーEFEを計算しなければならない.
Active inferenceとpreferences • 意思決定のモデルとしては,EFEは⼀連の観測についてのpreferencesに関係して計算される必要が ある(つまり,どれだけ報酬があるか,もしくは罰があるか). • Active inferenceでは,モデルに観測に対するprior expectations 𝑝 𝑜 𝐶 を搭載することでこれを実 現する. 𝑝 𝑜 𝐶 はpreferencesの役割を果たす. • いくつかの論⽂では観測𝑜ではなく状態𝑠についてのpreferencesが使われる. • この場合,エージェントは,世界の真の状態のモデルと好ましい状態のモデル(それぞれprior)を持っ ていると考える. • ⽅策選択は,好ましい状態と⼀致するように真の状態を持ってくるによって,モデルの間のdivergence を最⼩にしようとするものである (詳細はDa Costa, Parr et al., 2020). • これがどのように機能するかの最初の直感的理解のために,2つの異なった⼀連の状態と観測に対応 した2つの可能な⽅策を考える.ここで⼀連の観測の⼀つは他⽅よりも好ましいとする. • ここで「好ましい」とは正式には「モデルによって期待される」と解釈するため,好ましい観測を⽣ 成すると期待される⽅策はモデルの精度を最⼤にする(したがって,EFEを最⼩にする)⽅策になる だろう. • これは,各⽅策の確率が,ある⽅策のもとで期待される観測が,どれだけモデル精度を最⼤にするか (すなわち,好ましい観測に⼀致するか)に基づいて推論できることを意味する. • 好ましい観測が⽣物の表現型(phenotype)の決定的な暗黙の期待として扱われるとき(例えば,寒い ときに暖かさを求めたり,喉が渇いたときに⽔を求めるなど,好みの観測が⽣物の⽣存と⼀致する), これは「self-evidencing」(Hohwy、2016)とも表現される.
期待⾃由エネルギーEFE EFEはまだ起きていない結果について計算されるから,観測が確率変数と して𝐸! に⼊っている. ここでは𝑜は𝜋によらないとしている. 𝐸! 𝑜, 𝑠 𝜋 → ∑",$ 𝑝 𝑜 𝑠 𝑞 𝑠 𝜋 • EFEは次のように表現される. # 𝑠𝜋 • 𝐺* = 𝐸# 𝑜, 𝑠 𝜋 ln = 𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑞 𝑜, 𝑠 𝜋 % 𝑜, 𝑠 𝜋 𝐸 𝑜, 𝑠 𝜋 → * 𝑞 𝑠 𝑜, 𝜋 𝑞 𝑜 𝜋 • = 𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 𝑜, 𝜋 − ln 𝑝 𝑜 𝜋 𝑝 𝑠 ∣ 𝑜, 𝜋 は総和を取ると1になるので消えた # $,! . • = 𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 𝑜, 𝜋 • = 𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 𝑜, 𝜋 − 𝐸# 𝑜, 𝑠 𝜋 ln 𝑝 𝑜 𝜋 − 𝐸# 𝑜 𝜋 ln 𝑝 𝑜 𝜋 • ≈ 𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑞 𝑠 𝑜, 𝜋 − 𝐸# 𝑜 𝜋 ln 𝑝 𝑜 𝐶 真の事後分布 𝑝 𝑠 𝑜, 𝜋 を近似分布 𝑞 𝑠 𝑜, 𝜋 に置き換える. • = −𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝑜, 𝜋 − ln 𝑞 𝑠 𝜋 Epistemic value もしくはexpected Information gain 𝑝 𝑜 𝜋 の条件づけをpreferencesを表 す𝐶に置き換える. − 𝐸# 𝑜 𝜋 ln 𝑝 𝑜 𝐶 Pragmatic value
Preferencesと⽅策 • 𝐺* = −𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝑜, 𝜋 − ln 𝑞 𝑠 𝜋 − 𝐸# 𝑜 𝜋 ln 𝑝 𝑜 𝐶 • 𝑝 𝑜 𝐶 は好みの(preferenced)観測を意味する. • エージェントは好みの観測を⽣み出すと予測される⽅策を探す. エージェントのpreferencesはそれに従う⽅策に対し独⽴にすることができ, π の条件付けを削除することができる.能動推論に関するほとんどの論⽂では, prior preferencesは単に𝐸+ 𝑜 𝜋 ln p o と書かれているが,これをVFE内の ln p(o)の項(すなわち、oは観測変数)と明確に区別するために,ここではこ の項をCを明⽰的に条件付けして書く(Parr et al, 2022)。
EFEの式の意味 • 𝐺𝜋 = −𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝑜, 𝜋 − ln 𝑞 𝑠 𝜋 Epistemic value − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 Pragmatic value • Epistemic value(認識価値)は予想される観測を条件としたときの状態の 予想情報の利得である(− ln 𝑞 𝑠 𝜋 − − ln 𝑞 𝑠 𝑜, 𝜋 ). • EFEを最⼩化するために,エージェントは事後信念ln 𝑞 𝑠 𝑜, 𝜋 と事前信 念ln 𝑞 𝑠 𝜋 の差を最⼤化する状態にするような⽅策を選ぶことにより Epistemic valueを最⼤化させなければならない. • ⾔い⽅を変えれば,エージェントは隠れ状態についての不確か正をへらす観測 を探すようようになる (Parr & Friston, 2017a). • 例えば,エージェントが暗い部屋にいた場合,隠れ状態と観測の間のマッピン グは完全に曖昧である.そのため,好ましい観測を探し出す前に電気をつけて 情報利得を最⼤化するように誘発される(電気をつける前に好ましい結果をも たらす⽅法が不明瞭であるため). • Pragmatic valueは、特定の観測に対するエージェントのpreferencesをス コア化したものである。
EFEの他の表現(先の𝑮𝝅 から求める) • 𝐺* = −𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝑜, 𝜋 − ln 𝑞 𝑠 𝜋 − 𝐸# 𝑜 𝜋 ln 𝑝 𝑜 𝐶 # 𝑜 𝑠, 𝜋 # 𝑠 𝜋 • = −𝐸# 𝑜, 𝑠 𝜋 ln − ln 𝑞 𝑠 𝜋 − 𝐸# 𝑜 𝜋 ln 𝑝 𝑜 𝐶 # 𝑜𝜋 • = −𝐸# 𝑜, 𝑠 𝜋 ln 𝑞 𝑜 𝑠, 𝜋 + ln 𝑞 𝑠 𝜋 − ln 𝑞 𝑜 𝜋 − ln 𝑞 𝑠 𝜋 𝐸# 𝑜 𝜋 ln 𝑝 𝑜 𝐶 • = 𝐸# 𝑜, 𝑠 𝜋 − ln 𝑞 𝑜 𝑠, 𝜋 + ln 𝑞 𝑜 𝜋 • = 𝐸# 𝑜 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 • = 𝐷!" 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 − 𝐸# 𝑜, s 𝜋 ln 𝑞 𝑜 𝑠, 𝜋 + 𝐸#((∣*) 𝐻[𝑝 𝑜 𝑠 ] −𝐸? 𝑜, s 𝜋 ln 𝑞 𝑜 𝑠, 𝜋 = − ; 𝑞 𝑠 𝜋 ; 𝑝 𝑜 𝑠 ln 𝑞 𝑜 𝑠, 𝜋 ! − 𝐸# 𝑜 𝜋 ln 𝑝 𝑜 𝐶 @ 観測と状態の関係は⽅策に依存 しないので,𝜋を削除する. 𝑞を𝑝に置き換え. = − ; 𝑞(𝑠 ∣ 𝜋) ; 𝑝 𝑜 𝑠 ln 𝑝 𝑜 𝑠 = 𝐻[𝑝 𝑜 𝑠 ] ! @ −
EFEの他の表現(元の𝑮𝝅 からもとめる) 𝑠𝜋 𝑞 𝑠𝜋 = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑝 𝑜, 𝑠 𝜋 𝑝 𝑠 𝑜, 𝜋 𝑝 𝑜 𝜋 𝑞 𝑠𝜋 ln − ln 𝑝 𝑜 ∣ 𝜋 𝑝 𝑠 𝑜, 𝜋 𝑞 𝑠∣𝜋 𝑝 𝑜 𝜋 ln − ln 𝑝 𝑜 ∣ 𝜋 𝑝 𝑜𝑠 𝑝 𝑠𝜋 𝑞 𝑠∣𝜋 𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝑠 𝑞 𝑠 𝜋 − ln 𝑝 𝑜 ∣ 𝐶 • 𝐺𝜋 = 𝐸𝑞 𝑜, 𝑠 𝜋 • = 𝐸𝑞 𝑜, 𝑠 𝜋 • = 𝐸𝑞 𝑜, 𝑠 𝜋 • ≈ 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 • = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 𝑝 𝑠 𝑜, 𝜋 = 𝑝 𝑜 𝑠 𝑝 𝑠 𝜋 𝑝 𝑜 𝜋 𝑝を𝑞に置き換える. 𝑝 𝑜 𝜋 の条件づけをpreferences を表す𝐶に置き換える. − 𝐸𝑞 𝑜, s 𝜋 ln 𝑝 𝑜 𝑠 • = ∑𝑜,𝑠 𝑝 𝑜 𝑠 𝑞 𝑠 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 − ∑𝑜,𝑠 𝑝 𝑜 𝑠 𝑞 𝑠 𝜋 ln 𝑝 𝑜 𝑠 • = ∑-,. 𝑞 𝑠 𝑜 𝑞 𝑜 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 − ∑𝑠 𝑞 𝑠 𝜋 ∑𝑜 𝑝 𝑜 𝑠 ln 𝑝 𝑜 𝑠 • = ∑- 𝑞 𝑜 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 • = 𝐷/0 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 + ∑. 𝑞 𝑠 𝜋 𝐻[𝑝 𝑜 𝑠 ] + 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ]
EFEの式の意味 • 𝐺* = 𝐷!" 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 + 𝐸#((∣*) 𝐻[𝑝 𝑜 𝑠 ] Ristもしくはexpected complexity • 𝐷!" 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 は⽅策により与えられた⼀連の観測の確率につ いての信念と好みの結果についての信念とのKLダイバージェンスであ る. • これは,しばしばrisk (expected complexity)と呼ばれる. • 直感的には,各選択肢で得られる報酬の確率についての信念と考えられる. • つまり,好みの結果とある⽅策で期待される結果との乖離が⼩さいほど,そ の⽅策を選択した場合に報われる結果を得る可能性が⾼い.
EFEの式の意味 • 𝐺* = 𝐷!" 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 Ristもしくはexpected complexity + 𝐸#((∣*) 𝐻[𝑝 𝑜 𝑠 ] Ambiguity • 𝐸#((∣*) 𝐻[𝑝 𝑜 𝑠 ] は尤度関数のエントロピーの期待値であある. • エントロピーは分布の分散の尺度であり,より平坦な(精度の低い)分布ほ どエントロピーが⾼くなる. • エントロピーが⾼い尤度𝑝 𝑜 𝑠 は,世界の可能な状態についての信念を与 えられたとき,結果(観測)についてあまり正確な予測ができないことを意 味する. • エントロピーは⼀般的に曖昧さの尺度と⾒なされている. • 曖昧さを最⼩化する⽅策は,最も正確な(すなわち、最も有益な)観測を⽣ み出すと予想される状態に居座ろうとする. • なぜなら,それらの観測は隠れた状態について他の状態よりも最も多くの evidenceを提供するだろうからである.
EFEの式の意味 • 𝐺B = 𝐷EF 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 Ristもしくはexpected complexity + 𝐸@(A∣B) 𝐻[𝑝 𝑜 𝑠 ] Ambiguity • EFEを最⼩化することで,報酬と情報利得の両⽅を最⼤化する⽅策を選択 することになる(Riskが減る=報酬を得る,Ambiguityが減る=情報を得 る). • 典型的には,モデルが望んだ結果を得る⽅法について確信を持つまで情報 を求め,その段階で報酬を求める⾏動を選択するだろう. • 重要なことは,ある結果のpreferencesが他より強い(より正確な)場合, それが情報の価値を下げる効果を持っており,情報探索⾏動の減少につな がる(preferencesが弱すぎたり不正確な場合はその逆)ことを上記のEFE は意味している。 • これはモデルがどのようにexploit dilemmaを解決するかに影響を与える. • Expoit dilemmaは,信念を信頼するための情報を⼗分に知っていて報酬を 求めて⾏動するかどうか,もしくは,最初により多くの情報を集めるため に⾏動するかという難しい判断をしなければならないことを意味する.
期待⾃由エネルギーまとめ • ⾏動選択と計画のタスクはVFEを最⼩化するような将来の観測をもた らすpolicyを選択することである. • 将来の結果は,まだ観測されていないので,期待⾃由エネルギー (EFE)を最⼩にするような⾏動を選択する. • EFEとは,期待コスト(値が⼩さいほど報酬が⾼い)から期待情報利得を 差し引いたものである. • つまり,EFEを最⼩化することは,報酬の最⼤化と不確実性の解消の両⽅ を⽬指すことになる. • 状態に関する信念が⾮常に不正確または不確実である場合,⾏動は情報探 索的になる傾向がある. • 逆に、状態に関する信念の信頼度が⾼い場合(つまり,好ましい結果をも たらすために何をすべきかについてエージェントが⾃信を持っている場 合),選択された⾏動は報酬追求型になる傾向がある.
期待⾃由エネルギーまとめ • ⼀⽅で,期待報酬が⼗分⾼ければ(preferences distributionが⾼い精度なら),EFE を最⼩化する⾏動はリスキーになる. • ⼗分な情報なしに報酬を求める(報酬価値が情報価値を上回る). • ⼀般的に,EFEを最⼩化するためにやるべきことは次のよく観測されることを特に 強⼒に説明する. • すぐに報酬を求めるのではなく,⽣物はまず情報を収集する.そして,世界の状態につい て確信した後で報酬を最⼤する. • これは, ⽣物が単純に好奇⼼から出た⾏動を⽰す様⼦,すなわち報酬を得る機会 が無いときに起こる興味深い⾏動と捉えることが出来る(Barto, Mirolli, & Baldassarre, 2013; Oudeyer & Kaplan, 2007; Schmidhuber, 2006). • EFE最⼩化中のpreferencesのばらつきは⾏動における興味深い個⼈差と捉えるこ とが出来る. • Active inferenceの重要な側⾯が,探索と利⽤のジレンマに効果的に対処できるこ とに注意したい. • なぜなら,探索(情報探索)と利⽤(報酬追求)は、まさに期待⾃由エネルギーの2つの 側⾯であり,ある状況下で探索的⾏動と利⽤的⾏動のどちらが好ましいかは,現在の不確 実性のレベルと期待される報酬のレベルによって決まるからである.
次はPOMDPsの解決⽅法につ いてまとめる