自由エネルギー原理2 -期待自由エネルギー-

15.1K Views

November 04, 22

スライド概要

期待自由エネルギーについて書かれた記事
https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc
のまとめスライドです．たまに更新しています．

より詳しく知りたい人は，Active inference 1, 2も読むと良いかもしれません(https://www.docswell.com/s/k_fujita/K7QJ8Z-2022-12-20-134638, https://www.docswell.com/s/k_fujita/ZVVJNE-2023-09-04-233859)．

藤田一寿

@k_fujita

スライド一覧

コンピュータを使って色々計算しています．個人的な技術に関するメモと講義資料が置いてあります．気が向いた時に資料を修正しています．公立小松大学臨床工学科准教授 https://researchmap.jp/read0128699

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.17MB)

各ページのテキスト

⾃由エネルギー原理2 期待⾃由エネルギー https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc のまとめ藤⽥⼀寿 Ver. 20221108 スライドに間違いがあるかもしれないし内容が古いので，研究で使う際は必ず論⽂(Smith et al., 2022; Sajid et al., 2021など)をチェックすること！！途中式があるので，論⽂を読むときの参考になるかも．

https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc

⽅策と⾏動

時系列で考える • 環境の状態は時間とともに変化する． • 状態は直前の状態に依存するとする． • それぞれの状態から，それに対応した観測が⽣まれる． 𝑡−1 𝑡 𝑡+1 true state 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 observation

時系列で考える • Agentは⽣成モデル𝑝(𝑜 ∣ 𝑠)の学習とそれぞれの時間で事後分布𝑞(𝑠)の近似を得ることにより，真の⽣成過程𝑝(𝑠 ∗ , 𝑜)を得ようとする． • 簡単な場合では，⾃由エネルギーを減らすようにパラメタを変えることで探すことができる（⾃由エネルギーのスライド参照）． 𝑡−1 𝑡 𝑡+1 true state 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑝 𝑜 𝑠 𝑠∗ observation 𝑜 𝑞 𝑠! 𝑝 𝑠! 𝑠!"# 𝑠 𝑠 Inference state 𝑠

⾏動してみる • 先の例は，環境の状態を受動的に観測するだけだった． • Agentが⾏動をする場合，その⾏動により状態が変わる． • つまり，⾏動が直接環境に影響を与え，異なる⾏動は異なる未来を導くことになる． 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑠∗ 𝑝 𝑜 𝑠 Ac tio n 𝑜 𝑢 環境 observation 観察 𝑝 𝑠" 𝑠"#$ , 𝑢 𝑠 脳 𝑠 Inference state 𝑠

我々はどのような⾏動を取ればよいのか？ • Agentは当然それぞれの時間で良い⾏動を選びたい． • ⼀⽅で，Agentは⾏動直後の結果のみを考えて⾏動しているのではなく，時間的に離れた⽬標に向けて⼀連の⾏動をしている． • この⼀連の⾏動のルールを⽅策（policy）𝜋という． 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑠∗ 𝑜 𝑝 𝑜 𝑠 Ac tio n 𝑢 環境 observation 観察 𝑝 𝑠" 𝑠"#$ , 𝑢 𝜋 𝑠 𝑠 Inference state ⽅策をとる脳 𝑠

⽅策 • Agentが取ることの出来る⽅策はたくさんある． • Active inferenceでは，それらすべてを考える． • だから，Agentはすべての可能な⽅策𝜋に対し，𝑝(𝑠 ∣ 𝑜)を𝑞(𝑠)で近似し推論する． • 将来の⾃由エネルギーを最⼩化する⽅策が優先される． 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 𝑝 𝑜 𝑠 𝜋$ どの⽅策が良いか？ 𝑠 𝜋% 𝜋& 脳 𝑞 𝑠" 𝜋$ 𝑠 𝑠 𝑠𝑞 𝑠" 𝜋% 𝑠 Inference state 𝑠 𝑞 𝑠" 𝜋& Inference 𝑠 𝑠 state Inference state 観察 𝑠 強化学習では将来得られる報酬が多い⾏動が優先される．強化学習では，⽅策は𝑝(𝑢 ∣ 𝑠)．

期待⾃由エネルギー

期待⾃由エネルギー • 将来の⾃由エネルギーを最⼩化するためには，将来の⾃由エネルギーを知る必要がある． • 将来どれほどの⾃由エネルギーになるかを知るためには⾃由エネルギーの期待値を取る必要がある． • 将来の⾃由エネルギーはAgentがとる⽅策にも依存する．

10.

期待⾃由エネルギー • ⾃由エネルギーの式を，⽅策𝜋を考慮したものに書き換える． $ # $ # ∣* • ∑# 𝑞 𝑠 log % &,# → ∑# 𝑞 𝑠( ∣ 𝜋 log % & ,#! ∣* ! ! • 更に𝑝 𝑜( について期待値をとる． $ # ∣* • 𝐺 = ∑& 𝑝(𝑜( ∣ 𝑠( ) ∑# 𝑞 𝑠( ∣ 𝜋 log % & ,#! ∣* ! ! • ここでは𝑜( と𝑠( の関係はpolicyによらないとしている． • さらに式変形すると • 𝐺 = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ • = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ $ #! ∣* 𝑠( ) log % & ,# ∣* ! ! $ #! ∣* 𝑠( ) log % # ∣& ,* %(& ) ! ! ! 期待⾃由エネルギー

11.

更に式変形する • 𝐺 = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ $ #! ∣* 𝑠( ) log % # ∣& ,* %(& ) ! ! ! $ # ∣* ! ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝 𝑜( ∣ 𝑠( log 𝑝 𝑜( • = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ 𝑠( ) log % # ∣& − ,* ! • = − ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ • ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ ! % #! ∣&! ,* 𝑠( ) log $ # ∣* ! % #! ∣&! ,* 𝑠( ) log $ # ∣* ! − ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝 𝑜( ∣ 𝑠( log 𝑝 𝑜( をepistemic valueという．

12.

さらに式変形する . *! ∣0 • 𝐺 = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log 1 • = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log 1 • = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log *! ∣,! ,0 − ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝 𝑜- ∣ 𝑠- log 𝑝 𝑜- . *! ∣0 *! ∣,! ,0 1 *! . *! ∣0 1 *! − ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log 𝑝(𝑜- ∣ 𝑠- , 𝜋) • 近似が⼗分正確だとすれば𝑞 𝑜- ∣ 𝑠- = 𝑝 𝑜- ∣ 𝑠- と⾒なせるので • 𝐺 = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑞 𝑜- ∣ 𝑠- log • = ∑*,, 𝑞 𝑜- , 𝑠- ∣ 𝜋 log • = ∑* 𝑞 𝑜- , ∣ 𝜋 log . *! ∣0 1 *! . *! ∣0 1 *! • = 𝐾𝐿 𝑞 𝑜- ∣ 𝜋 ||𝑝 𝑜- . *! ∣0 1 *! − ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log 𝑝(𝑜- ∣ 𝑠- , 𝜋) − ∑, 𝑞 𝑠- ∣ 𝜋 ∑* 𝑝(𝑜- ∣ 𝑠- ) log 𝑝(𝑜- ∣ 𝑠- , 𝜋) 𝑜' と𝑠" の関係はpolicyによらない − ∑, 𝑞 𝑠- ∣ 𝜋 ∑* 𝑝 𝑜- ∣ 𝑠- log 𝑝 𝑜- 𝑠+ ∑, 𝑞 𝑠- ∣ 𝜋 𝐻[𝑝 𝑜- 𝑠- ] 𝐻 𝑝 𝑜! 𝑠! = − ' 𝑝 𝑜! ∣ 𝑠! log 𝑝 𝑜! 𝑠! "

13.

最終的な期待⾃由エネルギーの式 • 𝐺 = 𝐾𝐿 𝑞 𝑜( ∣ 𝜋 ||𝑝 𝑜( Expected cost + ∑# 𝑞 𝑠( ∣ 𝜋 𝐻[𝑝 𝑜( 𝑠( ] Expected ambiguity • Expected costは，⽅策𝜋の下での観測とprior preferencesの2つの分布の間のKLダイバージェンスである．つまり，期待⾃由エネルギーを最⼩化すると，Agentが望む観測をもたらすような⽅策を好むことになる． • Ambiguity は、ある状態での観測 𝑝(𝑜 ∣ 𝑠)のエントロピーの期待値である． Prior prefernces 乾の訳では事前の選好とされていた． Agentが好む観測の分布を意味する． AgentはPrior preferencesを⽬指し⾏動する．

14.

Estimetic valueの考察

15.

Epistemic valueの変形 • ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ • % #! ∣&! ,* log $ # ∣* ! = % #! ∣&! ,* 𝑠( ) log $ # ∣* ! % #! ∣&! ,* $ &! ∣* log $ # ∣* $(& ∣*) ! ! • 推定が正確だとすれば𝑞 𝑜( ∣ 𝜋 = 𝑝 𝑜( ∣ 𝜋 となるから • % #! ∣&! ,* $ &! ∣* log $ # ∣* $(& ∣*) ! ! = % &! ,#! ∣* log $ # ∣* $(& ∣*) ! ! = % &! ∣#! ,* $(#! ∣*) log $ # ∣* $(& ∣*) ! ! = % &! ∣#! ,* log $(& ∣*) ! • よって • ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ % #! ∣&! ,* 𝑠( ) log $ # ∣* ! = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ % &! ∣#! ,* 𝑠( ) log $ & ∣* !

16.

Epistemic valueは相互情報量 • 𝑀𝐼 𝑎, 𝑏 = ∑-. 𝑝 𝑎, 𝑏 • = ∑-. 𝑝 𝑎 ∣ 𝑏 𝑝 𝑏 % -,. log % - % . % -∣. % . log % - % . • 𝑀𝐼 𝑜, 𝑠 = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ Epistemic value = ∑-. 𝑝 𝑎 ∣ 𝑏 𝑝 𝑏 % -∣. log % - % &! ∣#! ,* 𝑠( ) log $ & ∣* ! おまけ 𝑀𝐼(𝑎, 𝑏) = 4 𝑝 𝑎 ∣ 𝑏 𝑝(𝑏) log () 𝑝 𝑎∣𝑏 𝑝 𝑏 𝑝 𝑎 𝑏 = 4 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑝 𝑏 𝑝 𝑎 () = ∑() 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑏 − ∑() 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 = 4 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑏 − 4 𝑝 𝑎 log 𝑝 𝑎 () =𝐻 𝑝 𝑎 −𝐻 𝑝 𝑎 𝑏 =𝐻 𝑝 𝑏 ( −𝐻 𝑝 𝑏 𝑎

17.

Epistemic valueの解釈 • 𝑀𝐼 𝑜, 𝑠 = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log • = 𝐻 𝑞 𝑠- ∣ 𝜋 1 *! ∣,! ,0 . *! ∣0 − 𝐻 𝑝 𝑠- 𝑜- • Agentが⾮常に確信している場合，𝐻 𝑞 𝑠- ∣ 𝜋 は⼩さく，これ以上学ぶことは何もないので、 Epistemic value（認識価値）は低くなる． • 確信していれば，⽅策𝜋を選んだときに起こることが推測できるため，エントロピーが⼩さくなる． • 例：⽅策𝜋をとったとき，必ず状態𝑠になると確信していれば， 𝐻 𝑞 𝑠" ∣ 𝜋 は0となる． • 確信が持てない場合， 𝐻 𝑞 𝑠- ∣ 𝜋 が⾼い．エントロピーが最⼤，最⼩となる条件を確認しよう． • 確信が持てていないため，どの状態になるか分からない． • 結果， Epistemic valueは⾼くなる． • 例：⽅策𝜋をとったとき，どの状態になるか分からず，Agentがすべての状態が当確率に現れると思っていれば， 𝐻 𝑞 𝑠" ∣ 𝜋 は最⼤値を取る．

18.

具体例で⾒るActive inferenceと期待⾃由エネルギー：準備

19.

空腹かどうか • お腹の空き具合と⾷べることを考える． • 胃の中の状態𝑠は，満杯1とカラ2の2種類である． • 観測𝑜は，満腹1と空腹2の2種類である． • ⽣成モデル𝑝 𝑜, 𝑠 のパラメタは既知であるとする．胃の中の状態𝑠 満腹かどうか𝑜 1: 満杯 1: 満腹 2: カラ 2: 空腹

20.

満腹感と胃の状態 • 満腹と感じるかどうかは胃の中の状態𝑠に依存するのでlikelihood 𝑝 𝑜 𝑠 で表せる． state Likelihood 𝑝 𝑜 𝑠 1: 満杯当然，胃が満杯だと満腹だし，カラだと空腹になる． 2: カラ 1: 満腹 2: 空腹 observation

21.

⾷べるかどうか • ⾷べるかどうかは𝑢で表す． • 状態𝑠( は以前の状態と⾏動に依存するので𝑝(𝑠( ∣ 𝑠(/0, 𝑢)と表せる． Transition 𝑝(𝑠! ∣ 𝑠!"# , 𝑢) State 𝑡+1 u1: ⾷べる State 𝑡+1 1: 満杯 1: 満杯 2: カラ 2: カラ State 𝑡 1: 満杯 2: カラ u2: ⾷べない⾷べれば胃は満杯になり，⾷べなければからになる． State 𝑡 1: 満杯 2: カラ

22.

空腹具合 • Agentはprior preferences 𝑝 𝑜 を持つ． • Agentは空腹でないことを好むから，満腹が観測されることを好む． • 観測に対する好みを確率 𝑝 𝑜 で表す． Prior preferences 𝑝 𝑜 1: 満腹 2: 空腹四⾓は確率を表す．濃いほうが確率が⾼い．空腹より満腹の⽅を好むので満腹のほうがprior preferencesが⾼い．

23.

⽅策 • ２つ先の未来までの⾏動が⽅策で決定されるとすると，policyは次の4 種類になる．２つ先の⾏動⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) • 𝜋0:⾷べる，⾷べる • 𝜋1:⾷べる，⾷べない 𝜋# 1: ⾷べる • 𝜋2:⾷べない，⾷べる • 𝜋3:⾷べない，⾷べない 1: 満腹 1: ⾷べる 2: 空腹 1: 満腹 𝜋$ 1: ⾷べる 2: ⾷べない 2: 空腹 1: 満腹 𝜋% 2: ⾷べない 1: ⾷べる 2: 空腹 1: 満腹 𝜋& 2: ⾷べない 2: ⾷べない 2: 空腹 𝑡+1

24.

期待⾃由エネルギーの計算 -KLダイバージェンス• Agentは状態と観測の関係𝑝 𝑜 𝑠 を知っているから，各⽅策の予測した(predicted)観測𝑞 𝑜 𝜋 を推定する(estimate)ことができる． • ⽅策𝜋を決める→⾏動𝑢する→状態𝑠が変わる→観測𝑜を得る，という流れだから⽅策さえ決まれば得られる観測がどうなるか推定できる． • よって，各ポリシーの期待⾃由エネルギーのKL 項を計算できる． 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] # Desired observation 𝑝 𝑜 Predicted observation 𝑞 𝑜 𝜋 1: 満腹 1: 満腹 2: 空腹 2: 空腹 𝑝(𝑜)と𝑞 𝑜 𝜋 のKLダイバージェンスが⼩さければ⼩さいほど， Agentの希望する結果を得られる可能性が⾼い．

25.

期待⾃由エネルギーの計算 -ambiduity• ⽅策𝜋が決まれば，どのような状態になるか推定できる． • 状態𝑠が決まれば，何が観測されるか推定できる． • よって，𝑝(𝑜 ∣ 𝑠) に依存するambiguity項も評価できる． 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] # ２つ先の⾏動⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋$ 1: ⾷べる 1: ⾷べる 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: ⾷べない 1: ⾷べる 𝜋* 2: ⾷べない 2: カラ 2: 空腹 1: 満腹 2: ⾷べない 1: 満杯 2: 空腹 1: 満腹 𝜋& state 2: 空腹 Likelihood 𝑝 𝑜 𝑠 2: 空腹 1: 満腹 2: 空腹 observation

26.

具体例で⾒るActive inferenceと期待⾃由エネルギー：次の⾏動を決める

27.

どのようにして次の⾏動を決めるのか • まず，将来の時間ステップで期待⾃由エネルギーを合計する． • それを⽅策𝜋に対する確率分布𝑞 𝜋 に変換する． • その確率は⾃由エネルギーが⼩さいほど⾼い．期待⾃由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] 𝛾 # ２つ先の⾏動⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝑞 𝜋 high Precision𝛾をかける． 𝜋$ 1: ⾷べる 1: ⾷べる 2: 空腹 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: 空腹 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる 2: 空腹 1: 満腹 𝜋* 2: ⾷べない 2: ⾷べない 2: 空腹 Softmax関数𝜎で規格化する． 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) low

28.

精度 • この変換の際に，⾃由エネルギーは精度𝛾によって重み付けされる． • 𝛾は⽅策に対する信念(belief)をどれほど確信しているかを表す． • 精度を極端に変えることによって，agentの信念は⼀つの⽅策に集約されたり，⼀様に広がったりする． • これは探索と利⽤を決める上で重要である．良い⽅策を持っていると確信するほど(すなわち，精度が⾼いほど)探索は少なくなり，その逆もまた然りである．期待⾃由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + 4 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] ２つ先の⾏動 1: 満腹 𝜋$ 1: ⾷べる 1: ⾷べる 𝑞 𝜋 Precision𝛾をかける． 2: 空腹 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: 空腹 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる 𝜋* ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) ' 2: 空腹 1: 満腹 2: ⾷べない 2: ⾷べない 2: 空腹 Softmax関数𝜎で規格化する． 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 𝛾 high low 確信を持っていれば， 𝛾が⼤きくなる．よって，探索しなくなる． 𝛾はsoftmaxの温度パラメタの逆数だと思えば良い．

29.

期待⾃由エネルギーを最⼩にする⽅策を選ばない • ここで，期待⾃由エネルギーを最⼩にする⽅策を選ぶこともできる． • しかし，現在最⼩にすると思われる⽅策を取ると，真に最⼩にする⽅策を選ぶ機会がなくなる． • その代わりに，Agentは望む観測を得られやすい⽅策をとるとする．期待⾃由エネルギー２つ先の⾏動⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋$ 1: ⾷べる 1: ⾷べる 𝐺 = 𝐾𝐿 𝑞 𝑜! ∣ 𝜋 ||𝑝 𝑜! 𝑞 𝜋 + < 𝑞 𝑠! ∣ 𝜋 𝐻[𝑝 𝑜! 𝑠! ] ' Precision𝛾をかける． 2: 空腹 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: 空腹 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる 2: 空腹 1: 満腹 𝜋* 2: ⾷べない 2: ⾷べない 2: 空腹 Softmax関数𝜎で規格化する． 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 𝛾 high low 確信を持っていれば，𝛾が⼤きくなる．よって，探索しなくなる． 𝛾はsoftmaxの温度パラメタの逆数だと思えば良い．

30.

状態𝑝(𝑠 ∣ 𝜋)と𝑞 𝜋 の積 • まず，⽅策で⽣じる状態𝑝(𝑠 ∣ 𝜋)と𝑞 𝜋 の積の和を取る．期待⾃由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] # ２つ先の⾏動⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝑞 𝜋 Precision𝛾をかける． 1: 満腹 𝜋$ 1: ⾷べる 1: ⾷べる 2: 空腹 Softmax関数𝜎で規格化する． 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: 空腹 𝑞 𝑠 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる和 2: 空腹 1: 満腹 𝜋* 2: ⾷べない 2: ⾷べない 2: 空腹 𝑝 𝑠 𝜋 ×𝑞 𝜋 𝑞(𝑠|𝜋)の𝑞 𝜋 の下での期待値，つまり重み付き和をとる．その重みは各⽅策の確率で定義される。この結果、周辺分布 𝑞 𝑠 が得られる．この分布には⽅策が暗黙のうちに組み込まれている。

31.

次に⽣じる観測の予測 • 次に、期待される観測の確率𝑞 𝑜(B0 を得るために，次の時間ステップの状態の信念𝑞 𝑠(B0 に𝑝 𝑜 𝑠 を掛ける． • そして，𝑞 𝑜(B0, 𝑠(B0 を周辺化すると𝑞 𝑜(B0 が求まる． • これは期待⾃由エネルギーから求まった次に⽣じる観測に対する信念である．期待⾃由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + 4 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] ' ２つ先の⾏動⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) Likelihood state 𝑝 𝑜 𝑠 𝑞 𝜋 1: 満腹 1: 満杯 𝜋$ 1: ⾷べる 1: ⾷べる 2: 空腹積 𝜋% 周辺化 2: カラ 1: 満腹 2: 空腹 1: 満腹 observation 1: ⾷べる 2: ⾷べない 2: 空腹 𝑞 𝑠 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる和 2: 空腹 𝑡+1 1: 満腹 𝜋* 2: ⾷べない 2: ⾷べない 2: 空腹積 𝑞 𝑜"1$

32.

ある⾏動をとったときに⽣じる観測 • 現在の状態𝑠( から⾏動uをとったときに⽣じる次の状態𝑠(B0は， 𝑝(𝑠( ∣ 𝑠(/0, 𝑢)で決まる． • まず現在の状態に対する信念𝑞(𝑠( )をとり，⾏動u1，u2について，次の状態𝑠(B0に対する信念 𝑞 𝑠(B0 を求める． • これを𝑝 𝑜 𝑠 にかけて周辺化すると，次の観測の仮説 𝑝 𝑜(B0 を得る． u1: ⾷べる積 𝑝(𝑠"1$ ∣ 𝑠" , 𝑢) 𝑠"1$ 1: 満杯 𝑞 𝑠"1$ Likelihood 𝑝 𝑜 𝑠 積周辺化 𝑝 𝑜"1$ 周辺化 2: カラ 𝑠" 1: 満杯 2: カラ 𝑞(𝑠" ) 積 u2: ⾷べない 𝑠"1$ 1: 満杯 𝑞 𝑠"1$ 周辺化 2: カラ 𝑠" 1: 満杯 2: カラ Likelihood 𝑝 𝑜 𝑠 積 𝑝 𝑜"1$ 周辺化

33.

KLダイバージェンスを最⼩にする⾏動をとる • 期待⾃由エネルギーから求めた𝑞 𝑜(B0 と，⾏動から求めた𝑝 𝑜(B0 のKLダイバージェンスを計算する． 𝑞 𝑜"1$ • KLダイバージェンスが最⼩となる⾏動をAgent はとる． KL 𝑝 𝑜"1$ u1: ⾷べる 𝑝 𝑜"1$ u2: ⾷べない最⼩値を取る⾏動 u1: ⾷べる

34.

まとめの図期待⾃由エネルギー⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" 1: 満腹 𝜋# 𝜋$ 𝜋% Likelihood state 𝑝 𝑜 𝑠 𝑞 𝑜"1$ 1: 満杯 2: 空腹積周辺化 2: カラ 1: 満腹 2: 空腹 1: 満腹 observation 2: 空腹 KL 𝑞 𝑠 1: 満腹 2: 空腹 u1: ⾷べる和 2: 空腹 𝑡+1 1: 満腹 𝜋& # Softmax関数 𝑞 𝜋 + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] 積積 Likelihood 𝑝 𝑜 𝑠 𝑠"1$ 𝑝(𝑠!"# ∣ 𝑠! , 𝑢) 𝑝 𝑠"1$ 周辺化 1: 満杯積 𝑝 𝑜"1$ 周辺化 2: カラ 𝑠" 1: 満杯 2: カラ 𝑠" u2: ⾷べない 𝑠"1$ 1: 満杯積 𝑝 𝑠"1$ 周辺化 2: カラ 𝑠" 1: 満杯 2: カラ Likelihood 𝑝 𝑜 𝑠 積 𝑝 𝑜"1$ 周辺化最⼩値を取る⾏動 u1: ⾷べる

自由エネルギー原理2 -期待自由エネルギー-

藤田一寿

関連スライド

図解Vision transformerの処理

自由エネルギー原理 -変分自由エネルギー-

Active inference 2 (能動的推論2)

Active inference 1 (能動的推論1)

クラスタリング

ニューラルネットワークの歴史と手法2

各ページのテキスト

自由エネルギー原理2 -期待自由エネルギー-

藤田 一寿

関連スライド

図解Vision transformerの処理

自由エネルギー原理 -変分自由エネルギー-

Active inference 2 (能動的推論2)

Active inference 1 (能動的推論1)

クラスタリング

ニューラルネットワークの歴史と手法2

各ページのテキスト

藤田一寿