自由エネルギー原理2 -期待自由エネルギー-

706 Views

November 04, 22

スライド概要

期待自由エネルギーについて書かれた記事
https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc
のまとめスライドです.
たまに更新しています.

profile-image

コンピュータを使って色々計算しています

シェア

埋め込む »CMSなどでJSが使えない場合

各ページのテキスト
1.

⾃由エネルギー原理2 期待⾃由エネルギー https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc のまとめ 藤⽥ ⼀寿 Ver. 20221108 スライドに間違いがあるかもしれないし内容が古いので,研究で使 う際は必ず論⽂(Smith et al., 2022; Sajid et al., 2021など)をチェッ クすること!! 途中式があるので,論⽂を読むときの参考になるかも.

2.

⽅策と⾏動

3.

時系列で考える • 環境の状態は時間とともに変化する. • 状態は直前の状態に依存するとする. • それぞれの状態から,それに対応した観測が⽣まれる. 𝑡−1 𝑡 𝑡+1 true state 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 observation

4.

時系列で考える • Agentは⽣成モデル𝑝(𝑜 ∣ 𝑠)の学習とそれぞれの時間で事後分布𝑞(𝑠)の 近似を得ることにより,真の⽣成過程𝑝(𝑠 ∗ , 𝑜)を得ようとする. • 簡単な場合では,⾃由エネルギーを減らすようにパラメタを変えるこ とで探すことができる(⾃由エネルギーのスライド参照). 𝑡−1 𝑡 𝑡+1 true state 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑝 𝑜 𝑠 𝑠∗ observation 𝑜 𝑞 𝑠! 𝑝 𝑠! 𝑠!"# 𝑠 𝑠 Inference state 𝑠

5.

⾏動してみる • 先の例は,環境の状態を受動的に観測するだけだった. • Agentが⾏動をする場合,その⾏動により状態が変わる. • つまり,⾏動が直接環境に影響を与え,異なる⾏動は異なる未来を導 くことになる. 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑠∗ 𝑝 𝑜 𝑠 Ac tio n 𝑜 𝑢 環境 observation 観察 𝑝 𝑠" 𝑠"#$ , 𝑢 𝑠 脳 𝑠 Inference state 𝑠

6.

我々はどのような⾏動を取ればよいのか? • Agentは当然それぞれの時間で良い⾏動を選びたい. • ⼀⽅で,Agentは⾏動直後の結果のみを考えて⾏動しているのではなく, 時間的に離れた⽬標に向けて⼀連の⾏動をしている. • この⼀連の⾏動のルールを⽅策(policy)𝜋という. 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑠∗ 𝑜 𝑝 𝑜 𝑠 Ac tio n 𝑢 環境 observation 観察 𝑝 𝑠" 𝑠"#$ , 𝑢 𝜋 𝑠 𝑠 Inference state ⽅策をとる 脳 𝑠

7.

⽅策 • Agentが取ることの出来る⽅策はたくさんある. • Active inferenceでは,それらすべてを考える. • だから,Agentはすべての可能な⽅策𝜋に対し,𝑝(𝑠 ∣ 𝑜)を𝑞(𝑠)で近似し 推論する. • 将来の⾃由エネルギーを最⼩化する⽅策が優先される. 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 𝑝 𝑜 𝑠 𝜋$ どの⽅策が 良いか? 𝑠 𝜋% 𝜋& 脳 𝑞 𝑠" 𝜋$ 𝑠 𝑠 𝑠𝑞 𝑠" 𝜋% 𝑠 Inference state 𝑠 𝑞 𝑠" 𝜋& Inference 𝑠 𝑠 state Inference state 観察 𝑠 強化学習では将来得られる報酬が 多い⾏動が優先される. 強化学習では,⽅策は𝑝(𝑢 ∣ 𝑠).

8.

期待⾃由エネルギー

9.

期待⾃由エネルギー • 将来の⾃由エネルギーを最⼩化するためには, 将来の⾃由エネルギー を知る必要がある. • 将来どれほどの⾃由エネルギーになるかを知るためには⾃由エネルギ ーの期待値を取る必要がある. • 将来の⾃由エネルギーはAgentがとる⽅策にも依存する.

10.

期待⾃由エネルギー • ⾃由エネルギーの式を,⽅策𝜋を考慮したものに書き換える. $ # $ # ∣* • ∑# 𝑞 𝑠 log % &,# → ∑# 𝑞 𝑠( ∣ 𝜋 log % & ,#! ∣* ! ! • 更に𝑝 𝑜( について期待値をとる. $ # ∣* • 𝐺 = ∑& 𝑝(𝑜( ∣ 𝑠( ) ∑# 𝑞 𝑠( ∣ 𝜋 log % & ,#! ∣* ! ! • ここでは𝑜( と𝑠( の関係はpolicyによらないとしている. • さらに式変形すると • 𝐺 = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ • = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ $ #! ∣* 𝑠( ) log % & ,# ∣* ! ! $ #! ∣* 𝑠( ) log % # ∣& ,* %(& ) ! ! ! 期待⾃由エネルギー

11.

更に式変形する • 𝐺 = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ $ #! ∣* 𝑠( ) log % # ∣& ,* %(& ) ! ! ! $ # ∣* ! ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝 𝑜( ∣ 𝑠( log 𝑝 𝑜( • = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ 𝑠( ) log % # ∣& − ,* ! • = − ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ • ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ ! % #! ∣&! ,* 𝑠( ) log $ # ∣* ! % #! ∣&! ,* 𝑠( ) log $ # ∣* ! − ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝 𝑜( ∣ 𝑠( log 𝑝 𝑜( をepistemic valueという.

12.

さらに式変形する . *! ∣0 • 𝐺 = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log 1 • = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log 1 • = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log *! ∣,! ,0 − ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝 𝑜- ∣ 𝑠- log 𝑝 𝑜- . *! ∣0 *! ∣,! ,0 1 *! . *! ∣0 1 *! − ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log 𝑝(𝑜- ∣ 𝑠- , 𝜋) • 近似が⼗分正確だとすれば𝑞 𝑜- ∣ 𝑠- = 𝑝 𝑜- ∣ 𝑠- と⾒なせるので • 𝐺 = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑞 𝑜- ∣ 𝑠- log • = ∑*,, 𝑞 𝑜- , 𝑠- ∣ 𝜋 log • = ∑* 𝑞 𝑜- , ∣ 𝜋 log . *! ∣0 1 *! . *! ∣0 1 *! • = 𝐾𝐿 𝑞 𝑜- ∣ 𝜋 ||𝑝 𝑜- . *! ∣0 1 *! − ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log 𝑝(𝑜- ∣ 𝑠- , 𝜋) − ∑, 𝑞 𝑠- ∣ 𝜋 ∑* 𝑝(𝑜- ∣ 𝑠- ) log 𝑝(𝑜- ∣ 𝑠- , 𝜋) 𝑜' と𝑠" の関係はpolicyに よらない − ∑, 𝑞 𝑠- ∣ 𝜋 ∑* 𝑝 𝑜- ∣ 𝑠- log 𝑝 𝑜- 𝑠+ ∑, 𝑞 𝑠- ∣ 𝜋 𝐻[𝑝 𝑜- 𝑠- ] 𝐻 𝑝 𝑜! 𝑠! = − ' 𝑝 𝑜! ∣ 𝑠! log 𝑝 𝑜! 𝑠! "

13.

最終的な期待⾃由エネルギーの式 • 𝐺 = 𝐾𝐿 𝑞 𝑜( ∣ 𝜋 ||𝑝 𝑜( Expected cost + ∑# 𝑞 𝑠( ∣ 𝜋 𝐻[𝑝 𝑜( 𝑠( ] Expected ambiguity • Expected costは,⽅策𝜋の下での観測とprior preferencesの2つの分 布の間のKLダイバージェンスである.つまり,期待⾃由エネルギーを 最⼩化すると,Agentが望む観測をもたらすような⽅策を好むことにな る. • Ambiguity は、ある状態での観測 𝑝(𝑜 ∣ 𝑠)のエントロピーの期待値であ る. Prior prefernces 乾の訳では事前の選好とされていた. Agentが好む観測の分布を意味する. AgentはPrior preferencesを⽬指し⾏動する.

14.

Estimetic valueの考察

15.

Epistemic valueの変形 • ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ • % #! ∣&! ,* log $ # ∣* ! = % #! ∣&! ,* 𝑠( ) log $ # ∣* ! % #! ∣&! ,* $ &! ∣* log $ # ∣* $(& ∣*) ! ! • 推定が正確だとすれば𝑞 𝑜( ∣ 𝜋 = 𝑝 𝑜( ∣ 𝜋 となるから • % #! ∣&! ,* $ &! ∣* log $ # ∣* $(& ∣*) ! ! = % &! ,#! ∣* log $ # ∣* $(& ∣*) ! ! = % &! ∣#! ,* $(#! ∣*) log $ # ∣* $(& ∣*) ! ! = % &! ∣#! ,* log $(& ∣*) ! • よって • ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ % #! ∣&! ,* 𝑠( ) log $ # ∣* ! = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ % &! ∣#! ,* 𝑠( ) log $ & ∣* !

16.

Epistemic valueは相互情報量 • 𝑀𝐼 𝑎, 𝑏 = ∑-. 𝑝 𝑎, 𝑏 • = ∑-. 𝑝 𝑎 ∣ 𝑏 𝑝 𝑏 % -,. log % - % . % -∣. % . log % - % . • 𝑀𝐼 𝑜, 𝑠 = ∑&,# 𝑞 𝑠( ∣ 𝜋 𝑝(𝑜( ∣ Epistemic value = ∑-. 𝑝 𝑎 ∣ 𝑏 𝑝 𝑏 % -∣. log % - % &! ∣#! ,* 𝑠( ) log $ & ∣* ! おまけ 𝑀𝐼(𝑎, 𝑏) = 4 𝑝 𝑎 ∣ 𝑏 𝑝(𝑏) log () 𝑝 𝑎∣𝑏 𝑝 𝑏 𝑝 𝑎 𝑏 = 4 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑝 𝑏 𝑝 𝑎 () = ∑() 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑏 − ∑() 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 = 4 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑏 − 4 𝑝 𝑎 log 𝑝 𝑎 () =𝐻 𝑝 𝑎 −𝐻 𝑝 𝑎 𝑏 =𝐻 𝑝 𝑏 ( −𝐻 𝑝 𝑏 𝑎

17.

Epistemic valueの解釈 • 𝑀𝐼 𝑜, 𝑠 = ∑*,, 𝑞 𝑠- ∣ 𝜋 𝑝(𝑜- ∣ 𝑠- ) log • = 𝐻 𝑞 𝑠- ∣ 𝜋 1 *! ∣,! ,0 . *! ∣0 − 𝐻 𝑝 𝑠- 𝑜- • Agentが⾮常に確信している場合,𝐻 𝑞 𝑠- ∣ 𝜋 は⼩さく,これ以上学ぶこ とは何もないので、 Epistemic value(認識価値)は低くなる. • 確信していれば,⽅策𝜋を選んだときに起こることが推測できるため,エントロ ピーが⼩さくなる. • 例:⽅策𝜋をとったとき,必ず状態𝑠になると確信していれば, 𝐻 𝑞 𝑠" ∣ 𝜋 は0と なる. • 確信が持てない場合, 𝐻 𝑞 𝑠- ∣ 𝜋 が⾼い. エントロピーが最⼤,最 ⼩となる条件を確認しよ う. • 確信が持てていないため,どの状態になるか分からない. • 結果, Epistemic valueは⾼くなる . • 例:⽅策𝜋をとったとき,どの状態になるか分からず,Agentがすべての状態が当 確率に現れると思っていれば, 𝐻 𝑞 𝑠" ∣ 𝜋 は最⼤値を取る.

18.

具体例で⾒るActive inferenceと期待⾃由エネルギ ー:準備

19.

空腹かどうか • お腹の空き具合と⾷べることを考える. • 胃の中の状態𝑠は,満杯1とカラ2の2種類である. • 観測𝑜は,満腹1と空腹2の2種類である. • ⽣成モデル𝑝 𝑜, 𝑠 のパラメタは既知であるとする. 胃の中の状態𝑠 満腹かどうか𝑜 1: 満杯 1: 満腹 2: カラ 2: 空腹

20.

満腹感と胃の状態 • 満腹と感じるかどうかは胃の中の状態𝑠に依存するのでlikelihood 𝑝 𝑜 𝑠 で表せる. state Likelihood 𝑝 𝑜 𝑠 1: 満杯 当然,胃が満杯だと満腹だ し,カラだと空腹になる. 2: カラ 1: 満腹 2: 空腹 observation

21.

⾷べるかどうか • ⾷べるかどうかは𝑢で表す. • 状態𝑠( は以前の状態と⾏動に依存するので𝑝(𝑠( ∣ 𝑠(/0, 𝑢)と表せる. Transition 𝑝(𝑠! ∣ 𝑠!"# , 𝑢) State 𝑡+1 u1: ⾷べる State 𝑡+1 1: 満杯 1: 満杯 2: カラ 2: カラ State 𝑡 1: 満杯 2: カラ u2: ⾷べない ⾷べれば胃は満杯 になり,⾷べなけ ればからになる. State 𝑡 1: 満杯 2: カラ

22.

空腹具合 • Agentはprior preferences 𝑝 𝑜 を持つ. • Agentは空腹でないことを好むから,満腹が観測されることを好む. • 観測に対する好みを確率 𝑝 𝑜 で表す. Prior preferences 𝑝 𝑜 1: 満腹 2: 空腹 四⾓は確率を表す.濃いほ うが確率が⾼い. 空腹より満腹の⽅を好むの で満腹のほうがprior preferencesが⾼い.

23.

⽅策 • 2つ先の未来までの⾏動が⽅策で決定されるとすると,policyは次の4 種類になる. 2つ先の⾏動 ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) • 𝜋0:⾷べる,⾷べる • 𝜋1:⾷べる,⾷べない 𝜋# 1: ⾷べる • 𝜋2:⾷べない,⾷べる • 𝜋3:⾷べない,⾷べない 1: 満腹 1: ⾷べる 2: 空腹 1: 満腹 𝜋$ 1: ⾷べる 2: ⾷べない 2: 空腹 1: 満腹 𝜋% 2: ⾷べない 1: ⾷べる 2: 空腹 1: 満腹 𝜋& 2: ⾷べない 2: ⾷べない 2: 空腹 𝑡+1

24.

期待⾃由エネルギーの計算 -KLダイバージェンス• Agentは状態と観測の関係𝑝 𝑜 𝑠 を知っているから,各⽅策の予測し た(predicted)観測𝑞 𝑜 𝜋 を推定する(estimate)ことができる. • ⽅策𝜋を決める→⾏動𝑢する→状態𝑠が変わる→観測𝑜を得る,という流れだ から⽅策さえ決まれば得られる観測がどうなるか推定できる. • よって,各ポリシーの期待⾃由エネルギーのKL 項を計算できる. 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] # Desired observation 𝑝 𝑜 Predicted observation 𝑞 𝑜 𝜋 1: 満腹 1: 満腹 2: 空腹 2: 空腹 𝑝(𝑜)と𝑞 𝑜 𝜋 のKLダイバージェ ンスが⼩さければ⼩さいほど, Agentの希望する結果を得られる可 能性が⾼い.

25.

期待⾃由エネルギーの計算 -ambiduity• ⽅策𝜋が決まれば,どのような状態になるか推定できる. • 状態𝑠が決まれば,何が観測されるか推定できる. • よって,𝑝(𝑜 ∣ 𝑠) に依存するambiguity項も評価できる. 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] # 2つ先の⾏動 ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋$ 1: ⾷べる 1: ⾷べる 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: ⾷べない 1: ⾷べる 𝜋* 2: ⾷べない 2: カラ 2: 空腹 1: 満腹 2: ⾷べない 1: 満杯 2: 空腹 1: 満腹 𝜋& state 2: 空腹 Likelihood 𝑝 𝑜 𝑠 2: 空腹 1: 満腹 2: 空腹 observation

26.

具体例で⾒るActive inferenceと期待⾃由エネルギ ー:次の⾏動を決める

27.

どのようにして次の⾏動を決めるのか • まず,将来の時間ステップで期待⾃由エネルギーを合計する. • それを⽅策𝜋に対する確率分布𝑞 𝜋 に変換する. • その確率は⾃由エネルギーが⼩さいほど⾼い. 期待⾃由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] 𝛾 # 2つ先の⾏動 ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝑞 𝜋 high Precision𝛾をかける. 𝜋$ 1: ⾷べる 1: ⾷べる 2: 空腹 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: 空腹 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる 2: 空腹 1: 満腹 𝜋* 2: ⾷べない 2: ⾷べない 2: 空腹 Softmax関数𝜎で規格化する. 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) low

28.

精度 • この変換の際に,⾃由エネルギーは精度𝛾によって重み付けされる. • 𝛾は⽅策に対する信念(belief)をどれほど確信しているかを表す. • 精度を極端に変えることによって,agentの信念は⼀つの⽅策に集約された り,⼀様に広がったりする. • これは探索と利⽤を決める上で重要である.良い⽅策を持っていると確信 するほど(すなわち,精度が⾼いほど)探索は少なくなり,その逆もまた然り である. 期待⾃由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + 4 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] 2つ先の⾏動 1: 満腹 𝜋$ 1: ⾷べる 1: ⾷べる 𝑞 𝜋 Precision𝛾をかける. 2: 空腹 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: 空腹 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる 𝜋* ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) ' 2: 空腹 1: 満腹 2: ⾷べない 2: ⾷べない 2: 空腹 Softmax関数𝜎で規格化する. 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 𝛾 high low 確信を持っていれば, 𝛾が⼤きくなる.よっ て,探索しなくなる. 𝛾はsoftmaxの温度パ ラメタの逆数だと思え ば良い.

29.

期待⾃由エネルギーを最⼩にする⽅策を選ばない • ここで,期待⾃由エネルギーを最⼩にする⽅策を選ぶこともできる. • しかし,現在最⼩にすると思われる⽅策を取ると,真に最⼩にする⽅ 策を選ぶ機会がなくなる. • その代わりに,Agentは望む観測を得られやすい⽅策をとるとする. 期待⾃由エネルギー 2つ先の⾏動 ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋$ 1: ⾷べる 1: ⾷べる 𝐺 = 𝐾𝐿 𝑞 𝑜! ∣ 𝜋 ||𝑝 𝑜! 𝑞 𝜋 + < 𝑞 𝑠! ∣ 𝜋 𝐻[𝑝 𝑜! 𝑠! ] ' Precision𝛾をかける. 2: 空腹 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: 空腹 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる 2: 空腹 1: 満腹 𝜋* 2: ⾷べない 2: ⾷べない 2: 空腹 Softmax関数𝜎で規格化する. 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 𝛾 high low 確信を持って いれば,𝛾が⼤ きくなる.よ って,探索し なくなる. 𝛾はsoftmaxの 温度パラメタ の逆数だと思 えば良い.

30.

状態𝑝(𝑠 ∣ 𝜋)と𝑞 𝜋 の積 • まず,⽅策で⽣じる状態𝑝(𝑠 ∣ 𝜋)と𝑞 𝜋 の積の和を取る. 期待⾃由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] # 2つ先の⾏動 ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝑞 𝜋 Precision𝛾をかける. 1: 満腹 𝜋$ 1: ⾷べる 1: ⾷べる 2: 空腹 Softmax関数𝜎で規格化する. 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 1: 満腹 𝜋% 1: ⾷べる 2: ⾷べない 2: 空腹 𝑞 𝑠 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる 和 2: 空腹 1: 満腹 𝜋* 2: ⾷べない 2: ⾷べない 2: 空腹 𝑝 𝑠 𝜋 ×𝑞 𝜋 𝑞(𝑠|𝜋)の𝑞 𝜋 の下での期待値,つまり重み付き和 をとる.その重みは各⽅策の確率で定義される。 この結果、周辺分布 𝑞 𝑠 が得られる.この分布に は⽅策が暗黙のうちに組み込まれている。

31.

次に⽣じる観測の予測 • 次に、期待される観測の確率𝑞 𝑜(B0 を得るために,次の時間ステップ の状態の信念𝑞 𝑠(B0 に𝑝 𝑜 𝑠 を掛ける. • そして,𝑞 𝑜(B0, 𝑠(B0 を周辺化すると𝑞 𝑜(B0 が求まる. • これは期待⾃由エネルギーから求まった次に⽣じる観測に対する信念であ る. 期待⾃由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" + 4 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] ' 2つ先の⾏動 ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) Likelihood state 𝑝 𝑜 𝑠 𝑞 𝜋 1: 満腹 1: 満杯 𝜋$ 1: ⾷べる 1: ⾷べる 2: 空腹 積 𝜋% 周辺化 2: カラ 1: 満腹 2: 空腹 1: 満腹 observation 1: ⾷べる 2: ⾷べない 2: 空腹 𝑞 𝑠 1: 満腹 𝜋& 2: ⾷べない 1: ⾷べる 和 2: 空腹 𝑡+1 1: 満腹 𝜋* 2: ⾷べない 2: ⾷べない 2: 空腹 積 𝑞 𝑜"1$

32.

ある⾏動をとったときに⽣じる観測 • 現在の状態𝑠( から⾏動uをとったときに⽣じる次の状態𝑠(B0は, 𝑝(𝑠( ∣ 𝑠(/0, 𝑢)で決まる. • まず現在の状態に対する信念𝑞(𝑠( )をとり,⾏動u1,u2について,次の 状態𝑠(B0に対する信念 𝑞 𝑠(B0 を求める. • これを𝑝 𝑜 𝑠 にかけて周辺化すると,次の観測の仮説 𝑝 𝑜(B0 を得 る. u1: ⾷べる 積 𝑝(𝑠"1$ ∣ 𝑠" , 𝑢) 𝑠"1$ 1: 満杯 𝑞 𝑠"1$ Likelihood 𝑝 𝑜 𝑠 積 周辺化 𝑝 𝑜"1$ 周辺化 2: カラ 𝑠" 1: 満杯 2: カラ 𝑞(𝑠" ) 積 u2: ⾷べない 𝑠"1$ 1: 満杯 𝑞 𝑠"1$ 周辺化 2: カラ 𝑠" 1: 満杯 2: カラ Likelihood 𝑝 𝑜 𝑠 積 𝑝 𝑜"1$ 周辺化

33.

KLダイバージェンスを最⼩にする⾏動をとる • 期待⾃由エネルギーから求めた𝑞 𝑜(B0 と,⾏動 から求めた𝑝 𝑜(B0 のKLダイバージェンスを計 算する. 𝑞 𝑜"1$ • KLダイバージェンスが最⼩となる⾏動をAgent はとる. KL 𝑝 𝑜"1$ u1: ⾷べる 𝑝 𝑜"1$ u2: ⾷べない 最⼩値を 取る⾏動 u1: ⾷べる

34.

まとめの図 期待⾃由エネルギー ⽅策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝐺 = 𝐾𝐿 𝑞 𝑜" ∣ 𝜋 ||𝑝 𝑜" 1: 満腹 𝜋# 𝜋$ 𝜋% Likelihood state 𝑝 𝑜 𝑠 𝑞 𝑜"1$ 1: 満杯 2: 空腹 積 周辺化 2: カラ 1: 満腹 2: 空腹 1: 満腹 observation 2: 空腹 KL 𝑞 𝑠 1: 満腹 2: 空腹 u1: ⾷べる 和 2: 空腹 𝑡+1 1: 満腹 𝜋& # Softmax関数 𝑞 𝜋 + = 𝑞 𝑠" ∣ 𝜋 𝐻[𝑝 𝑜" 𝑠" ] 積 積 Likelihood 𝑝 𝑜 𝑠 𝑠"1$ 𝑝(𝑠!"# ∣ 𝑠! , 𝑢) 𝑝 𝑠"1$ 周辺化 1: 満杯 積 𝑝 𝑜"1$ 周辺化 2: カラ 𝑠" 1: 満杯 2: カラ 𝑠" u2: ⾷べない 𝑠"1$ 1: 満杯 積 𝑝 𝑠"1$ 周辺化 2: カラ 𝑠" 1: 満杯 2: カラ Likelihood 𝑝 𝑜 𝑠 積 𝑝 𝑜"1$ 周辺化 最⼩値を 取る⾏動 u1: ⾷べる