2024_収益向上を目指した強化学習ベースの蓄電池制御手法の検討

117 Views

March 28, 24

スライド概要

本研究の目的は、アグリエゲーターの収益向上のため、強化学習を用いた蓄電池の制御手法を検討することです。アグリエゲーターにおける実証実験における課題例として、PVの影響や、蓄電池の容量不足による制御失敗が挙げられます。また、アグリエゲーターにおいては、売電収入だけでなく、インバランスを抑制することが必要です。本研究は、先行研究にない、強化学習を用いた実際の予測データから運用計画を策定する方法を提案し、1軒の需要家において充放電計画を予測から策定し、収益を向上させることを調査しました。

profile-image

小平大輔 - 筑波大学エネルギー・環境系助教。現在の研究テーマは、電気自動車の充電スケジューリング、エネルギー取引のためのブロックチェーン、太陽光発電とエネルギー需要の予測など。スライドの内容についてはお気軽にご相談ください:kodaira.daisuke.gf[at]u.tsukuba.ac.jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2024/2/1 収益向上を目指した 強化学習ベースの蓄電池制御手法の検討 Reinforcement Learning-Based Battery Control Method Aimed at Increasing Profits for Prosumers 筑波大学 理工情報生命学術院 システム情報工学研究群 スマートグリッド研究室 博士前期課程2年 202220845 後藤 拓也 指導教員 安芸 裕久教授 実質指導教員 小平 大輔助教

2.

Introduction アグリゲーターは採算がとれるのか? 需要家と電力事業者をつなぐアグリゲーションビジネスの実証実験が政府主導で実施 【目的】技術の実証、制度課題とビジネスモデルの検討 実証実験における課題例 ① PV(太陽光発電)の影響 • 発電量の予測値と当日の実際の値の乖離が発生しやすい ② 蓄電池の容量不足による制御失敗 • 悪天候により、十分に充電が行えない • すべて放電してしまい、その後の制御に支障が発生 出典:オープンプラットフォーム型アグリゲーションビジネス実証事業 東京電力コンソーシアム 平成31年度需要家側エネルギーリソースを活用したバーチャルパワープラント構築実証事業【B-1事業】 1 理想:2kWh放電 現実:残量1kWh

3.

Introduction 取引市場とペナルティ スポット市場 :前日午前10時締切・指令値間隔30分。売り手と買い手の条件が合致した価格で約定。 インバランス料金:入札量との差分に対するペナルティ。その時間の電力の価値によって決定。 例)2022年5月17日 12:30~13:00 【実績値】スポット市場価格 : 22.80 [円/kWh] 【実績値】インバランス料金 : 53.58 [円/kWh] 入札量の1 kWhに対し、予想より多く発電したので 2 kWh売電する場合… 売電収入 インバランス料金 利益 = 22.80 [円/kWh]×2 [kWh] - 53.58[円/kWh]×|2-1|[kWh] = -7.98 円 収益のためには単に多く電力を売ればいいわけではなく、インバランスを抑制することが必要 2

4.

Objective • 強化学習を用いて実際の予測データから運用計画を策定する先行研究がない • 1軒の需要家の収益を向上できれば、統合して複数の需要家の収益を向上可能  1軒の需要家で予測誤差を考慮した充放電計画を予測から策定、収益を向上させる 3

5.

Simulation model  需要家のシステム構成 市販のPVと蓄電池を保有する需要家を想定 ・電力需要や他の機器状態には依存しない ・発電した電力は蓄電池への充放電を介して売電 ※PCS(Power Conditioning Subsystem) 発電した電力の制御や機器の運転制御を行う装置 4

6.

Simulation model  プログラム構成 2つの手法を検討 ・前日計画 :スポット市場入札締め切り前に予測と充放電計画を策定 ・30分前計画:最新の気象予測データを用いて、実需給直前にも再度予測と策定を行う 予測・ 計画 動作 評価 予測・ 計画 動作 評価 30分前 実需給時間帯 前日計画 予測・ 計画 30分前計画 前日10:00 当日0:00 入札締め切り 5 当日24:00

7.

Simulation model  取引フロー スポット市場を想定 実際のPV発電量(=売電量) 入札量とのインバランス 6 利益 損失

8.

Simulation model  充放電計画 (深層強化学習モデル) ※SoC(State of Charge):充電残量 エージェントは報酬*を最大化するよう繰り返し学習を行う *この報酬は売電による収入ではなく、学習時に設計するもの 7

9.

Simulation model  深層強化学習モデルの報酬 𝑹𝑹𝟏𝟏 , 𝑹𝑹𝟐𝟐 𝑹𝑹𝟑𝟑 ・放電に対する正の報酬 ①放電時(SoC>放電量)のとき ・実現不可能な行動に対する 負の報酬 𝑅𝑅3,𝑘𝑘 = 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑘𝑘 × 𝑇𝑇 × ②発電量以上に充電するとき・SoC以上に放電するとき 𝑅𝑅1,𝑘𝑘 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑘𝑘 −(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑘𝑘 ) × 𝑇𝑇 × =� 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑘𝑘 − 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑘𝑘 × 𝑇𝑇 × 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑘𝑘 ③SoCが100%を超えるとき 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑅𝑅2,𝑘𝑘 = −𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑦𝑦𝑘𝑘 × 𝑇𝑇 × 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑘𝑘 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑒𝑒𝑘𝑘 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑒𝑒𝑘𝑘 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑒𝑒𝑘𝑘 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑦𝑦𝑘𝑘 𝑘𝑘 𝑇𝑇 この3つを1日を通して合計したもので評価 8 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑘𝑘 充電電力[kW] 放電電力[kW] 電力価格予測[円/kWh] 蓄電池の残電力量[kWh] 時間(1~48) 1コマあたりの時間(0.5時間)

10.

Simulation condition • 場所:産総研に所在する実験設備を想定 • 時間解像度:30分 データ取得 30分前計画 実需給直前に動作 • 入力データ  学習データ:2022年度の気象・電力価格実績  入力データ:実需給日の直近の気象予測データ(1日分) 予測 計画 動作 • 1日分の結果を出力 評価  PV出力予測、電力価格予測、充放電計画、収益の評価を出力  収益は蓄電池を用いない場合をベースとして前日計画、30分前計画の結果を比較 9

11.

Simulation result 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 30 95%予測上限 95%予測下限 実測値 25 価格[円/kWh] PV出力[kW]  PV出力予測・電力価格予測(結果はすべて2023/1/31) 20 15 スポット市場価格(予測) スポット市場価格(実際) インバランス料金(予測) インバランス料金(実際) 10 5 0 3 6 9 12 時間[時] 15 18 0 21 PV 出力予測 0 3 6 9 12 時間[時] 15 電力価格予測 • PV出力予測はほぼすべてで95%の予測区間に収まった(48コマ中2コマ外れ) • 電力価格予測は精度を考慮していない(RMSE:3.1[円/kWh], 6.4[円/kWh]) 10 18 21

12.

Simulation result  充放電計画と動作結果(前日計画) 14 100 90 80 10 70 60 8 6 PV出力(予測) PV出力(実際) スポット市場価格(予測) スポット市場価格(実際) SoC(計画) SoC(実需給) 4 2 0 50 0 3 6 40 SoC[%] 電力価格[円/kWh-30min] PV出力[kW] 12 30 20 10 9 12 時間[時] 15 18 21 0 充放電計画と動作結果 • 電力価格が高くなると予測した17時以降に集中して放電を行うことで収益を高めようと行動 11

13.

Simulation result  充放電計画と動作結果(30分前計画) 100 90 12 80 10 70 8 60 50 6 PV出力(予測) PV出力(実際) スポット市場価格(実際) SoC(計画) SoC(実需給) 4 2 0 0 3 6 9 40 SoC[%] 電力価格[円/kWh-30min] PV出力[kW] 14 30 20 10 12 時間[時] 15 18 21 30%未満で頭打ち 0 充放電計画と動作結果 • 蓄電池を十分に活用しない計画が立案され、収益を高める行動をしているか不明 • 報酬設定がこの計画に不適合、1日の計画(48コマ)のうちの最初の1コマしか用いないことが原因の可能性 12

14.

Simulation result  インバランス量 0.7 インバランス量(前日計画) インバランス量(30分前計画) 電力量[kWh] 0.6 0.5 0.4 0.3 0.2 0.1 0 0 3 6 9 12 時間[時] 15 18 21 入札量に対する各計画のインバランス量 • 前日計画ではインバランスが少ない一方で、30分前計画では多く発生 • インバランスが多いと、ペナルティが増大し収益が悪化する 13

15.

Simulation result  収益 20 収益(ベース) 収益(前日計画) 収入[円] 15 収益(30分前計画) 10 ベース 前日 30分前 収入 130 142 128 損失 -47 -19 -148 合計 (対ベース) 83 123 (+40) -20 (-103) 5 0 0 損失[円] 1日を通して合計した損益額[JPY] 0 3 6 9 時間[時] 12 15 18 21 -5 -10 損失(ベース) -15 損失(30分前計画) -20 損失(前日計画) 各時間ごとの収益と損失 • ベースと比較して、前日計画は改善、30分前計画は低下 • インバランスの多さが収益に影響を及ぼした 14

16.

Simulation result  収益(連続1週間) 4000 3000 2751 3232 1000 2903 2587 金額[円] 金額[円] 995 442 0 -1000 -2000 -3000 ベース 前日 30分前 -646 -1756 収入 損失 -2460 806 698 579 500 2000 1000 690 220 0 -227 -500 -420 -470 ベース -1000 前日 -1118 -1500 合計 夏季(2022/8/8~2022/8/14) 収入 損失 30分前 合計 冬季(2023/1/30~2023/2/5) • 1週間連続して動作した場合も、前日計画では利益が向上(約160%)し、30分前計画は悪化 15

17.

Summary 研究目的 • 1軒の需要家で予測誤差を考慮した充放電計画を予測から策定、収益を向上させる 研究手法 • 強化学習を用いて充放電計画を策定する 研究結果 • 前日計画では、蓄電池がない場合と比較して160%の収益向上が得られた • 30分前計画では、結果が悪化した。この計画には報酬設計が不適合だったと考えられる 今後の課題 • 30分前計画における強化学習モデルの報酬の再検討 • 策定した充放電計画を実際の機器で実現可能か検証 16

18.

ご清聴ありがとうございました

19.

補足資料

20.

Imbalance 19

21.

Imbalance 出典:インバランス料金制度等について 電力・ガス取引監視等委員会事務局 ネットワーク事業監視課 20

22.

Program 21

23.

Program 22

24.

Timeline 23

25.

Timeline 24

26.

Simulation data データの取得元 パラメータ データソース 過去の気象データ 高層気象台の観測データ(2022年度) 気象予測データ GPVデータ PV出力実績値 過去の気象データから自作 スポット市場価格 JEPXスポット市場価格データ インバランス料金 インバランス料金公表サイト 25

27.

PV prediction 先行研究(塚崎ら)ではPV出力予測を決定論的に予測 ⇒ 外れるリスクを考慮できていない 山本らの確率論的予測を使用 決定論的予測 確率論的予測 確率論的予測を用いることで、予測が外れるリスクを考慮 26

28.

PV prediction Top 4 feature types extracted for accuracy radiation flux : 0.9969 v-component of wind : 0.0004 temperature : 0.0003 u-component of wind : 0.0003 選択した特徴量の数と平均損失 文献 Number of selected features and average loss[2] H. Yamamoto, J. Kondoh, and D. Kodaira, “Assessing the Impact of Features on Probabilistic Modeling of Photovoltaic Power Generation,” Energies, vol. 15, no. 15, p. 5337, Jul. 2022. 27

29.

LSTM Long Short Term Memory 時系列の予測に優れている(気象、株価 etc…) セル状態(𝐶𝐶𝑡𝑡−1 )に過去の学習に重要なデータを長期記憶として保存 逆に必要のないデータを忘却ゲート(𝑓𝑓)にて消去 メモリーセル(𝑔𝑔)には新たにセル状態に加えるデータの候補が入り 入力ゲート(𝑖𝑖)でメモリーセルにあるデータの内に加えるデータを選出 最終的には新しいセル状態(𝐶𝐶𝑡𝑡 )に更新する 28

30.

PPO Proximal Policy Optimization Trust Region Policy Optimization(TRPO)を改良して、実装しやすくした手法 ・メリット:シンプル、効率性 ・課題:局所的な最適解に陥りやすい ⇒最良の方策を見つけるよりも、 良好な方策を迅速に見つけることが出来る手法 文献より、A2CやDDQNといった手法よりも PPOを用いることで利益を最大化できる Zaxxon(シューティングゲーム) https://qiita.com/yuishihara/items/8252af064c2b316d782b ・文献 B. Huang and J. Wang, “Deep-Reinforcement-Learning-Based Capacity Scheduling for PV-Battery Storage System,” IEEE Trans Smart Grid, vol. 12, no. 3, pp. 2272–2283, May 2021, doi: 10.1109/TSG.2020.3047890. 29

31.

Simulation model  深層強化学習モデル 30

32.

Result 1week(summer) 日付 日照 時間 ベースモード 収入 損失 前日スケジュール 合計 収入 損失 合計 30分前スケジュール 収入 損失 合計 8/8 10.5 450.31 486.21 -35.90 579.33 48.94 530.39 485.01 364.46 120.55 8/9 11.8 725.68 135.56 590.11 853.91 31.49 822.42 768.17 510.02 258.15 8/10 12.4 606.26 272.34 333.92 690.45 52.67 637.77 625.12 455.60 169.52 8/11 11 337.25 132.48 204.77 375.51 107.72 267.80 363.22 341.61 21.60 8/12 6.9 365.06 148.20 216.87 469.05 26.52 8/13 1.2 109.13 299.80 -190.67 110.92 141.01 -30.09 111.28 202.04 -90.76 8/14 4.8 157.40 281.10 -123.70 153.30 180.73 -27.43 158.64 221.81 -63.17 合計 増減率 83.25 385.79 391.47 364.95 2751.09 1755.69 995.40 3232.46 645.82 2586.64 2902.90 2460.49 442.41 17.50 31 -63.22 159.86 5.52 40.14 -55.55

33.

Result 1week(winter) 30分前スケジュール 収入 損失 合計 日付 日照 時間 1/30 9.4 121.87 64.09 57.78 151.13 28.27 122.86 133.98 199.97 -65.99 1/31 8.9 130.20 47.02 83.18 141.65 18.64 123.01 128.25 147.76 -19.51 2/1 9.6 118.35 141.30 -22.95 123.64 54.12 69.52 118.59 260.62 -142.03 2/2 6.7 102.94 95.52 7.42 116.05 65.55 50.49 107.47 184.08 -76.62 2/3 0.4 72.06 45.13 26.93 79.05 15.15 63.91 69.97 116.95 -46.98 2/4 3.7 77.54 44.62 32.92 96.79 29.63 67.17 76.43 113.02 -36.59 2/5 9.4 67.43 32.34 35.09 97.80 15.44 82.36 63.35 95.20 合計 増減率 ベースモード 収入 損失 合計 前日スケジュール 収入 損失 合計 -31.85 690.39 470.02 220.37 806.11 226.80 579.32 698.03 1117.60 -419.57 16.76 32 -51.75 162.89 1.11 137.78 -290.39

34.

Result 1week 一週間のスポット市場価格の推移 90 80 価格[円/kWh] 70 冬 夏 60 50 40 30 20 10 0 0 3 6 9 12 15 18 時間[時] もともと夏の方がスポット市場価格が高い 33 21