住宅用太陽光発電に併設した蓄電池の深層強化学習による運用

2.5K Views

February 20, 23

スライド概要

バーチャルパワープラント(VPP)の実証実験が経済産業省主導で行われている。この実証実験の中で、太陽光発電(PV)出力の予測値との乖離や、蓄電池の充電不足に起因する、電力供給のインバランスが課題として報告されている。電力供給のインバランスが発生することで、VPP運営者は罰則金を払うこととなり、収益低下を招く。このため、電力取引を行う前に収益を最大化出来るように蓄電池等の運用計画を立てる必要がある。蓄電池等の運用計画を決める手法として線形計画法が挙げられるが、線形計画法では、モデルが複雑になる、特定の条件でしか扱えないなどの問題が発生する。そこで、深層強化学習を使用する手法が有望視されている。本研究では、PV出力予測値を基に深層強化学習を使用して蓄電池の運用計画を決める手法を提案する。まず,PVのみで電力取引を行う場合とPVと蓄電池で電力取引を行う場合を比較し、提案手法により収益性が向上することを示す。また、深層強化学習の入出力データ数を10パターン用意し、シミュレーションにより収益性が最も高いパターンを分析する。提案手法により、蓄電池の運用計画を立てることで、PVのみで電力取引を行うよりも高い利益を得られることを示した。また、6時間分のデータを入出力データ数に設定することで、1か月間の利益がPVのみで電力取引を行う場合よりも104%高くなった。さらに、電力価格の高い時間帯に蓄電池が放電動作をする結果となり、定性的に高評価の原因を説明した。

profile-image

小平大輔 - 筑波大学エネルギー・環境系助教。現在の研究テーマは、電気自動車の充電スケジューリング、エネルギー取引のためのブロックチェーン、太陽光発電とエネルギー需要の予測など。スライドの内容についてはお気軽にご相談ください:kodaira.daisuke.gf[at]u.tsukuba.ac.jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

住宅用太陽光発電に併設した蓄電池の 深層強化学習による運用 1

2.

1.1 研究背景 ・バーチャルパワープラント(VPP)の実証実験[1]で ① 太陽光発電出力の予測値の乖離 ② 蓄電池の充電不足 などが課題に →電力供給のインバランスが発生 →インバランス発生時、ペナルティ料金を払う ・インバランスを回避するために、 蓄電池等の需給計画を事前に立てる必要 [1] 東京電力, “オープンプラットフォーム型アグリゲーションビジネス実証事業 東京電力コンソーシアム」,平成 31年度「需要家側エネルギーリソースを活用したバーチャルパワープラント(VPP)構築実証事業費補助金」成果報告”2

3.

1.2 先行研究・研究目的 手法 利点 線形計画法 [2] 深層強化学習 [3] 欠点 特定の変数を導入するこ モデルの複雑化 とで最適化を実現 正確な物理モデルが必要 変動電源の不確実性を考 変動電源出力の不確実性を未考慮 慮した計画策定が可能 先行研究の課題 モデルの複雑化、変動電源の不確実性を未考慮 本研究の目的 モデルを簡易化+変動電源の不確実性を考慮 → 深層強化学習を用いた蓄電値制御により収益性を向上 [2] A. S. Zamzam, “Optimal distributed energy storage management using relaxed dantzig-wolfe decomposition”, IEEE (2018) [3] B. Huang, “Deep-Reinforcement-Learning-Based Capacity Scheduling for PV-Battery Storage System,” 3 IEEE (2021)

4.

1.3 本研究の内容 PV出力予測値を基に深層強化学習を使用して 蓄電池の30分毎の運用計画策定手法を提案 PVのみ使用して電力取引 PVと蓄電池を使用して電力取引 インバランス料金がどの程度軽減出来、 利益が増加するかを検証 4

5.

2.1 システム構成 ・30分毎に充放電指令 ・充電時 ①PVから蓄電池に 指令値通りに充電 ②PVから余った分を売電 PV定格出力:2.0kW 最大出力:1.5kW ・放電時 定格容量:4.2kWh ①蓄電池から 指令値通りの放電 ②PVは売電のみ 5

6.

2.2 深層強化学習 モデルの学習: 1step ① ② ③ ④ エージェントが状態を基に行動を起こす 環境が①の行動を評価し、報酬を与える エージェントの起こした行動によって、状態が変化 ①~③を繰り返し、一番高い報酬が得られるように学習 6

7.

2.3 深層強化学習 変数T 変数T: 1stepで何時間分の充放電量を決めるかを示す 例) T=12の場合 0.5時間×T=6時間

8.

2.4 深層強化学習 入力データ 出力データ SoC[%] PV出力値[kW] 電力価格[円/kWh] (出典:JEPX) 深層強化学習 𝒐𝒖𝒕𝒑𝒖𝒕 = 𝒂𝒄𝒕𝒊𝒐𝒏𝟏 , 𝒂𝒄𝒕𝒊𝒐𝒏𝟐 , ⋯ , 𝒂𝒄𝒕𝒊𝒐𝒏𝑻 蓄電池の充放電値[kW] -1.5kW~0kW→充電 0kW~1.5kW→放電 8

9.

2.5 深層強化学習 報酬設定 𝑹𝟏 : 放電による利益 (1) 深層強化学習 𝑹𝟐 : 蓄電池の充放電動作へのペナルティ 𝑹𝟑 : 蓄電池のSoCの値に対するペナルティ 9

10.

2.6 評価指標 余剰インバランス料金[円] 𝒘𝒆𝒊𝒈𝒉𝒕:スポット市場と1時間前市場の加重平均値 𝜶:系統全体の需給状況に応じた調整項 (2) 𝜷:地域ごとの市場価格差を反映する調整項 𝑳, 𝑲:インセンティブ定数 (出典:JEPX) 𝒇𝒆𝒆𝒍𝒂𝒄𝒌 = (𝒘𝒆𝒊𝒈𝒉𝒕 × 𝜶 + 𝜷 + 𝑲) × 𝒊𝒎𝒃 (3) ① インバランス料金[円] 𝒇𝒆𝒆𝒔𝒖𝒓𝒑𝒍𝒖𝒔 = 𝒘𝒆𝒊𝒈𝒉𝒕 × 𝜶 + 𝜷 − 𝑳 × 𝒊𝒎𝒃 不足インバランス料金[円] インバランス量[kWh] 𝒇𝒆𝒆𝒕𝒐𝒕𝒂𝒍 = σ(𝒇𝒆𝒆𝒔𝒖𝒓𝒑𝒍𝒖𝒔 + 𝒇𝒆𝒆𝒍𝒂𝒄𝒌 ) 総インバランス料金[円] 売上[円] 𝒔𝒂𝒍𝒆𝒔 = σ 𝒑𝒓𝒊𝒄𝒆 × 𝑷𝒔𝒐𝒍𝒅 (4) ② (5) 電力価格[円/kWh] 売電量[kWh] ③ 利益[円] 𝒑𝒓𝒐𝒇𝒊𝒕 = 𝒔𝒂𝒍𝒆𝒔 − 𝒇𝒆𝒆𝒕𝒐𝒕𝒂𝒍 (6) 10

11.

3.1 シミュレーション 変数Tを変えて比較 評価 ・1か月間の電力取引による利益 ・電力価格が高い時間に放電しているか(定性的に) 11

12.

各評価指標による比較 4000 利益 インバランス料金 3500 3000 金額[円] 3.2 2500 2000 1500 1000 500 0 PVのみ T=1 T=2 T=3 T=4 T=6 T=8 T=12 T=16 T=24 T=48 シミュレーション条件 12

13.

3.3 変数Tによる違いの比較 晴天日 T=1(30分先まで) T=12(6時間先まで) ・ 電力価格の高い時間帯の放電量が低い (電力価格に関係なく放電) →良好な結果ではない ・ 電力価格の高い時間帯の放電量が高い →良好 13

14.

3.4 変数Tによる違いの比較 T=1(30分先まで) 悪天候日 T=12(6時間先まで) ・どちらもPV出力が低いため、SoCが増加せず →実現可能な充放電量を決定出来ている 14

15.

3.5 天候違いの比較 晴天日 T=12 悪天候日 ・晴天日はSoCが100%を越えないように事前に(12時付近で)放電 →報酬計算式のSoCに対するペナルティによる影響 15

16.

3.6 変数Tによる違いの考察 ・T=12: 1stepで6時間分の充放電量を決めるため、電力価格の高い時間を考慮した学習が可能→良好 ・T=1: 1stepで30分間の充放電量を決めるため、電力価格がいつ高くなるか不明→良好でない

17.

4.結言 目的: 太陽光発電と蓄電池を使用した電力取引における収益性の向上 内容: 深層強化学習を使用して蓄電池の運用計画策定法を提案 1stepで何時間分を考慮することで利益が最大化出来るかの検証 結果: 一度に6時間先までの充放電量を決めると利益が最大 電力価格が高い時間に放電をしており、定性的にも良好な結果が得られた 17

18.

補足 T=12(6時間先まで) T=48(24時間先まで) 18