【DL輪読会】Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimizationibution Learning Perspective

1.2K Views

May 23, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimizationibution Learning Perspective Tsubasa Hada(University of Nagasak 1

2.

論文概要 タイトル 著者 Deep Reinforcement Learning and Mean-Variance Strategies Fernando Acero, Parisa Zehtabi, Nicolas Marchesotti, for Responsible Portfolio Optimization Michael Cashmore,Daniele Magazzeni, Manuela Veloso URL https://arxiv.org/abs/2403.16667 概要 ポートフォリオ最適化には、投資目標を最大化する資産配分の決定が含まれます。従来の平均分散最適化に代 わり、最近では深層強化学習が検討されています。投資家がESG目標を重視する中で、この研究は、ESG目標を組 み込んだ責任あるポートフォリオ最適化において、深層強化学習と修正平均分散アプローチを比較しました。結 果として、深層強化学習ポリシーは、財務およびESG目標において平均分散アプローチと競争力のあるパフォーマ ンスを示しました。 貢献 ・ESG目標に対応したMVOを定式化 ・報酬関数にESG目標を組み込むためのDeep RLの定式化を 提案 ・財務目標と責任投資の観点からMVOとDeep RLを評価 2

3.

平均分散最適化(MVO) - 現代ポートフォリオ理論の基礎であり、ポートフォリオ最適化における最適資本配分を決定する フレームワーク - リスク(もしくはリターン)に対して期待リターン(もしくはリスク)を最適化する手法 - MVOは期待リターンの閾値を上回るように、リスクレベルを最小化する資産ポートフォリオを組 み立てるための数学的枠組み(Markowitz, 1952) ∗ - (2) 最低限達成したい収益(𝜇 )を超える - (3) 全ての資産を使う - (4) 空売りをしない - 𝑤 ∈ 𝑅𝑁 :ポートフォリオ内のN個の資産の分布を示す重みのベクトル - 𝜇 ∈ 𝑅𝑁 :期待平均として表されるポートフォリオ内の資産の将来のパフォーマンスに関する信念 - Σ ∈ 𝑅𝑁∗𝑁 :共分散として表されるポートフォリオ内の資産の将来のパフォーマンスに関する信念 - 𝜇∗:通常市場で入手可能なリスクフリーリターンとして取られる何らかの参照リターン 3

4.

実用的処理 - 実用的には、タンジェンシーポートフォリオ(国債などリスクが低い商品を利用した上で、最も高 いリターンを実現するポートフォリオ)を解くために再定式化される。 - 目的はポートフォリオ内の期待シャープレシオ(リスクに対してどれだけのリターンが得られてい るか)を最大化すること → リスクを最小化して、リターンを最大化する 𝑟𝑓 は無リスク資産(=国債など)のリターンである 4

5.

実用的処理 - MVOを解くには、2等分割、Dinkelbach変換、Schaible変換などいくつかのアプローチが用いられて きた。 - Cornue joli and Yütüncüが示す変換。(5)を二次計画(QP)と等価にすることができる ̂ ̂ - 各資産𝑖について𝜇を𝜇𝑖 − 𝑟𝑓 (リスクフリーリターン)で与えるとする 𝜅= 1 ̂ で𝑦 = 𝜅𝑤とする 𝜇𝑇 𝑤 1 𝑇 𝑤 Σ𝑤 = 𝜅 1 𝑇 𝑦 Σ𝑦となり ̂ ̂ ⇔ 𝜇𝑇 𝑦 = 1 𝜇𝑇 𝑤 5

6.

強化学習 - アクタークリティックアルゴリズムが実務家に人気 - ポリシーベースとバリューベースの利点を兼ね備えている - パラメトリックポリシーは、ポリシー勾配のある推定値を介して学習される - ポリシー勾配推定値の分散を減らすために、同時に学習される バリュー関数に依存する優位性推 定値を使用する - Ψtは軌跡の割引収益または時間差残差 - アクター・クリティック方式で RLアルゴリズムとしてPPOを使用する 6

7.

ESG項目の組み込む - ポートフォリオ・マネージャーは様々な方法論に従って責任投資を行なっている - 統合的アプローチ:前処理または後処理の段階に明示的かつ体系的なルールに基づいてフィルタ ーを適応する - テーマ別アプローチ:特定の環境(E)・社会的項目(S)を追求する傾向がある。企業責任(G)について は、一般的に用いられない(データが定性的で評価しずらい)。 7

8.

積分法 - 企業責任を最適化プロセスに組み込むには、投資家の動機を反映する適切な効用関数を考案する 必要がある。 - 積分法は、目的関数に企業責任項を導入するためのより原理的なアプローチ - 財務目的𝑈𝑓𝑖𝑛𝑎𝑛𝑐𝑖𝑎𝑙 と責任目的𝑈𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑖𝑏𝑙𝑒を考える - ESG投資の重視と投資成績はトレードオフの関係にある。 - これを”加法的目的関数を持つ両目的最適化問題におけるパレート最適解の結果”として解釈 - その上で代替的なアプローチとして、責任目的を乗法的に導入し、効用関数を得る 8

9.

ESGを考慮したMVOの提案 - 特定の資産配分(yウェイト)を使用したポートフォリオと一様配分(資産配分に𝑈𝑖 =(1/N)∀i ∈ {1, ..., N } のエントリを持つ一様ベクトル)のスコアの比の基づく目的𝑈を提案 - ポートフォリオ内の資産に関する平均責任スコアの時間による変化レベルを考慮するため - 責任パフォーマンスに対する投資家の感度をコントロールするために、スケーリング係数𝛼を導入 - Sは投資家の選好に応じて、𝑆|𝐸𝑆𝐺 、𝑠|𝐸 、𝑠|𝑆 、𝑠|𝐺 またはこれの線型結合に対応する - (14)は頻繁に使用されるシャープ比目標の緩和に基づくアプローチ(𝜆は投資家のリスク回避を制御 するパラメータ) 9

10.

ESGを目的とした深層強化学習 - ポートフォリオ最適化のためのRL政策を訓練するために、Liuら(2022)の実装を基に、Soodら(2023) と同様のMDPを定式化 - 状態空間には、期待リターン(𝜇)、共分散行列(Σ)、ルックバック期間の期待リターン、 単純移動平均などのテクニカル指標、ESGスコア(𝑆|𝐸𝑆𝐺 、𝑠|𝐸 、𝑠|𝑆 、𝑠|𝐺 )が含まれる - 逐次的な意思決定問題として定式化されるため、プロセスの逐次的な資質を反映した報酬関数が 必要になる 10

11.

実験 - 両方のポートフォリオ、MVOとRLの両方を検証して比較する。 - (13)を𝑀𝑉𝑂𝐸𝑥𝑎𝑐𝑡 、(14)を𝑀𝑉𝑂𝑅𝑒𝑙𝑎𝑥𝑒𝑑 - ダウ工株30種平均のうち29銘柄をデータとして使用。ヤフーファイナンスの公開日次価格デ ータ と、Sustainalyticsが提供する月次ESGスコア、E、S、Gを利用 - 責任パフォーマンス比𝑝𝑟 を定義する - 訓練データは2014-01-01~2019-11-30、評価データは2020-01-01~2021-11-30 𝑈𝑓𝑖𝑛𝑎𝑛𝑐𝑖𝑎𝑙 = 𝑈𝑆ℎ𝑎𝑟𝑝𝑒 と𝑈𝑓𝑖𝑛𝑎𝑛𝑐𝑖𝑎𝑙 = 𝑈𝑆𝑜𝑟𝑡𝑖𝑛𝑜 でMVOアプローチとRLポリシーの実験を行う 11

12.

結果 - 前提としてコロナウイルスの影響を受けたことを留意する - RLの結果では𝑈𝑆ℎ𝑎𝑟𝑝𝑒 と𝑈𝑆𝑝𝑟𝑡𝑖𝑛𝑜 の両財務目的について、乗法的 効用関数が一般に下方的効用関数を上回った。 𝑀𝑉𝑂𝐸𝑥𝑎𝑐𝑡 と𝑀𝑉𝑂𝑅𝑒𝑙𝑎𝑥𝑒𝑑 は有意に大きな変動を示した。 - RLが𝑀𝑉𝑂𝐸𝑥𝑎𝑐𝑡と𝑀𝑉𝑂𝑅𝑒𝑙𝑎𝑥𝑒𝑑 よりも最大ドローダウンの点 で優れている - Deep RLは責任ポートフォリオ最適化のための修正MVO アプローチに代わる競争力のある選択肢であることを示された。 12

13.

結果 13