時系列予測モデルを導入した価値関数に基づく強化学習

論文情報

西片 智広,山内 悠嗣,“時系列予測モデルを導入した価値関数に基づく強化学習”,動的画像処理実利用化ワークショップ,2023.

概要

強化学習は環境とエージェントの相互のやり取りにより,一定期間における報酬の期待値を表す価値が最大となるように学習することで,エージェントが取るべき行動を獲得できる教師なし学習手法の1 つである.高い価値を得るためには,未知である将来の状態において最適な行動を選択する必要がある.未知である将来の状態を事前に把握できれば,より良い行動を選択できるため,結果的に高い価値を得ることが可能である.そこ で,本研究では深層学習に基づく未来画像生成技術を利用することで,未知である将来の状態を事前に予測する.事前に将来の状態を予測することで,より高い価値を得るための行動を選択することが可能となるため,早期に高い報酬が得られることが期待できる.

ポスター

Bibtex Reference

@inproceedings{西片2023, 
  author = {西片 智広 and 山内 悠嗣},
  title = {{時系列予測モデルを導入した価値関数に基づく強化学習}},
  booktitle = {動的画像処理実利用化ワークショップ},
  year = {2023},
}