未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習

論文情報

加藤誉基，山内悠嗣，“未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習”，電気・電子・情報関係学会東海支部連合大会，2023．paper

概要

強化学習は機械学習の一つであり，自らが行動することで得られる経験から学習する．そのため，学習データを用意することが難しいタスクや未知の環境でもタスクを解くことができる可能性を持つ．強化学習は観測した現在までの状態における価値を最大化するよう学習する．価値とは，将来に亘って獲得できる報酬の期待値であり，西片等は先の状態を予測できれば現在の状態より高い価値を求められるという発想から先の状態を予測するモデルを価値関数に導入した．しかし，現時刻から時間が経過するほど未来の予測は曖昧さを含み不安定となるため，長期の予測を導入した場合，性能が低下する問題を抱えていた．そこで，本研究ではより高い現在の状態の価値を求めるため，先の状態を予測する際に時間経過に対して重み付けする．これにより，提案手法は直近の未来予測の結果を重視することが可能となり，早期に高い報酬を得ることが期待できる．

スライド

Bibtex Reference

@inproceedings{加藤2023, 
author = {加藤 誉基 and 山内 悠嗣}, 
title = {{未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習}},
booktitle ={電気・電子・情報関係学会東海支部連合大会}, 
year = {2023}, 
}