メモ帳

これは私のメモ帳です。

2017-08-04から1日間の記事一覧

不確かな時は楽観的に

「これからの強化学習(2016 編 牧野貴樹)」のp9〜 報酬の期待値の2種類の誤りの非対称性から考える。ある選択肢の期待値が小さく見積もられる場合は、それを修正するのは困難である。一方ある選択肢の期待値が大きく見積もられる場合は、その後その選択肢…