2017-08-04から1日間の記事一覧

不確かな時は楽観的に

「これからの強化学習（2016 編牧野貴樹）」のp9〜報酬の期待値の2種類の誤りの非対称性から考える。ある選択肢の期待値が小さく見積もられる場合は、それを修正するのは困難である。一方ある選択肢の期待値が大きく見積もられる場合は、その後その選択肢…