「これからの強化学習(2016 編 牧野貴樹)」のp9〜 報酬の期待値の2種類の誤りの非対称性から考える。ある選択肢の期待値が小さく見積もられる場合は、それを修正するのは困難である。一方ある選択肢の期待値が大きく見積もられる場合は、その後その選択肢…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。