「これからの強化学習(2016 編 牧野貴樹)」p10〜 不確かな時は楽観的にという発想で楽観的初期値法が提案されたが、これには反例がある。そこで、 すべての選択肢に対して必要な探索が行われることを保証しつつ、探索のコストも最適解を間違えるリスクも少…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。