メモ帳

これは私のメモ帳です。

2017-07-01から1ヶ月間の記事一覧

報酬の期待値を誤って見積もる2種類の例

「これからの強化学習 2016(編 牧野貴樹)」のp6〜 多腕バンディット問題(腕はAとB)を解く例 初期の一定試行だけランダムに探索し、その結果から各腕の報酬期待値を計算し、それ以降は最適と推定した選択だけを続ける(greedy)。 腕Aの真の報酬確率は0.6…

truffleでtest用RPCを使う

truffleでtest用RPCを使う testrpcのソースコード(github) 使い方の参考サイト testRPCを使うメリット デプロイが一瞬(これでかい) 起動方法 # globalでインストールしてあるなら、どこでも実行できる $ testrpc # 起動すると、この仮想etherネット内で…