好消息,我拍了婚纱照
特大喜讯!
好消息,我订婚了!
特大喜讯!
11-24
沉痛悼念11月24日新疆因疫情封锁火灾遇难者同胞
On Policy Approximation
回顾一下Sutton书中第9章对On policy approximation的讨论
Policy gradient method
对sutton “Reinforcement learning:an introduction”第十三章REINFORCE方法的一个重新总结
综述在涉及非平稳性的多种环境中学习的调查 A Survey of Learning in Multiagent Environments Dealing with Non-Stationarity
TFT开始合作,然后做对手在上一局地选择,即如果对手在上一局cooperate,那本局就cooperate,如果对手在上一局defect,那么就在本局defect。 Pavlov如果两名玩家都在上局合作则本局合作,如果两名玩家都在上局背叛则本局选择背叛。 新的框架 policy generating function: belief $\beta_j$ Influence function $\theta$ 在想这三个指标是作者自己提出来的么?并没有在其他文章中见到过 Best response 多智能体学习最优反应$$B R_{i}(\hat{\theta})=\pi_{i}^{*}(s, a, \hat{\theta})=B R_{i}\left(\boldsymbol{\pi}{-i} \mid \pi{j} \sim \beta_{j}\left(\tau \mid h_{j}\right), h_{j} \sim p\left(h_{j} \mid h_{i}\right)\right)$$ 五种方式应对non-stationarity 行为...
cs234-3:蒙特卡洛、TD-learning
Monte Carlo, TD(0)算法的详细拆解
cs234-11: Fast Reinforcement Learning I
学习 standford CS234 系列课程笔记
