刷新cdn
网站问题
MADRL总结
Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications by Thanh Thi Nguyen
Power method 估计复杂度
power method 求矩阵的最大特征值
Log-Barrier-method
使用log-barrier 方法解决优化问题
Alpha-alpha-Rank
论文 By Yaodong YANG
综述 Multi-Agent Reinforcement Learning A Selective Overview of Theories and Algorithms
Single-Agent RLMarkov process 马尔科夫过程 马尔科夫过程是一个标准模型,广泛应用在全观测状态系统中,即智能体可以完全获取环境的状态信息,通过概率转换模型,在某一个状态通过一个动作到达另一个状态。因此结局马尔科夫问题的关键就是找到一个策略使得动作空间$A$映射到状态空间$S$上去。其中动作为$a_{t} \sim \pi\left(\cdot \mid s_{t}\right)$ ,并能使得到达每一个状态获取的回报discounted accumulated reward能够被最大化: $$\mathbb{E}\left[\sum_{t \geq 0} \gamma^{t} R\left(s_{t}, a_{t}, s_{t+1}\right) \mid a_{t} \sim \pi\left(\cdot \mid s_{t}\right), s_{0}\right]$$ 其中action-value function(Q方程)和state-value function (V方程)分别为: $$\begin{aligned}Q_{\pi}(s, a) ...
主动增强学习 Active Reinforcement Learning
Active learning 主动学习Active ADPactive ADP的更新公式 $$\begin{equation}U(s)=\max {a \in A(s)} \sum{s^{\prime}} P\left(s^{\prime} \mid s, a\right)\left[R\left(s, a, s^{\prime}\right)+\gamma U\left(s^{\prime}\right)\right]\end{equation}$$ active adp 和passive adp的主要区别是在于agent在学习效用函数时,对于passive ADP在某个状态的策略是固定的,对于active adp在某个状态下有多个动作可以选择,active adp 会选择产生的最大的效用值作为expected utility value(MEU). exploration and exploitation智能体对环境的探索依然受到exploration和exploitation的限制,对于使用ADP算法,可以将乐观估计融入效用之更新公式中: $$\begin{eq...
Learning from examples
Decision Trees决策树使用Entropy计算率先分割哪个decision tree的分支计算一个随机变量的不确定性使用熵,如果一个硬币投掷后头面朝上的概率为1的话,那这个硬币代表的随机变量的不确定性就为0,如果一个硬币有50%的概率投掷硬币头朝上,则其熵计算为: $$H(\text { Fair })=-\left(0.5 \log _{2} 0.5+0.5 \log _{2} 0.5\right)=1$$ 熵的计算公式:单位为比特 $$B(q)=-\left(q \log _{2} q+(1-q) \log _{2}(1-q)\right)$$ 信息增益 information gain 一颗决策树中的非叶子节点有split函数,用于将当前所输入的数据分到左子树或者右子树。我们希望每一个节点的split函数的性能最大化。这里的性能是指把两种不同的数据分开的能力,不涉及到算法的时间复杂度。但是,怎么去衡量一个split函数的性能呢?这里我们使用信息增益来衡量G。如果G越大,说明该节点的split函数将输入数据分成两份的性能越好。 版权声...
前向网络和反向传播 feedforward and back-propagation
前向网络和反向传播(feedforward and back-propagation)激活函数 activation function网络中每一层除了$weight \times x$的形式,还需要将乘积结果投入一个激活函数中,普适性近似定理universal approximation theorem指出,一个只有两层计算单元的网络,第一层是非线性的,第二层是线性的,可以近似任意程度的连续函数。因此激活函数需要是一个非线性的函数。 前向网络中比较流行的的激活函数: sigmoid: $$\sigma(x)=1 /\left(1+e^{-x}\right)$$ ReLU: rectified linear unit $$\operatorname{ReLU}(x)=\max (0, x)$$ softplus:丝滑版本的ReLU $$\operatorname{softplus}(x)=\log \left(1+e^{x}\right)$$ Tanh $$\tanh (x)=\frac{e^{2 x}-1}{e^{2 x}+1}$...
被动增强学习 Passive reinforcement learning
Passive reinforcement learning 被动增强学习前提: 环境有限,完全可观测,就是说所有的规则都掌握,在环境里所有动作所带来的作用都能够被识别。 对于agent而言,有一个固定的动作执行策略$\pi(s)$,即在某种环境状态下执行某种动作 agent 的目标是学习贴现效用函数$U^\pi(s)$(discounted utility function) ,这里的$s$指的是状态,$\pi$是agent的执行策略 贴现效用函数$U^\pi(s)$(discounted utility function) :从初始状态s开始执行策略$\pi$ 的奖励之和的期望值 4x3 世界模型使用一个4X3世界的Typical trials 做解释 最上面3行是3个trails,即从(1,1)走到terminal states的三组走法,概率转换模型为图b所示,这是一个MDP问题,即有概率转换模型、reward、以及状态效用值。 简而言之,被动增强学习是指在某个可被观测的环境中,agent由初始状态$s$按照策略$\pi$学习效用函数$U^\pi(s)$...
