奔三啦

Created2022-10-28|笔记

网站问题

Created2022-10-26|科研

Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications by Thanh Thi Nguyen

Power method 估计复杂度

Created2022-10-26|科研

power method 求矩阵的最大特征值

Log-Barrier-method

Created2022-10-26|笔记

使用log-barrier 方法解决优化问题

Alpha-alpha-Rank

Created2022-10-26|科研

论文 By Yaodong YANG

综述 Multi-Agent Reinforcement Learning A Selective Overview of Theories and Algorithms

Created2022-05-09|科研

Single-Agent RLMarkov process 马尔科夫过程马尔科夫过程是一个标准模型，广泛应用在全观测状态系统中，即智能体可以完全获取环境的状态信息，通过概率转换模型，在某一个状态通过一个动作到达另一个状态。因此结局马尔科夫问题的关键就是找到一个策略使得动作空间$A$映射到状态空间$S$上去。其中动作为$a_{t} \sim \pi\left(\cdot \mid s_{t}\right)$ ，并能使得到达每一个状态获取的回报discounted accumulated reward能够被最大化： $$\mathbb{E}\left[\sum_{t \geq 0} \gamma^{t} R\left(s_{t}, a_{t}, s_{t+1}\right) \mid a_{t} \sim \pi\left(\cdot \mid s_{t}\right), s_{0}\right]$$ 其中action-value function（Q方程）和state-value function (V方程)分别为： $$\begin{aligned}Q_{\pi}(s, a) ...

主动增强学习 Active Reinforcement Learning

Created2022-04-26|笔记

Active learning 主动学习Active ADPactive ADP的更新公式 $$\begin{equation}U(s)=\max {a \in A(s)} \sum{s^{\prime}} P\left(s^{\prime} \mid s, a\right)\left[R\left(s, a, s^{\prime}\right)+\gamma U\left(s^{\prime}\right)\right]\end{equation}$$ active adp 和passive adp的主要区别是在于agent在学习效用函数时，对于passive ADP在某个状态的策略是固定的，对于active adp在某个状态下有多个动作可以选择，active adp 会选择产生的最大的效用值作为expected utility value(MEU). exploration and exploitation智能体对环境的探索依然受到exploration和exploitation的限制，对于使用ADP算法，可以将乐观估计融入效用之更新公式中: $$\begin{eq...

Learning from examples

Created2022-04-26|笔记

Decision Trees决策树使用Entropy计算率先分割哪个decision tree的分支计算一个随机变量的不确定性使用熵，如果一个硬币投掷后头面朝上的概率为1的话，那这个硬币代表的随机变量的不确定性就为0，如果一个硬币有50%的概率投掷硬币头朝上，则其熵计算为： $$H(\text { Fair })=-\left(0.5 \log _{2} 0.5+0.5 \log _{2} 0.5\right)=1$$ 熵的计算公式：单位为比特 $$B(q)=-\left(q \log _{2} q+(1-q) \log _{2}(1-q)\right)$$ 信息增益 information gain 一颗决策树中的非叶子节点有split函数，用于将当前所输入的数据分到左子树或者右子树。我们希望每一个节点的split函数的性能最大化。这里的性能是指把两种不同的数据分开的能力，不涉及到算法的时间复杂度。但是，怎么去衡量一个split函数的性能呢？这里我们使用信息增益来衡量G。如果G越大，说明该节点的split函数将输入数据分成两份的性能越好。版权声...

前向网络和反向传播 feedforward and back-propagation

Created2022-04-26|笔记

前向网络和反向传播（feedforward and back-propagation）激活函数 activation function网络中每一层除了$weight \times x$的形式，还需要将乘积结果投入一个激活函数中，普适性近似定理universal approximation theorem指出，一个只有两层计算单元的网络，第一层是非线性的，第二层是线性的，可以近似任意程度的连续函数。因此激活函数需要是一个非线性的函数。前向网络中比较流行的的激活函数： sigmoid： $$\sigma(x)=1 /\left(1+e^{-x}\right)$$ ReLU: rectified linear unit $$\operatorname{ReLU}(x)=\max (0, x)$$ softplus：丝滑版本的ReLU $$\operatorname{softplus}(x)=\log \left(1+e^{x}\right)$$ Tanh $$\tanh (x)=\frac{e^{2 x}-1}{e^{2 x}+1}$...

被动增强学习 Passive reinforcement learning

Created2022-04-26|笔记

Passive reinforcement learning 被动增强学习前提：环境有限，完全可观测，就是说所有的规则都掌握，在环境里所有动作所带来的作用都能够被识别。对于agent而言，有一个固定的动作执行策略$\pi(s)$，即在某种环境状态下执行某种动作 agent 的目标是学习贴现效用函数$U^\pi(s)$(discounted utility function) ，这里的$s$指的是状态，$\pi$是agent的执行策略贴现效用函数$U^\pi(s)$(discounted utility function) ：从初始状态s开始执行策略$\pi$ 的奖励之和的期望值 4x3 世界模型使用一个4X3世界的Typical trials 做解释最上面3行是3个trails，即从(1,1)走到terminal states的三组走法，概率转换模型为图b所示，这是一个MDP问题，即有概率转换模型、reward、以及状态效用值。简而言之，被动增强学习是指在某个可被观测的环境中，agent由初始状态$s$按照策略$\pi$学习效用函数$U^\pi(s)$...