Q-Learning 算法
Sarsa 算法和 Q-Learning 算法都是基于时序差分的算法,不同的是 Sarsa 算法是 on-policy 算法,而 Q-Learning 算法是 off-policy 算法。
发布博客 2026-04-09 00:58
16 次阅读
Sarsa 算法和 Q-Learning 算法都是基于时序差分的算法,不同的是 Sarsa 算法是 on-policy 算法,而 Q-Learning 算法是 off-policy 算法。
蒙特卡洛方法(Monte-Carlo method)是一种基于采样估计的方法,完全不需要事先知道模型,而是通过让智能体与环境交互,收集到完整的回合(episode)的样本,然后用该回合的实际回报的平均值估计价值函数。
动态规划(dynamic programming)是程序设计中非常重要的一部分,能够高效地解决很多的一些经典问题。其核心思想是将待求解的问题分解成若干个子问题,通过对子问题的求解,从而得到最终目标问题的求解。那么关键就是基于价值的强化学习目标函数是否可以拆解成若干个子问题?答案是“可以”。
强化学习(Reinforcement Learning,RL)的概念相比较于监督学习或者非监督学习来说,对于初学者较难理解,其背后的原因是强化学习有着一套较为复杂的数学基础,要想理解这套数学基础就相对比较困难,而监督学习或者非监督学习的模型相比较而言,就显得简单的多,在这个系列中,我们以相对简单的语言来描述强化学习的基本知识,同时为不失专业性,我们也给出数学的推导,那就让我们开始吧。