强化学习

REINFORCE 算法

REINFORCE 算法是最经典、最基础的 Policy Gradient（策略梯度）算法，由 Ronald J. Williams (1992) 提出，直接对策略建模，寻找到最优的策略使得总体回报的期望最高。从实验的结果来看，与 DQN 相比，效果及稳定性要低于 DQN。

发布博客 2026-04-11 22:43

104 次阅读

策略梯度原理

直接对策略建模，而非求动作价值函数 Q，再转换出具体的动作

发布博客 2026-04-11 18:02

103 次阅读

Deep Q-Network

通过神经网络对动作状态函数建模，从而解决传统基于 Q-Table 这种只能处理离散状态的问题，同时通过经验回放，缓慢更新等策略，确保在 DQN 中训练的稳定性。

发布博客 2026-04-11 14:04

88 次阅读

Q-Learning 算法

Sarsa 算法和 Q-Learning 算法都是基于时序差分的算法，不同的是 Sarsa 算法是 on-policy 算法，而 Q-Learning 算法是 off-policy 算法。

发布博客 2026-04-09 00:58

96 次阅读

Sarsa 算法

在时序差分算法中，代表的算法有 Sarsa 算法和 Q-Learning 算法。本文聚焦在 Sarsa 算法。

发布博客 2026-04-08 22:54

127 次阅读

蒙特卡洛方法

蒙特卡洛方法（Monte-Carlo method）是一种基于采样估计的方法，完全不需要事先知道模型，而是通过让智能体与环境交互，收集到完整的回合（episode）的样本，然后用该回合的实际回报的平均值估计价值函数。

发布博客 2026-04-08 22:45

95 次阅读

动态规划

动态规划（dynamic programming）是程序设计中非常重要的一部分，能够高效地解决很多的一些经典问题。其核心思想是将待求解的问题分解成若干个子问题，通过对子问题的求解，从而得到最终目标问题的求解。那么关键就是基于价值的强化学习目标函数是否可以拆解成若干个子问题？答案是“可以”。

发布博客 2026-04-08 22:37

100 次阅读

强化学习基础

强化学习（Reinforcement Learning，RL）的概念相比较于监督学习或者非监督学习来说，对于初学者较难理解，其背后的原因是强化学习有着一套较为复杂的数学基础，要想理解这套数学基础就相对比较困难，而监督学习或者非监督学习的模型相比较而言，就显得简单的多，在这个系列中，我们以相对简单的语言来描述强化学习的基本知识，同时为不失专业性，我们也给出数学的推导，那就让我们开始吧。

发布博客 2026-03-29 15:53

180 次阅读