强化学习数学基础：MDP、奖励、策略、价值函数——用大白话讲透每个公式

2025-12-17 13:47:30

强化学习（RL）

文章摘要

本文用通俗语言解析强化学习的四大数学基础：1. MDP（马尔可夫决策过程）是描述强化学习问题的框架，包含状态、动作、转移概率和奖励；2. 奖励函数是智能体的评分系统，即时奖励和考虑未来折扣的累积奖励；3. 策略是智能体的行动指南，分为确定性策略和随机策略；4. 价值函数评估状态或动作的长期价值，包括状态价值函数V(s)和动作价值函数Q(s,a)。

二、奖励（Reward）：智能体的"评分系统"

2.1 即时奖励

2.2 累积奖励（回报）

2.3 折扣因子 γ 的影响

三、策略（Policy）：智能体的"行动指南"

四、价值函数（Value Function）：评估"这步棋值多少钱"

5.1 贝尔曼期望方程（针对 $V^\pi$）

5.2 贝尔曼期望方程（针对 $Q^\pi$）

摘要

强化学习的论文和教程里满是数学公式，看得人头大？

别怕！本文将用最通俗的大白话带你拆解强化学习的四大数学基石：

MDP：强化学习问题的"游戏规则说明书"
奖励：告诉智能体什么是好、什么是坏的"评分系统"
策略：智能体的"行动指南"
价值函数：评估"这个位置/这步棋值多少钱"

每个公式我都会先给出数学形式，然后用人话翻译，保证你看完能真正理解，而不只是会背！

一、MDP：强化学习的"游戏规则说明书"

1.1 什么是MDP？

MDP（Markov Decision Process，马尔可夫决策过程） 是描述强化学习问题的标准数学框架。

大白话：MDP就像一份详细的"游戏规则说明书"，它告诉你：

游戏里有哪些场景（状态）
你能做哪些操作（动作）
做了操作会发生什么（转移）
做得好不好怎么打分（奖励）

1.2 MDP的五元组定义

符号	名称	大白话解释
S	状态空间	游戏里所有可能的"场景"集合
A	动作空间	你能做的所有"操作"集合
P	转移概率	做了某操作后，下一步会变成什么场景的概率
R	奖励函数	每一步操作的"得分"
γ	折扣因子	未来的分数打几折？(0到1之间)

1.3 马尔可夫性质

大白话翻译：

"未来只跟现在有关，跟历史无关。"

就像下棋，只要你告诉我现在棋盘长什么样，我就能判断下一步会怎样。至于你是怎么一步步走到现在的，无所谓。

这就是"马尔可夫性"——历史已经浓缩在当前状态里了。

二、奖励（Reward）：智能体的"评分系统"

2.1 即时奖励

大白话翻译：

在状态 $s_t$ 做了动作 $a_t$ ，转移到 $s_{t+1}$ 后，你获得的即时得分就是 $r_t$ 。

举例：

吃豆人吃到豆子：r = +10
碰到鬼：r = -100
普通移动：r = -1（鼓励尽快通关）

2.2 累积奖励（回报）

🗣️ 大白话翻译：

$G_t$ 是从 t 时刻开始，一直到游戏结束，你能拿到的总得分。

但注意：未来的分数要打折！

现在拿的分是 100% 的
下一步拿的分只算γ（比如0.99）倍
再下一步只算γ^2（0.98）倍
……

为什么要打折？ 因为"现在就能拿到的钱"比"未来可能拿到的钱"更实在！

2.3 折扣因子 γ 的影响

γ值	含义	智能体表现
γ = 0	完全不考虑未来	极度短视，只看眼前利益
γ = 0.9	未来打9折	比较平衡
γ = 0.99	几乎不打折	非常有远见
γ = 1	完全不打折	极端长远（可能不收敛）

记忆口诀：γ 越大越有远见，γ 越小越短视

三、策略（Policy）：智能体的"行动指南"

3.1 策略的定义

策略就是告诉智能体"在什么状态下该做什么动作"的规则。

确定性策略

a=π(s)a = π(s)

大白话翻译：

看到状态 s，直接告诉你该做动作 a。一个萝卜一个坑，没有任何随机性。

举例：下棋软件——输入棋盘状态，输出一个确定的落子位置。

随机策略

大白话翻译：

看到状态 s，告诉你做每个动作的概率。

比如：$\pi(\text{左}|s)= 0.7$，$\pi(\text{右}|s) = 0.3$

意思是：在状态 s 下，有 70% 概率向左，30% 概率向右。

为什么需要随机？ 因为有时候"随机探索"能发现更好的策略，或者能让对手无法预测你。

3.2 策略的数学性质

对于随机策略，所有动作的概率之和必须等于1：

大白话：在任何状态下，你肯定要做"某一个"动作，所以所有动作的概率加起来必须是100%。

四、价值函数（Value Function）：评估"这步棋值多少钱"

价值函数是强化学习里最核心的概念之一！

4.1 状态价值函数 V(s)

大白话翻译：

"从状态 s 出发，按照策略 π 一直玩下去，平均能拿多少总分？"

V(s) 高 → 这个状态是个"好位置"
V(s) 低 → 这个状态是个"烂摊子"

举例：

象棋里，你车马炮俱全，对方只剩一个王，V(s) 很高
你被将军了、快输了，V(s) 很低

4.2 动作价值函数 Q(s, a)

大白话翻译：

"在状态 s 下，如果先做动作 a，然后按策略 π 一直玩下去，平均能拿多少总分？"

Q(s,a) 比 V(s) 多了一个维度——不仅告诉你这个状态好不好，还告诉你在这个状态下做哪个动作最值。

举例：

在十字路口（状态s），向左走 Q(s,左)=100，向右走 Q(s,右)=50
说明在这里，向左走更划算

4.3 V 和 Q 的关系

🗣️ 大白话翻译：

状态价值 = 各个动作价值的加权平均（权重是选择该动作的概率）

4.4 最优价值函数

🗣️ 大白话翻译：

V^*(s)：在状态 s 下，用最牛的策略能拿到的平均总分
Q^*(s,a)：在状态 s 下做动作 a，然后用最牛的策略能拿到的平均总分

五、贝尔曼方程：价值函数的"递归定义"

贝尔曼方程是强化学习的核心数学工具，几乎所有算法都建立在它之上。

5.1 贝尔曼期望方程（针对 $V^\pi$）

🗣️ 大白话翻译：

"当前状态的价值 = 这一步的奖励 + 下一状态价值的折现"

分解一下：

根据策略 π，我会以概率 π(a|s) 选择动作 a
做了动作a，立刻得到奖励R(s,a)
环境以概率 P(s'|s,a) 转移到下一状态 s'
下一状态 s' 的价值是 V^π(s')，但要打折（乘以 \gamma）
把所有可能性加权求和

5.2 贝尔曼期望方程（针对 $Q^\pi$）

🗣️ 大白话翻译：

"做动作 $a$ 的价值 = 这一步的奖励 + 到达下一状态后，继续按策略行动的价值"

5.3 贝尔曼最优方程

🗣️ 大白话翻译：

和期望方程的唯一区别：把"按策略选"换成"选最好的"！

期望方程：按策略 $\pi$ 的概率加权平均
最优方程：直接取 max，选价值最大的那个动作

5.4 贝尔曼方程的直觉图示

当前状态 s

│

│ 选择动作 a (按策略或取max)

▼

┌────┴────┐

│ 即时奖励 │ ← 这一步得到的分

│ R(s,a) │

└────┬────┘

│

┌───────────┼───────────┐

▼ ▼ ▼

s'_1 s'_2 s'_3 ← 可能转移到的下一状态

│ │ │

▼ ▼ ▼

γ·V(s'_1) γ·V(s'_2) γ·V(s'_3) ← 下一状态的价值(打折后)

│ │ │

└───────────┴───────────┘

│

▼

按概率加权求和

│

▼

V(s) 或 Q(s,a)

六、公式速查表

名称	公式	一句话解释
累积回报	$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}$	从现在到未来的总得分（未来打折）
状态价值	$V^\pi(s) = \mathbb{E}[G_t \mid s]$	从这个状态出发，平均能拿多少分
动作价值	$Q^\pi(s,a) = \mathbb{E}[G_t \mid s, a]$	在这个状态做这个动作，平均能拿多少分
V和Q的关系	$V(s) = \sum_a \pi(a\|s) Q(s,a)$	状态价值是动作价值的加权平均
最优策略	$\pi(s) = \arg\max_a Q(s,a)$	选Q值最大的动作
贝尔曼方程	$V(s) = R + \gamma \mathbb{E}[V(s')]$	当前价值 = 即时奖励 + 折扣后的未来价值

七、常见疑问解答

Q1：为什么需要折扣因子 γ

数学上：保证无限序列求和收敛
经济学上：未来的收益有不确定性，要折现
实践上：让智能体更注重近期奖励，加速学习

Q2：V 和 Q 只需要一个不就够了吗？

只有 V：知道状态好不好，但不知道该怎么选动作（除非知道环境模型）
只有 Q：直接 $\max_a Q(s,a)$ 就能选动作，无需环境模型！
所以 Q 函数在 Model-Free 算法（如DQN）中更常用

Q3：贝尔曼方程有什么用？

它是几乎所有RL算法的数学基础：

动态规划（DP）：迭代求解贝尔曼方程
Q-Learning：用贝尔曼最优方程做TD更新
Actor-Critic：用贝尔曼期望方程估计价值

八、总结

┌─────────────────────────────────────────┐

│ 强化学习数学基础 │

└───────────────────┬─────────────────────┘

│

┌───────────────────┼───────────────────┐

▼ ▼ ▼

┌─────────┐ ┌─────────┐ ┌─────────┐

│ MDP │ │ 策略 │ │ 价值函数 │

│(游戏规则)│ │(行动指南)│ │(价值评估)│

└────┬────┘ └────┬────┘ └────┬────┘

│ │ │

▼ ▼ ▼

S, A, P, R, γ π(a|s) V(s), Q(s,a)

│ │ │

└──────────────────┴──────────────────┘

│

▼

┌───────────────┐

│ 贝尔曼方程 │

│ (核心等式) │

└───────────────┘

│

▼

RL算法的数学基础

核心公式记忆口诀

回报 G："现在的分最实在，未来的分要打折"
价值 V："站在这儿往前看，平均能拿多少分"
Q 值："先走这一步，再看平均分"
贝尔曼："现在 = 眼前 + 折扣 × 未来"

💬 写在最后：数学公式看着吓人，但只要用对方法拆解，其实每个公式都在讲一个简单的道理。希望这篇文章能帮你建立对强化学习数学基础的直觉理解！

如果觉得有帮助，欢迎点赞👍收藏⭐关注🔔，下一篇我们来聊聊策略梯度的公式推导！

以上内容不代表本平台立场，仅供读者参考