强化学习数学基础:MDP、奖励、策略、价值函数——用大白话讲透每个公式

2025-12-17 11:52:43
文章摘要
本文用通俗语言解析强化学习的四大数学基础:1. MDP(马尔可夫决策过程)是描述强化学习问题的框架,包含状态、动作、转移概率和奖励;2. 奖励函数是智能体的评分系统,即时奖励和考虑未来折扣的累积奖励;3. 策略是智能体的行动指南,分为确定性策略和随机策略;4. 价值函数评估状态或动作的长期价值,包括状态价值函数V(s)和动作价值函数Q(s,a)。


目录


摘要

一、MDP:强化学习的"游戏规则说明书"

1.1 什么是MDP?

1.2 MDP的五元组定义

1.3 马尔可夫性质

二、奖励(Reward):智能体的"评分系统"

2.1 即时奖励

2.2 累积奖励(回报)

2.3 折扣因子 γ 的影响

三、策略(Policy):智能体的"行动指南"

3.1 策略的定义

确定性策略

随机策略

3.2 策略的数学性质

四、价值函数(Value Function):评估"这步棋值多少钱"

4.1 状态价值函数 V(s)

4.2 动作价值函数 Q(s, a)

4.3 V 和 Q 的关系

4.4 最优价值函数

 五、贝尔曼方程:价值函数的"递归定义"

5.1 贝尔曼期望方程(针对 $V^\pi$)

5.2 贝尔曼期望方程(针对 $Q^\pi$)

5.3 贝尔曼最优方程

5.4 贝尔曼方程的直觉图示

六、公式速查表

七、常见疑问解答

Q1:为什么需要折扣因子 γ

 Q2:V 和 Q 只需要一个不就够了吗?

Q3:贝尔曼方程有什么用?

八、总结

核心公式记忆口诀




摘要

强化学习的论文和教程里满是数学公式,看得人头大?
别怕!本文将用最通俗的大白话带你拆解强化学习的四大数学基石:
  1. MDP:强化学习问题的"游戏规则说明书"
  2. 奖励:告诉智能体什么是好、什么是坏的"评分系统"
  3. 策略:智能体的"行动指南"
  4. 价值函数:评估"这个位置/这步棋值多少钱"
每个公式我都会先给出数学形式,然后用人话翻译,保证你看完能真正理解,而不只是会背!

一、MDP:强化学习的"游戏规则说明书"

1.1 什么是MDP?

MDP(Markov Decision Process,马尔可夫决策过程) 是描述强化学习问题的标准数学框架。

大白话:MDP就像一份详细的"游戏规则说明书",它告诉你:
  1. 游戏里有哪些场景(状态)
  2. 你能做哪些操作(动作)
  3. 做了操作会发生什么(转移)
  4. 做得好不好怎么打分(奖励)

1.2 MDP的五元组定义

符号

名称

大白话解释

S

状态空间

游戏里所有可能的"场景"集合

A

动作空间

你能做的所有"操作"集合

P

转移概率

做了某操作后,下一步会变成什么场景的概率

R

奖励函数

每一步操作的"得分"

γ

折扣因子

未来的分数打几折?(0到1之间)

1.3 马尔可夫性质

大白话翻译
"未来只跟现在有关,跟历史无关。"
就像下棋,只要你告诉我现在棋盘长什么样,我就能判断下一步会怎样。至于你是怎么一步步走到现在的,无所谓。
这就是"马尔可夫性"——历史已经浓缩在当前状态里了

二、奖励(Reward):智能体的"评分系统"

2.1 即时奖励

大白话翻译
在状态 s_t 做了动作 a_t,转移到 s_{t+1} 后,你获得的即时得分就是 r_t
举例
  1. 吃豆人吃到豆子:r = +10
  2. 碰到鬼:r = -100
  3. 普通移动:r = -1(鼓励尽快通关)

2.2 累积奖励(回报)

🗣️ 大白话翻译
G_t是从 t 时刻开始,一直到游戏结束,你能拿到的总得分
但注意:未来的分数要打折
  1. 现在拿的分是 100% 的
  2. 下一步拿的分只算γ(比如0.99)倍
  3. 再下一步只算γ^2(0.98)倍
  4. ……
为什么要打折? 因为"现在就能拿到的钱"比"未来可能拿到的钱"更实在!

2.3 折扣因子 γ 的影响

γ值

含义

智能体表现

γ = 0

完全不考虑未来

极度短视,只看眼前利益

γ = 0.9

未来打9折

比较平衡

γ = 0.99

几乎不打折

非常有远见

γ = 1

完全不打折

极端长远(可能不收敛)

记忆口诀:γ 越大越有远见,γ 越小越短视

三、策略(Policy):智能体的"行动指南"

3.1 策略的定义

策略就是告诉智能体"在什么状态下该做什么动作"的规则。

确定性策略

a=π(s)a = π(s)

大白话翻译
看到状态 s,直接告诉你该做动作 a。一个萝卜一个坑,没有任何随机性。
举例:下棋软件——输入棋盘状态,输出一个确定的落子位置。

随机策略

 大白话翻译
看到状态 s,告诉你做每个动作的概率
比如:$\pi(\text{左}|s)= 0.7$,$\pi(\text{右}|s) = 0.3$
意思是:在状态 s 下,有 70% 概率向左,30% 概率向右。
为什么需要随机? 因为有时候"随机探索"能发现更好的策略,或者能让对手无法预测你。

3.2 策略的数学性质

对于随机策略,所有动作的概率之和必须等于1:

大白话:在任何状态下,你肯定要做"某一个"动作,所以所有动作的概率加起来必须是100%。

四、价值函数(Value Function):评估"这步棋值多少钱"

价值函数是强化学习里最核心的概念之一!

4.1 状态价值函数 V(s)

大白话翻译
"从状态 s 出发,按照策略 π 一直玩下去,平均能拿多少总分?"
  1. V(s) 高 → 这个状态是个"好位置"
  2. V(s) 低 → 这个状态是个"烂摊子"
举例
  1. 象棋里,你车马炮俱全,对方只剩一个王,V(s) 很高
  2. 你被将军了、快输了,V(s) 很低

4.2 动作价值函数 Q(s, a)

z

大白话翻译
"在状态 s 下,如果先做动作 a,然后按策略 π 一直玩下去,平均能拿多少总分?"
Q(s,a) 比 V(s) 多了一个维度——不仅告诉你这个状态好不好,还告诉你在这个状态下做哪个动作最值
举例
  1. 在十字路口(状态s),向左走 Q(s,左)=100,向右走 Q(s,右)=50
  2. 说明在这里,向左走更划算

4.3 V 和 Q 的关系

🗣️ 大白话翻译
状态价值 = 各个动作价值的加权平均(权重是选择该动作的概率)

4.4 最优价值函数


🗣️ 大白话翻译
  1. V^*(s):在状态 s 下,用最牛的策略能拿到的平均总分
  2. Q^*(s,a):在状态 s 下做动作 a,然后用最牛的策略能拿到的平均总分

 五、贝尔曼方程:价值函数的"递归定义"

贝尔曼方程是强化学习的核心数学工具,几乎所有算法都建立在它之上。

5.1 贝尔曼期望方程(针对 $V^\pi$)

🗣️ 大白话翻译
"当前状态的价值 = 这一步的奖励 + 下一状态价值的折现"
分解一下:
  1. 根据策略 π,我会以概率 π(a|s) 选择动作 a
  2. 做了动作a,立刻得到奖励R(s,a)
  3. 环境以概率 P(s'|s,a) 转移到下一状态 s'
  4. 下一状态 s' 的价值是 V^π(s'),但要打折(乘以 \gamma)
  5. 把所有可能性加权求和

5.2 贝尔曼期望方程(针对 $Q^\pi$)

🗣️ 大白话翻译
"做动作 $a$ 的价值 = 这一步的奖励 + 到达下一状态后,继续按策略行动的价值"

5.3 贝尔曼最优方程

🗣️ 大白话翻译
和期望方程的唯一区别:把"按策略选"换成"选最好的"!
  1. 期望方程:按策略 $\pi$ 的概率加权平均
  2. 最优方程:直接取 max,选价值最大的那个动作

5.4 贝尔曼方程的直觉图示

                    当前状态 s
                        │
                        │ 选择动作 a (按策略或取max)
                        ▼
                   ┌────┴────┐
                   │ 即时奖励 │ ← 这一步得到的分
                   │ R(s,a) │
                   └────┬────┘
                        │
            ┌───────────┼───────────┐
            ▼ ▼ ▼
          s'_1 s'_2 s'_3 ← 可能转移到的下一状态
            │ │ │
            ▼ ▼ ▼
      γ·V(s'_1) γ·V(s'_2) γ·V(s'_3) ← 下一状态的价值(打折后)
            │ │ │
            └───────────┴───────────┘
                        │
                        ▼
                  按概率加权求和
                        │
                        ▼
                  V(s) 或 Q(s,a)



六、公式速查表

名称

公式

一句话解释

累积回报

G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}

从现在到未来的总得分(未来打折)

状态价值

V^\pi(s) = \mathbb{E}[G_t \mid s]

从这个状态出发,平均能拿多少分

动作价值

Q^\pi(s,a) = \mathbb{E}[G_t \mid s, a]

在这个状态做这个动作,平均能拿多少分

V和Q的关系

V(s) = \sum_a \pi(a|s) Q(s,a)

状态价值是动作价值的加权平均

最优策略

\pi(s) = \arg\max_a Q(s,a)

选Q值最大的动作

贝尔曼方程

V(s) = R + \gamma \mathbb{E}[V(s')]

当前价值 = 即时奖励 + 折扣后的未来价值



七、常见疑问解答

Q1:为什么需要折扣因子 γ

  1. 数学上:保证无限序列求和收敛
  2. 经济学上:未来的收益有不确定性,要折现
  3. 实践上:让智能体更注重近期奖励,加速学习

 Q2:V 和 Q 只需要一个不就够了吗?

  1. 只有 V:知道状态好不好,但不知道该怎么选动作(除非知道环境模型)
  2. 只有 Q:直接 $\max_a Q(s,a)$ 就能选动作,无需环境模型!
  3. 所以 Q 函数在 Model-Free 算法(如DQN)中更常用

Q3:贝尔曼方程有什么用?

它是几乎所有RL算法的数学基础
  1. 动态规划(DP):迭代求解贝尔曼方程
  2. Q-Learning:用贝尔曼最优方程做TD更新
  3. Actor-Critic:用贝尔曼期望方程估计价值

八、总结

         ┌─────────────────────────────────────────┐
         │ 强化学习数学基础 │
         └───────────────────┬─────────────────────┘
                             │
         ┌───────────────────┼───────────────────┐
         ▼ ▼ ▼
    ┌─────────┐ ┌─────────┐ ┌─────────┐
    │ MDP │ │ 策略 │ │ 价值函数 │
    │(游戏规则)│ │(行动指南)│ │(价值评估)│
    └────┬────┘ └────┬────┘ └────┬────┘
         │ │ │
         ▼ ▼ ▼
    S, A, P, R, γ π(a|s) V(s), Q(s,a)
         │ │ │
         └──────────────────┴──────────────────┘
                            │
                            ▼
                    ┌───────────────┐
                    │ 贝尔曼方程 │
                    │ (核心等式) │
                    └───────────────┘
                            │
                            ▼
                    RL算法的数学基础


核心公式记忆口诀

  1. 回报 G:"现在的分最实在,未来的分要打折"
  2. 价值 V:"站在这儿往前看,平均能拿多少分"
  3. Q 值:"先走这一步,再看平均分"
  4. 贝尔曼:"现在 = 眼前 + 折扣 × 未来"

💬 写在最后:数学公式看着吓人,但只要用对方法拆解,其实每个公式都在讲一个简单的道理。希望这篇文章能帮你建立对强化学习数学基础的直觉理解!
如果觉得有帮助,欢迎点赞👍收藏⭐关注🔔,下一篇我们来聊聊策略梯度的公式推导!

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
强化学习(RL)