强化学习基础概念
一、马尔可夫决策过程
马尔可夫决策过程是对强化学习进行建模的典型方法其中包含几个子概念,我们以超级玛丽游戏为例来具体的理解这些概念
- 智能体:做出动作或决策的对象 —— 马里奥
- 环境:智能体交互的对象 —— 游戏程序
- 状态:对当前时刻环境的概括 —— 屏幕的当前画面
- 状态空间:所有可能存在的状态的集合——游戏中的状态空间是个无限集合
- 动作:智能体基于当前状态做出的决策 ——向左走、向右走、向上跳
- 动作空间:所有可能的动作集合 ——「向左走、向右走、向上跳」
- 奖励:执行一个动作后,环境返回给智能体的一个数值(通常由我们自己定义)
在这些基本概念之上,我们可以定义一些衍生概念:
1、奖励函数:假设当前状态为 ,采取的动作为 ,下一个状态为 ,那么奖励函数可以记为: ,有时奖励函数只与当前状态和采取的动作有关,也可以记为
2、状态概率转移函数:
其中状态 是环境用某个函数 计算出来的,有可能是一个确定函数
二、策略
策略即:根据当前状态,如何选择采取的动作,可以写为
综合一、二来看,智能体以策略选择动作,环境给智能体以反馈,整体流程如下:

整个过程的 随机性 来源于两方面:
- 随机的策略选择——基于同样的状态,可能选择不同的动作
- 随机的状态转移——即使当前状态和采取的动作已经确定,下一步转移到的状态仍然是随机的(这是因为环境存在随机性)
三、回报
我们该如何衡量一个动作好不好?也就是在超级玛丽游戏中,我们该如何知道我们执行的动作是不是符合我们期望的?这取决于环境给我们的回报。
由于立即的回报和未来产生的回报存在不同,所以我们会给未来的回报增加一个折扣系数
由于回报依赖于状态和动作,因而回报也是具有随机性的
特别地,对于无限期MDP而言,使用 会导致无穷级数不收敛,而若回报函数有界,那么当 ,回报函数一定收敛
四、价值函数
有了回报之后,我们可以更精准地定义一个状态的好坏、一个动作的好坏。
具体包括:
- 动作价值函数
- 最优动作价值函数
- 状态价值函数
1、动作价值函数
对于当前确定的状态 和动作 ,对于回报函数来说,未来的状态 以及动作 都是随机变量,因此动作价值函数的定义为:
因此,动作的好坏取决于三个因素: 当前状态、当前动作、策略函数
2、最优动作价值函数
怎样才能排除策略的影响,而仅评估动作的价值呢?
3、状态价值函数
我们还想要评估当前状态的好坏,比如下棋比赛中当前我方是否优势等,我们需要定义状态价值函数:
也就是
排除了动作的影响