一文读懂强化学习!
创始人
2025-06-01 02:52:17

一.了解强化学习

1.1基本概念

强化学习是考虑智能体(Agent)与环境(Environment)的交互问题:智能体处在一个环境中,每个状态为智能体对当前环境的感知;智能体只能通过动作来影响环境,当智能体执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给智能体一个奖赏。

举个例子:

智能体

机器人

环境

4*3的方格

状态

当前所在位置(初始位置为[1,1])

策略

在当前状态下,我向上走的概率为0.8,向左向右分别是0.1

行为(动作)

向上走一步

奖励

走到绿色方格奖励10,走到红色方格奖励-10,其他方格奖励-1

状态转移概率

采取向上走一步,实际上有0.9的概率到达上面一格,有0.1概率到达右边一格


  • 回报:定义当前时刻后的累积奖赏为回报(Return)

在上述场景下,回报是指机器人从当前位置走到终点(红色或者绿色方格)的奖励之和

针对一些自然场景(比如无人驾驶),到达终端状态的时间很长或者不存在终端状态,提出了折扣因子的概念,γ<1

  • 状态价值函数:智能体处于不同状态时的价值,即在状态s下的期望回报

针对上述场景:机器人处于每个状态下的不同价值,可以看到,当机器人越靠近绿色方格时,机器人的状态价值越大。(状态价值的具体计算方法后面会详细介绍,这里的具体数据无实际意义,仅仅用来参考)

  • 动作价值函数:在当前状态下,执行动作a获得的期望回报

以上图为例,在经过求解动作价值函数以后(假设已经完成了求解),在[1,1]状态,

那么选取向上的行为会比采取向右的行为更有价值。


Q:为什么要引入状态价值函数或者动作价值函数呢?

A:强化学习最根本的目的是为了求策略,但是我们并不知道那个策略是最优,因此需要引入评价函数(状态价值函数或者动作价值函数)来给当前状态(策略)进行打分,然后得到最优策略


下面会详细介绍不同的强化学习方法,但是基本思路都是相似的,求解最优值函数,或者求解最优策略。

二.基于模型的强化学习-Model-base

2.1动态规划方法

  • 马尔可夫性:系统的下一个状态仅与当前状态有关,而与历史状态无关。

在1.1节的状态价值函数和动作价值函数的推导过程已经用到了马尔可夫性

  • 贝尔曼方程:

考虑γ=1,当前时刻的状态价值函数=当前状态的奖励+到达下一状态的价值的期望。

在状态有限的情况下,本质上是解一个方程组,因此贝尔曼方程叫做贝尔曼方程组更加合理!


举例:考虑如下情况,有四个状态,箭头表示状态转移概率

可以列方程组:

例:

可表示为:

因此就求出了每个状态的价值:

有了状态价值,没有策略怎么办?

得到了每个状态的价值,在当前状态(位置)下,你会怎么走呢?按照常规逻辑,朝着价值大的位置走,对,这就是通过状态价值函数得到了策略

这就是本文的第一个强化学习模型,如果你能够理解上述过程,恭喜你,强化学习已经入门了一丢丢!


上述案例中,状态转移函数以及每个状态的奖励是已知的,也就是模型已知(Model-base),在模型已知的情况下,仅仅通过数学推导就可以完成状态价值函数的求解!而不需要智能体去真实的环境中采取数据!

在现实场景中,模型已知对系统要求过高,通常无法实现,而是通过智能体与环境交互,获得每个状态下的奖励(数据),利用采集的数据+强化学习方法,来更新价值函数或者策略函数。

三.无模型强化学习-Model-free

3.1蒙特卡洛方法

在无模型时,采用随机采样的经验平均来估计期望值,此即蒙特卡罗法。其过程可以总结如下:

  • 智能体与环境交互后得到交互序列

  • 通过序列计算出各个时刻的奖赏值

  • 将奖赏值累积到值函数中进行更新

  • 根据更新的值函数来更新策略

举例:仍然以此模型,机器人并不提前知道每个状态的奖励以及状态转移函数,初始给定一个策略以后,让机器人在里面随便跑,到达红色或者绿色的时候停止,收集每个过程的奖励,来更新状态价值函数

G表示从当前状态下出发,到达终点时的奖励,N表示这个过程进行了N次

也可以采用迭代的方法求均值,如下更新策略,本质上和上述过程是一样的。

总结:动态规划与蒙特卡洛的区别:动态规划是有模型的强化学习方法,并不需要智能体与环境进行作用,而蒙特卡洛方法无模型,通过智能体在环境中收集数据进行学习

  • 动态规划:

  • 蒙特卡洛:

3.2时序差分方法

蒙特卡洛方法需要获取完整的轨迹,效率较低,时序差分法结合了动态规划和蒙特卡罗,即模拟一段轨迹(一步或者几步),然后利用贝尔曼方程进行自迭代更新,如下图所示:

举个例子,假设γ=1,假如你想获取北京到上海的距离V(St),你从北京开车到了天津测量距离为Rt+1=100,并且知道天津到上海的距离为V(St+1)=700,那么你就获取了北京到上海的距离800。

如果你本来就有北京到上海的距离V(St)=790,那么采用上述方法就舍弃了原来的数据,显得过于激进,因此可以采用如下更新方法:

zh

相关内容

热门资讯

16K纸有多大比A4的大还是小... 今天给各位分享16K纸有多大比A4的大还是小的知识,其中也会对16k的纸是a4纸的一半吗进行解释,如...
许昌新车上牌地址(许昌新车上牌... 今天给各位分享许昌新车上牌地址的知识,其中也会对许昌新车上牌地址查询进行解释,如果能碰巧解决你现在面...
八大艺术有哪些,艺术的八大类分... 八大艺术有哪些目录八大艺术有哪些艺术的八大类分别是什么世界公认的七大艺术是什么?什么被称八大艺术八大...
离我最近的北京现代4s店(离我... 本篇文章极速百科给大家谈谈离我最近的北京现代4s店,以及离我最近的北京现代4s店保养车对应的知识点,...
导轨油和机油的区别?(导轨油和... 今天给各位分享导轨油和机油的区别?的知识,其中也会对导轨油和机油的区别是什么进行解释,如果能碰巧解决...
免检卡板有什么好的,与熏蒸卡板... 本篇文章极速百科给大家谈谈免检卡板有什么好的,与熏蒸卡板有什么区别呢?,以及免检卡板图片对应的知识点...
东风雪铁龙c3xr怎么样(20... 本篇文章极速百科给大家谈谈东风雪铁龙c3xr怎么样,以及2021款东风雪铁龙c3xr对应的知识点,希...
圣诞节的意义(圣诞节的意义讲章... 本篇文章极速百科给大家谈谈圣诞节的意义,以及圣诞节的意义讲章对应的知识点,希望对各位有所帮助,不要忘...
c中getchar表示什么,g... c中getchar表示什么目录c中getchar表示什么getchar在c是什么意思getchar在...
军考网上哪里报名,直招军官的招... 军考网上哪里报名目录军考网上哪里报名直招军官的招录程序是什么?怎样在网上报名考兵2020军校报名时间...
微信红包祝福语8字,发红包祝福... 微信红包祝福语8字目录微信红包祝福语8字发红包祝福语八个字过年红包祝福语微信红包祝福语8字 微信红包...
王字的三横一竖是什么意思,三横... 王字的三横一竖是什么意思目录王字的三横一竖是什么意思三横一竖是什么字?王字的含义是?王的含义是什么王...
精英危险在哪买,精英危险怎么买... 精英危险在哪买目录精英危险在哪买精英危险怎么买船精英危险如何挖矿2022年精英危险值得购买吗精英危险...
尼桑两厢车有哪几款(尼桑两厢车... 本篇文章极速百科给大家谈谈尼桑两厢车有哪几款,以及尼桑两厢车有哪几款红色对应的知识点,希望对各位有所...
端午风俗有哪些传统,端午节有哪... 端午风俗有哪些传统目录端午风俗有哪些传统端午节有哪些习俗?有哪些寓意?端午节的习俗有哪些?端午节的风...
世界十大凶猛龟是哪些,十大凶猛... 世界十大凶猛龟是哪些目录世界十大凶猛龟是哪些十大凶猛龟排名是怎样的?最凶猛的乌龟有哪几种,最猛的三种...
简短情话8个字,很甜很撩的句子... 简短情话8个字目录简短情话8个字很甜很撩的句子八个字 又甜又撩的短句八个字8字爱情名言佳句用八个字形...
高考数学满分多少,高考数学总分... 高考数学满分多少目录高考数学满分多少高考数学总分多少分满分高中考试各科分数是多少?高考数学满分是多少...
吃鸡攻略和技巧手游,手游吃鸡怎... 吃鸡攻略和技巧手游目录吃鸡攻略和技巧手游手游吃鸡怎么练技术绝地求生大逃杀怎么玩 绝地求生各系统玩法技...
开了5年的帝豪后,我换成了奥迪... 今天给各位分享开了5年的帝豪后,我换成了奥迪A4L的知识,其中也会对进行解释,如果能碰巧解决你现在面...
ecco什么牌子,ecco什么... ecco什么牌子目录ecco什么牌子ecco什么牌子 ecco是哪个国家的品牌eoco是什么牌子ec...
汽车内外饰设计-仪表板设计构想... 今天给各位分享汽车内外饰设计-仪表板设计构想-连载05的知识,其中也会对仪表盘内饰进行解释,如果能碰...
酱油生抽老抽有什么区别,生抽老... 酱油生抽老抽有什么区别目录酱油生抽老抽有什么区别生抽老抽酱油有啥区别酱油、生抽、老抽有什么不同?老抽...
北京车牌外地违章怎么处理(北京... 本篇文章极速百科给大家谈谈北京车牌外地违章怎么处理,以及北京牌外地违章本地能处理吗对应的知识点,希望...
13寸电脑尺寸是多少厘米,13... 13寸电脑尺寸是多少厘米目录13寸电脑尺寸是多少厘米13英寸等于多少厘米13寸大概有多大?13.3寸...
管理员的英文缩写是什么,管理员... 管理员的英文缩写是什么目录管理员的英文缩写是什么管理员英文怎么写admn具体指的是什么?管理员的英文...
为什么喊张艺兴孙艺兴,张艺兴为... 为什么喊张艺兴孙艺兴目录为什么喊张艺兴孙艺兴张艺兴为什么叫孙兴?,孙艺兴和张艺兴是同一个人吗为什么喊...
肉沫土豆泥的做法,土豆泥怎么做... 肉沫土豆泥的做法目录肉沫土豆泥的做法土豆泥怎么做?土豆泥怎么做好吃,肉末土豆泥的家常做法土豆打成泥怎...
洛阳市区有哪些大学,洛阳有几所... 洛阳市区有哪些大学目录洛阳市区有哪些大学洛阳有几所大学求洛阳各大高校地址洛阳的大学有哪些洛阳市区有哪...
霎时间的近义词是什么,“ 霎时... 霎时间的近义词是什么目录霎时间的近义词是什么“ 霎时间 ”的近义词与“霎时间”意思相近的词有什么?霎...