RL强化学习概念
方法汇总
价值-直接-想象
通过价值选择行为:
- Q Learning
- Sarsa
- Deep Q Network
直接选择行为:
- Policy Gradients
想象环境并从中学习
- Model Based RL
基于模型
-
Model-Free RL(无模型)不需要去理解环境的含义
- Q Learning
- Sarsa
- Policy Gradients
-
Model-Based RL(有环境)需要去理解环境的含义,在"脑子"中模拟虚拟环境
- Q Learning
- Sarsa
- Policy Gradient
前者需要一步一步得到环境的反馈后才能进行下一步;而后者通过想象来预判断接下来会发生的情况。
基于概率-价值
基于概率(Policy Based RL):
- Policy Gradients
即使是概率最高的也不一定能被选择到,因此基于价值的结果更为铁定
基于价值(Value Based RL):
- Q Learning
- Sarsa
不能用于连续动作,但基于概率能使用概率分布在连续动作中选择一个动作
两者的统一体:Actor-Critic
回合-单步
回合更新(Monte-Carlo update)
- 基础版Policy Gradients
- Monte-Carlo Learning
在整个回合结束后再学习转折点
单步更新(Temporal-Difference update)
- Q Learning
- Sarsa
- 升级版Policy Gradients
不需要等待回合结束,边玩边学习
更多的情况下单步更新效率更高,但围棋游戏一般采用的都是回合更新
在线-离线
在线学习(online )
本人在场,本人边玩边学习。
- Sarsa
- Sarsa()
离散学习(offline)
可以选择自己玩或者看别人玩。可以从保存的结果中学习
- Q Learning
- Deep Q Network
onPolicy-offPolicy
on-policy
Agent必然执行使Q函数最大的动作MAX_ACTION
- Sarsa
off-plicy
Agent实际不一定执行使Q函数最大的动作MAX_ACTION
- Q Learning
Author: Mrli
Link: https://nymrli.top/2019/09/09/RL强化学习概念/
Copyright: All articles in this blog are licensed under CC BY-NC-SA 3.0 unless stating additionally.