RL强化学习概念

方法汇总

通过价值选择行为：

直接选择行为：

想象环境并从中学习

Model-Free RL（无模型）不需要去理解环境的含义
- Q Learning
- Sarsa
- Policy Gradients
Model-Based RL（有环境）需要去理解环境的含义，在"脑子"中模拟虚拟环境
- Q Learning
- Sarsa
- Policy Gradient
前者需要一步一步得到环境的反馈后才能进行下一步；而后者通过想象来预判断接下来会发生的情况。

基于概率（Policy Based RL）：

即使是概率最高的也不一定能被选择到，因此基于价值的结果更为铁定

基于价值（Value Based RL）：

不能用于连续动作，但基于概率能使用概率分布在连续动作中选择一个动作

两者的统一体：Actor-Critic

回合更新（Monte-Carlo update）

在整个回合结束后再学习转折点

单步更新（Temporal-Difference update）

不需要等待回合结束，边玩边学习

更多的情况下单步更新效率更高，但围棋游戏一般采用的都是回合更新

setp

在线学习（online ）

本人在场，本人边玩边学习。

离散学习（offline）

可以选择自己玩或者看别人玩。可以从保存的结果中学习

on-policy

Agent必然执行使Q函数最大的动作MAX_ACTION

off-plicy

Agent实际不一定执行使Q函数最大的动作MAX_ACTION