Mrli
别装作很努力,
因为结局不会陪你演戏。
Contacts:
QQ博客园

RL强化学习概念

2019/09/15 RL
Word count: 435 | Reading time: 2min

RL强化学习概念

方法汇总

价值-直接-想象

通过价值选择行为:

  • Q Learning
  • Sarsa
  • Deep Q Network

直接选择行为:

  • Policy Gradients

想象环境并从中学习

  • Model Based RL

基于模型

  • Model-Free RL(无模型)不需要去理解环境的含义

    • Q Learning
    • Sarsa
    • Policy Gradients
  • Model-Based RL(有环境)需要去理解环境的含义,在"脑子"中模拟虚拟环境

    • Q Learning
    • Sarsa
    • Policy Gradient

    前者需要一步一步得到环境的反馈后才能进行下一步;而后者通过想象来预判断接下来会发生的情况。

    20190831224947

基于概率-价值

基于概率(Policy Based RL):

  • Policy Gradients

即使是概率最高的也不一定能被选择到,因此基于价值的结果更为铁定

基于价值(Value Based RL):

  • Q Learning
  • Sarsa

不能用于连续动作,但基于概率能使用概率分布在连续动作中选择一个动作

两者的统一体:Actor-Critic

回合-单步

回合更新(Monte-Carlo update)

  • 基础版Policy Gradients
  • Monte-Carlo Learning

在整个回合结束后再学习转折点

单步更新(Temporal-Difference update)

  • Q Learning
  • Sarsa
  • 升级版Policy Gradients

不需要等待回合结束,边玩边学习

更多的情况下单步更新效率更高,但围棋游戏一般采用的都是回合更新

setp

在线-离线

在线学习(online )

本人在场,本人边玩边学习。

  • Sarsa
  • Sarsa(/lambda/lambda)

离散学习(offline)

可以选择自己玩或者看别人玩。可以从保存的结果中学习

  • Q Learning
  • Deep Q Network

onPolicy-offPolicy

on-policy

Agent必然执行使Q函数最大的动作MAX_ACTION

  • Sarsa

off-plicy

Agent实际不一定执行使Q函数最大的动作MAX_ACTION

  • Q Learning

Author: Mrli

Link: https://nymrli.top/2019/09/09/RL强化学习概念/

Copyright: All articles in this blog are licensed under CC BY-NC-SA 3.0 unless stating additionally.

< PreviousPost
CDN加速个人博客——又拍云
NextPost >
强化学习——QLearning
CATALOG
  1. 1. RL强化学习概念
    1. 1.1. 方法汇总
      1. 1.1.1. 价值-直接-想象
      2. 1.1.2. 基于模型
      3. 1.1.3. 基于概率-价值
      4. 1.1.4. 回合-单步
      5. 1.1.5. 在线-离线
      6. 1.1.6. onPolicy-offPolicy