课程信息

  • 课程:CS285 (Deep Reinforcement Learning)
  • 主题:Deep RL Overview
  • 状态:已完成第一版

1. 核心问题

在未知或高维环境中,智能体如何通过交互学习策略 $\pi(a|s)$,最大化长期回报。

2. 基本要素

  • 状态 $s$
  • 动作 $a$
  • 奖励 $r$
  • 策略 $\pi$
  • 轨迹 $\tau = (s_0,a_0,r_0,…)$

目标:

3. CS285 的典型路线

  1. Imitation Learning(先从专家数据学)
  2. Policy Gradient(直接优化策略)
  3. Actor-Critic(方差更稳)
  4. Model-Based RL(学习环境模型提效)
  5. Offline RL(只用离线数据训练)

4. 为什么要 Deep RL

经典 RL 在低维离散状态更容易;现实任务通常是高维连续空间(图像、机械臂、控制问题),需要深度网络做函数逼近。

5. 易错点

  • 只关注单次奖励,忽略累计回报。
  • 训练不稳定时只调学习率,不看 reward scale 与探索策略。
  • 忽略数据分布漂移(尤其是 offline RL)。

6. 我的理解

CS285 更偏“工程+研究”:

  • 同样一个想法,训练技巧不同,效果会有巨大差异。
  • 需要同时关注理论目标、实现细节和实验稳定性。