CS285 - Deep RL Overview
课程信息
- 课程:CS285 (Deep Reinforcement Learning)
- 主题:Deep RL Overview
- 状态:已完成第一版
1. 核心问题
在未知或高维环境中,智能体如何通过交互学习策略 $\pi(a|s)$,最大化长期回报。
2. 基本要素
- 状态 $s$
- 动作 $a$
- 奖励 $r$
- 策略 $\pi$
- 轨迹 $\tau = (s_0,a_0,r_0,…)$
目标:
3. CS285 的典型路线
- Imitation Learning(先从专家数据学)
- Policy Gradient(直接优化策略)
- Actor-Critic(方差更稳)
- Model-Based RL(学习环境模型提效)
- Offline RL(只用离线数据训练)
4. 为什么要 Deep RL
经典 RL 在低维离散状态更容易;现实任务通常是高维连续空间(图像、机械臂、控制问题),需要深度网络做函数逼近。
5. 易错点
- 只关注单次奖励,忽略累计回报。
- 训练不稳定时只调学习率,不看 reward scale 与探索策略。
- 忽略数据分布漂移(尤其是 offline RL)。
6. 我的理解
CS285 更偏“工程+研究”:
- 同样一个想法,训练技巧不同,效果会有巨大差异。
- 需要同时关注理论目标、实现细节和实验稳定性。
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.