CS285 - Deep RL Overview

Created2026-03-13|Updated2026-03-13|AI

|Post Views:

课程信息

课程：CS285 (Deep Reinforcement Learning)
主题：Deep RL Overview
状态：已完成第一版

1. 核心问题

在未知或高维环境中，智能体如何通过交互学习策略 $\pi(a|s)$，最大化长期回报。

2. 基本要素

状态 $s$
动作 $a$
奖励 $r$
策略 $\pi$
轨迹 $\tau = (s_0,a_0,r_0,…)$

目标：

$J(\pi) = \mathbb{E}_{\tau \sim \pi}\left[\sum_{t=0}^{T} \gamma^t r_t\right]$

3. CS285 的典型路线

Imitation Learning（先从专家数据学）
Policy Gradient（直接优化策略）
Actor-Critic（方差更稳）
Model-Based RL（学习环境模型提效）
Offline RL（只用离线数据训练）

4. 为什么要 Deep RL

经典 RL 在低维离散状态更容易；现实任务通常是高维连续空间（图像、机械臂、控制问题），需要深度网络做函数逼近。

5. 易错点

只关注单次奖励，忽略累计回报。
训练不稳定时只调学习率，不看 reward scale 与探索策略。
忽略数据分布漂移（尤其是 offline RL）。

6. 我的理解

CS285 更偏“工程+研究”：

同样一个想法，训练技巧不同，效果会有巨大差异。
需要同时关注理论目标、实现细节和实验稳定性。

Author: Ziqi Huang

Link: https://wardell-h.github.io/ai/cs285/01-deep-rl-overview/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

CS285 Deep RL Policy Gradient