AI Notes
AI Notes
这个页面作为 AI 学习总入口,统一收纳课程笔记、概念整理和零散博客。
学习地图
课程主线
CS188:强化学习 / 搜索 / 概率推断 / 决策CS229:机器学习基础 / 生成判别模型 / 优化 / 泛化CS285:深度强化学习 / Policy Gradient / Actor-Critic / Model-Based RL
主题主线
- 机器学习基础
- 强化学习基础
- 大模型基础概念
- Transformer / Attention / Tokenizer / Embedding
- 训练范式:Pretrain / SFT / RLHF / DPO
- 推理部署:KV Cache / Quantization / RAG / Agent
一、课程笔记总览
| 模块 | 内容 | 状态 | 入口 | 备注 |
|---|---|---|---|---|
| CS188 | Berkeley AI 导论 | 待开始 | 见下方 | 搜索、博弈、MDP、RL |
| CS229 | Stanford 机器学习 | 待开始 | 见下方 | 数学基础和经典 ML |
| CS285 | Berkeley Deep RL | 待开始 | 见下方 | 深度强化学习主线 |
二、CS188 笔记框架
建议栏目
| 序号 | 主题 | 状态 | 笔记链接 | 备注 |
|---|---|---|---|---|
| 1 | Course Overview | 已写 | 查看 | 课程结构总览 |
| 2 | Search Problems | 待写 | DFS / BFS / UCS / A* | |
| 3 | Adversarial Search | 待写 | Minimax / Alpha-Beta | |
| 4 | CSP | 待写 | 回溯、剪枝、启发式 | |
| 5 | Probability | 待写 | Bayes Net / HMM | |
| 6 | Inference | 待写 | Variable Elimination / Sampling | |
| 7 | MDP | 待写 | Bellman Equation | |
| 8 | Reinforcement Learning | 待写 | Value Iteration / Q-Learning |
推荐写法
每篇 CS188 笔记可以按下面结构写:
1 | ## 主题名 |
三、CS229 笔记框架
建议栏目
| 序号 | 主题 | 状态 | 笔记链接 | 备注 |
|---|---|---|---|---|
| 1 | Supervised Learning | 已写 | 查看 | 回归与分类 |
| 2 | Linear Regression | 待写 | 损失函数、梯度下降 | |
| 3 | Logistic Regression | 待写 | Sigmoid、MLE | |
| 4 | GDA / Naive Bayes | 待写 | 生成模型 | |
| 5 | SVM | 待写 | 最大间隔分类 | |
| 6 | Neural Networks | 待写 | 反向传播 | |
| 7 | Bias & Variance | 待写 | 过拟合与泛化 | |
| 8 | Regularization | 待写 | L1 / L2 | |
| 9 | Unsupervised Learning | 待写 | K-Means / PCA |
推荐写法
每篇 CS229 笔记建议突出:
- 问题定义
- 概率视角
- 优化目标
- 推导过程
- 几何意义
- 与其他模型的对比
四、CS285 笔记框架
建议栏目
| 序号 | 主题 | 状态 | 笔记链接 | 备注 |
|---|---|---|---|---|
| 1 | Deep RL Overview | 已写 | 查看 | 课程总览 |
| 2 | Imitation Learning | 待写 | BC / DAgger | |
| 3 | Policy Gradient | 待写 | REINFORCE | |
| 4 | Actor-Critic | 待写 | Advantage / Baseline | |
| 5 | DQN 系列 | 待写 | Q-learning with NN | |
| 6 | Model-Based RL | 待写 | Dynamics Model | |
| 7 | Exploration | 待写 | 探索与利用 | |
| 8 | Offline RL | 待写 | 数据分布偏移 |
推荐写法
CS285 更适合写成“问题 - 方法 - 公式 - 实验现象 - 直觉理解”五段式。
五、大模型基础概念
这个区域适合放你说的“比较分散的 blog”。建议不要硬按课程拆,而是按概念聚类。
| 模块 | 主题 | 状态 | 文章链接 | 备注 |
|---|---|---|---|---|
| LLM Basics | Transformer 是什么 | 已写 | 查看 | 总入口 |
| LLM Basics | Token / Tokenization | 待写 | BPE / SentencePiece | |
| LLM Basics | Embedding | 待写 | token embedding / positional embedding | |
| LLM Basics | Self-Attention | 待写 | QKV / scaled dot-product | |
| LLM Basics | Multi-Head Attention | 待写 | 多头意义 | |
| LLM Basics | Positional Encoding | 待写 | 绝对位置 / RoPE | |
| LLM Basics | FFN / Residual / LayerNorm | 待写 | block 结构 | |
| Training | Pretraining | 待写 | next token prediction | |
| Training | SFT | 待写 | 指令微调 | |
| Training | RLHF / DPO | 待写 | 对齐路线 | |
| Inference | KV Cache | 待写 | 推理加速 | |
| Inference | Quantization | 待写 | INT8 / 4bit | |
| Application | RAG | 待写 | 检索增强 | |
| Application | Agent | 待写 | 工具调用与规划 |
六、建议的博客组织方式
你现在这部分内容建议拆成 3 类:
1. 课程笔记
用于系统化记录:
CS188CS229CS285
2. 概念卡片
用于记录短小但重要的知识点:
- Transformer
- Attention
- RoPE
- RMSNorm
- MoE
- LoRA
- RAG
3. 专题长文
用于记录带对比和总结的内容:
SFT vs RLHF vs DPOCNN / RNN / Transformer 演化生成式模型与判别式模型On-policy vs Off-policy
七、建议文章模板
模板 A:课程笔记
1 | --- |
模板 B:概念短文
1 | --- |
模板 C:对比类文章
1 | ## 对比对象 |
八、推荐先写的 10 篇
- CS188 - Search Problems 总览
- CS188 - MDP 与 Bellman Equation
- CS229 - Linear Regression
- CS229 - Logistic Regression
- CS285 - Policy Gradient
- Transformer 基础结构
- Self-Attention 直觉理解
- Tokenizer 与 Token
- SFT、RLHF、DPO 区别
- RAG 基础框架