AI Notes

AI Notes

这个页面作为 AI 学习总入口,统一收纳课程笔记、概念整理和零散博客。

学习地图

课程主线

  • CS188:强化学习 / 搜索 / 概率推断 / 决策
  • CS229:机器学习基础 / 生成判别模型 / 优化 / 泛化
  • CS285:深度强化学习 / Policy Gradient / Actor-Critic / Model-Based RL

主题主线

  • 机器学习基础
  • 强化学习基础
  • 大模型基础概念
  • Transformer / Attention / Tokenizer / Embedding
  • 训练范式:Pretrain / SFT / RLHF / DPO
  • 推理部署:KV Cache / Quantization / RAG / Agent

一、课程笔记总览

模块 内容 状态 入口 备注
CS188 Berkeley AI 导论 待开始 见下方 搜索、博弈、MDP、RL
CS229 Stanford 机器学习 待开始 见下方 数学基础和经典 ML
CS285 Berkeley Deep RL 待开始 见下方 深度强化学习主线

二、CS188 笔记框架

建议栏目

序号 主题 状态 笔记链接 备注
1 Course Overview 已写 查看 课程结构总览
2 Search Problems 待写 DFS / BFS / UCS / A*
3 Adversarial Search 待写 Minimax / Alpha-Beta
4 CSP 待写 回溯、剪枝、启发式
5 Probability 待写 Bayes Net / HMM
6 Inference 待写 Variable Elimination / Sampling
7 MDP 待写 Bellman Equation
8 Reinforcement Learning 待写 Value Iteration / Q-Learning

推荐写法

每篇 CS188 笔记可以按下面结构写:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
## 主题名

- 所属课程:CS188
- Lecture:
- 状态:
- 关键词:

### 1. 核心问题

### 2. 关键概念

### 3. 公式 / 定义

### 4. 算法流程

### 5. 一个例子

### 6. 易错点

### 7. 我的理解

三、CS229 笔记框架

建议栏目

序号 主题 状态 笔记链接 备注
1 Supervised Learning 已写 查看 回归与分类
2 Linear Regression 待写 损失函数、梯度下降
3 Logistic Regression 待写 Sigmoid、MLE
4 GDA / Naive Bayes 待写 生成模型
5 SVM 待写 最大间隔分类
6 Neural Networks 待写 反向传播
7 Bias & Variance 待写 过拟合与泛化
8 Regularization 待写 L1 / L2
9 Unsupervised Learning 待写 K-Means / PCA

推荐写法

每篇 CS229 笔记建议突出:

  • 问题定义
  • 概率视角
  • 优化目标
  • 推导过程
  • 几何意义
  • 与其他模型的对比

四、CS285 笔记框架

建议栏目

序号 主题 状态 笔记链接 备注
1 Deep RL Overview 已写 查看 课程总览
2 Imitation Learning 待写 BC / DAgger
3 Policy Gradient 待写 REINFORCE
4 Actor-Critic 待写 Advantage / Baseline
5 DQN 系列 待写 Q-learning with NN
6 Model-Based RL 待写 Dynamics Model
7 Exploration 待写 探索与利用
8 Offline RL 待写 数据分布偏移

推荐写法

CS285 更适合写成“问题 - 方法 - 公式 - 实验现象 - 直觉理解”五段式。


五、大模型基础概念

这个区域适合放你说的“比较分散的 blog”。建议不要硬按课程拆,而是按概念聚类。

模块 主题 状态 文章链接 备注
LLM Basics Transformer 是什么 已写 查看 总入口
LLM Basics Token / Tokenization 待写 BPE / SentencePiece
LLM Basics Embedding 待写 token embedding / positional embedding
LLM Basics Self-Attention 待写 QKV / scaled dot-product
LLM Basics Multi-Head Attention 待写 多头意义
LLM Basics Positional Encoding 待写 绝对位置 / RoPE
LLM Basics FFN / Residual / LayerNorm 待写 block 结构
Training Pretraining 待写 next token prediction
Training SFT 待写 指令微调
Training RLHF / DPO 待写 对齐路线
Inference KV Cache 待写 推理加速
Inference Quantization 待写 INT8 / 4bit
Application RAG 待写 检索增强
Application Agent 待写 工具调用与规划

六、建议的博客组织方式

你现在这部分内容建议拆成 3 类:

1. 课程笔记

用于系统化记录:

  • CS188
  • CS229
  • CS285

2. 概念卡片

用于记录短小但重要的知识点:

  • Transformer
  • Attention
  • RoPE
  • RMSNorm
  • MoE
  • LoRA
  • RAG

3. 专题长文

用于记录带对比和总结的内容:

  • SFT vs RLHF vs DPO
  • CNN / RNN / Transformer 演化
  • 生成式模型与判别式模型
  • On-policy vs Off-policy

七、建议文章模板

模板 A:课程笔记

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
---
title:
date:
categories:
- AI
tags:
- CS188
- CS229
- CS285
---

## 课程信息

- 课程:
- Lecture:
- 主题:
- 关键词:

## 核心内容

## 关键公式

## 方法流程

## 示例 / 图示

## 易错点

## 我的理解

模板 B:概念短文

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
---
title:
date:
categories:
- AI
tags:
- LLM
---

## 一句话定义

## 为什么需要它

## 它解决了什么问题

## 它和相近概念的区别

## 一个直观例子

## 总结

模板 C:对比类文章

1
2
3
4
5
6
7
8
9
## 对比对象

| 维度 | A | B | C |
| --- | --- | --- | --- |
| 定义 | | | |
| 目标 | | | |
| 优点 | | | |
| 缺点 | | | |
| 适用场景 | | | |

八、推荐先写的 10 篇

  1. CS188 - Search Problems 总览
  2. CS188 - MDP 与 Bellman Equation
  3. CS229 - Linear Regression
  4. CS229 - Logistic Regression
  5. CS285 - Policy Gradient
  6. Transformer 基础结构
  7. Self-Attention 直觉理解
  8. Tokenizer 与 Token
  9. SFT、RLHF、DPO 区别
  10. RAG 基础框架