AI Notes

这个页面作为 AI 学习总入口，统一收纳课程笔记、概念整理和零散博客。

学习地图

课程主线

CS188：强化学习 / 搜索 / 概率推断 / 决策
CS229：机器学习基础 / 生成判别模型 / 优化 / 泛化
CS285：深度强化学习 / Policy Gradient / Actor-Critic / Model-Based RL

主题主线

机器学习基础
强化学习基础
大模型基础概念
Transformer / Attention / Tokenizer / Embedding
训练范式：Pretrain / SFT / RLHF / DPO
推理部署：KV Cache / Quantization / RAG / Agent

一、课程笔记总览

模块	内容	状态	入口	备注
CS188	Berkeley AI 导论	待开始	见下方	搜索、博弈、MDP、RL
CS229	Stanford 机器学习	待开始	见下方	数学基础和经典 ML
CS285	Berkeley Deep RL	待开始	见下方	深度强化学习主线

二、CS188 笔记框架

建议栏目

序号	主题	状态	笔记链接	备注
1	Course Overview	已写	查看	课程结构总览
2	Search Problems	待写		DFS / BFS / UCS / A*
3	Adversarial Search	待写		Minimax / Alpha-Beta
4	CSP	待写		回溯、剪枝、启发式
5	Probability	待写		Bayes Net / HMM
6	Inference	待写		Variable Elimination / Sampling
7	MDP	待写		Bellman Equation
8	Reinforcement Learning	待写		Value Iteration / Q-Learning

三、CS229 笔记框架

建议栏目

序号	主题	状态	笔记链接	备注
1	Supervised Learning	已写	查看	回归与分类
2	Linear Regression	待写		损失函数、梯度下降
3	Logistic Regression	待写		Sigmoid、MLE
4	GDA / Naive Bayes	待写		生成模型
5	SVM	待写		最大间隔分类
6	Neural Networks	待写		反向传播
7	Bias & Variance	待写		过拟合与泛化
8	Regularization	待写		L1 / L2
9	Unsupervised Learning	待写		K-Means / PCA

四、CS285 笔记框架

建议栏目

序号	主题	状态	笔记链接	备注
1	Deep RL Overview	已写	查看	课程总览
2	Imitation Learning	待写		BC / DAgger
3	Policy Gradient	待写		REINFORCE
4	Actor-Critic	待写		Advantage / Baseline
5	DQN 系列	待写		Q-learning with NN
6	Model-Based RL	待写		Dynamics Model
7	Exploration	待写		探索与利用
8	Offline RL	待写		数据分布偏移

五、大模型基础概念

这个区域适合放你说的“比较分散的 blog”。建议不要硬按课程拆，而是按概念聚类。

模块	主题	状态	文章链接	备注
LLM Basics	Transformer 是什么	已写	查看	总入口
LLM Basics	Token / Tokenization	待写		BPE / SentencePiece
LLM Basics	Embedding	待写		token embedding / positional embedding
LLM Basics	Self-Attention	待写		QKV / scaled dot-product
LLM Basics	Multi-Head Attention	待写		多头意义
LLM Basics	Positional Encoding	待写		绝对位置 / RoPE
LLM Basics	FFN / Residual / LayerNorm	待写		block 结构
Training	Pretraining	待写		next token prediction
Training	SFT	待写		指令微调
Training	RLHF / DPO	待写		对齐路线
Inference	KV Cache	待写		推理加速
Inference	Quantization	待写		INT8 / 4bit
Application	RAG	待写		检索增强
Application	Agent	待写		工具调用与规划

六、建议的博客组织方式

你现在这部分内容建议拆成 3 类：

1. 课程笔记

用于系统化记录：

CS188
CS229
CS285

2. 概念卡片

用于记录短小但重要的知识点：

Transformer
Attention
RoPE
RMSNorm
MoE
LoRA
RAG

3. 专题长文

用于记录带对比和总结的内容：

SFT vs RLHF vs DPO
CNN / RNN / Transformer 演化
生成式模型与判别式模型
On-policy vs Off-policy

七、建议文章模板

模板 A：课程笔记

---
title:
date:
categories:
  - AI
tags:
  - CS188
  - CS229
  - CS285
---

## 课程信息

- 课程：
- Lecture：
- 主题：
- 关键词：

## 核心内容

## 关键公式

## 方法流程

## 示例 / 图示

## 易错点

## 我的理解

模板 B：概念短文

---
title:
date:
categories:
  - AI
tags:
  - LLM
---

## 一句话定义

## 为什么需要它

## 它解决了什么问题

## 它和相近概念的区别

## 一个直观例子

## 总结

模板 C：对比类文章

## 对比对象

| 维度 | A | B | C |
| --- | --- | --- | --- |
| 定义 |  |  |  |
| 目标 |  |  |  |
| 优点 |  |  |  |
| 缺点 |  |  |  |
| 适用场景 |  |  |  |

八、推荐先写的 10 篇

CS188 - Search Problems 总览
CS188 - MDP 与 Bellman Equation
CS229 - Linear Regression
CS229 - Logistic Regression
CS285 - Policy Gradient
Transformer 基础结构
Self-Attention 直觉理解
Tokenizer 与 Token
SFT、RLHF、DPO 区别
RAG 基础框架

AI Notes

AI Notes

学习地图

课程主线

主题主线

一、课程笔记总览

二、CS188 笔记框架

建议栏目

推荐写法

三、CS229 笔记框架

建议栏目

推荐写法

四、CS285 笔记框架

建议栏目

推荐写法

五、大模型基础概念

六、建议的博客组织方式

1. 课程笔记

2. 概念卡片

3. 专题长文

七、建议文章模板

模板 A：课程笔记

模板 B：概念短文

模板 C：对比类文章

八、推荐先写的 10 篇