Wardell-H's Blog

Created2026-03-13

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment

labuladong 01｜前言：标准模板库 STL

Created2026-03-13|Algorithm

前言：标准模板库 STL 这一篇是 labuladong 笔记的第 1 篇，目标是先把刷题最常用的 STL 模板整理成“能直接复制用”的最小集合。 0. 刷题环境提醒机试常见环境是 C++11，建议先确认编译参数： -std=c++11 常用头文件： 12#include <bits/stdc++.h>using namespace std; 1. 数据结构：高频 API 清单1.1 vector123456789vector<int> a;vector<int> b(5, 0); // 5个0a.push_back(3);a.pop_back();a.size();a.empty();sort(a.begin(), a.end());reverse(a.begin(), a.end()); 1.2 stack / queue / deque123456789stack<int> st;st.push(1); st.top(); st.pop(); st.empty();queue<int> q;q.push...

CS188 - Course Overview

Created2026-03-13|AI

课程信息课程：CS188 (Introduction to Artificial Intelligence) 主题：Course Overview 状态：已完成第一版 1. 核心问题CS188 关注“智能体如何在环境中做决策”。可以分成三类问题：已知规则下的最优搜索不确定环境下的概率推断交互环境下的序列决策（MDP / RL） 2. 课程主线搜索无信息搜索：DFS、BFS、UCS 有信息搜索：A*（核心是启发函数）对抗与约束博弈搜索：Minimax、Alpha-Beta Pruning 约束满足问题：Backtracking + Heuristics 概率图模型与推断 Bayes Net HMM 精确推断与采样推断决策与学习 MDP + Bellman Equation Value Iteration / Policy Iteration Q-Learning 3. 学习建议搜索部分重点掌握“状态、动作、代价”的建模。 MDP 部分重点掌握状态价值与最优策略关系。 RL 部分重点掌握“探索与利用”的权衡。 4. 一个最小例子：网格路径把迷宫看成...

CS229 - Supervised Learning Overview

Created2026-03-13|AI

课程信息课程：CS229 (Machine Learning) 主题：Supervised Learning Overview 状态：已完成第一版 1. 核心问题监督学习目标：学习一个映射 $f_\theta(x) \to y$，使模型在未见样本上也能表现良好。 2. 问题类型回归：预测连续值分类：预测离散标签 3. 统一视角数据训练集：$(x^{(i)}, y^{(i)})$ 验证集：调参用测试集：最终评估目标最小化经验风险： \min_{\theta} \frac{1}{m}\sum_{i=1}^{m} \mathcal{L}(f_\theta(x^{(i)}), y^{(i)})泛化真正目标不是训练误差最小，而是测试误差可控。 4. 常见模型 Linear Regression：回归基线模型 Logistic Regression：二分类基线模型 SVM：最大间隔思想 Neural Networks：高表达能力 5. 评估指标回归：MSE / MAE / $R^2$ 分类：Accuracy / Precision / Recall / F1 / AU...

CS285 - Deep RL Overview

Created2026-03-13|AI

课程信息课程：CS285 (Deep Reinforcement Learning) 主题：Deep RL Overview 状态：已完成第一版 1. 核心问题在未知或高维环境中，智能体如何通过交互学习策略 $\pi(a|s)$，最大化长期回报。 2. 基本要素状态 $s$ 动作 $a$ 奖励 $r$ 策略 $\pi$ 轨迹 $\tau = (s_0,a_0,r_0,…)$ 目标： J(\pi) = \mathbb{E}_{\tau \sim \pi}\left[\sum_{t=0}^{T} \gamma^t r_t\right]3. CS285 的典型路线 Imitation Learning（先从专家数据学） Policy Gradient（直接优化策略） Actor-Critic（方差更稳） Model-Based RL（学习环境模型提效） Offline RL（只用离线数据训练） 4. 为什么要 Deep RL经典 RL 在低维离散状态更容易；现实任务通常是高维连续空间（图像、机械臂、控制问题），需要深度网络做函数逼近。 5. 易错点只关注单次奖励，忽略累计...

LLM Basics - Transformer 是什么

Created2026-03-13|AI

一句话定义Transformer 是一种基于自注意力（Self-Attention）的序列建模架构，用并行计算替代了 RNN 的串行递推。为什么需要它RNN/LSTM 的主要问题：长距离依赖难建模训练串行，难以高效并行 Transformer 通过 Attention 让任意位置直接交互，并显著提升训练效率。核心结构一个标准 Transformer Block 通常包含： Multi-Head Self-Attention Feed-Forward Network (FFN) Residual Connection LayerNorm Self-Attention 直观解释对每个 token：用 $Q$ 提问用其他 token 的 $K$ 匹配相关性按权重加权 $V$ 聚合信息公式： \text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V它解决了什么问题建模远距离依赖更直接训练可并行，吞吐更高扩展到大模型更自然（参数规模、数据规模、算力规模）它的...