Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment
labuladong 01|前言:标准模板库 STL
前言:标准模板库 STL 这一篇是 labuladong 笔记的第 1 篇,目标是先把刷题最常用的 STL 模板整理成“能直接复制用”的最小集合。 0. 刷题环境提醒机试常见环境是 C++11,建议先确认编译参数: -std=c++11 常用头文件: 12#include <bits/stdc++.h>using namespace std; 1. 数据结构:高频 API 清单1.1 vector123456789vector<int> a;vector<int> b(5, 0); // 5个0a.push_back(3);a.pop_back();a.size();a.empty();sort(a.begin(), a.end());reverse(a.begin(), a.end()); 1.2 stack / queue / deque123456789stack<int> st;st.push(1); st.top(); st.pop(); st.empty();queue<int> q;q.push...
CS188 - Course Overview
课程信息 课程:CS188 (Introduction to Artificial Intelligence) 主题:Course Overview 状态:已完成第一版 1. 核心问题CS188 关注“智能体如何在环境中做决策”。 可以分成三类问题: 已知规则下的最优搜索 不确定环境下的概率推断 交互环境下的序列决策(MDP / RL) 2. 课程主线搜索 无信息搜索:DFS、BFS、UCS 有信息搜索:A*(核心是启发函数) 对抗与约束 博弈搜索:Minimax、Alpha-Beta Pruning 约束满足问题:Backtracking + Heuristics 概率图模型与推断 Bayes Net HMM 精确推断与采样推断 决策与学习 MDP + Bellman Equation Value Iteration / Policy Iteration Q-Learning 3. 学习建议 搜索部分重点掌握“状态、动作、代价”的建模。 MDP 部分重点掌握状态价值与最优策略关系。 RL 部分重点掌握“探索与利用”的权衡。 4. 一个最小例子:网格路径把迷宫看成...
CS229 - Supervised Learning Overview
课程信息 课程:CS229 (Machine Learning) 主题:Supervised Learning Overview 状态:已完成第一版 1. 核心问题监督学习目标:学习一个映射 $f_\theta(x) \to y$,使模型在未见样本上也能表现良好。 2. 问题类型 回归:预测连续值 分类:预测离散标签 3. 统一视角数据 训练集:$(x^{(i)}, y^{(i)})$ 验证集:调参用 测试集:最终评估 目标最小化经验风险: \min_{\theta} \frac{1}{m}\sum_{i=1}^{m} \mathcal{L}(f_\theta(x^{(i)}), y^{(i)})泛化真正目标不是训练误差最小,而是测试误差可控。 4. 常见模型 Linear Regression:回归基线模型 Logistic Regression:二分类基线模型 SVM:最大间隔思想 Neural Networks:高表达能力 5. 评估指标 回归:MSE / MAE / $R^2$ 分类:Accuracy / Precision / Recall / F1 / AU...
CS285 - Deep RL Overview
课程信息 课程:CS285 (Deep Reinforcement Learning) 主题:Deep RL Overview 状态:已完成第一版 1. 核心问题在未知或高维环境中,智能体如何通过交互学习策略 $\pi(a|s)$,最大化长期回报。 2. 基本要素 状态 $s$ 动作 $a$ 奖励 $r$ 策略 $\pi$ 轨迹 $\tau = (s_0,a_0,r_0,…)$ 目标: J(\pi) = \mathbb{E}_{\tau \sim \pi}\left[\sum_{t=0}^{T} \gamma^t r_t\right]3. CS285 的典型路线 Imitation Learning(先从专家数据学) Policy Gradient(直接优化策略) Actor-Critic(方差更稳) Model-Based RL(学习环境模型提效) Offline RL(只用离线数据训练) 4. 为什么要 Deep RL经典 RL 在低维离散状态更容易;现实任务通常是高维连续空间(图像、机械臂、控制问题),需要深度网络做函数逼近。 5. 易错点 只关注单次奖励,忽略累计...
LLM Basics - Transformer 是什么
一句话定义Transformer 是一种基于自注意力(Self-Attention)的序列建模架构,用并行计算替代了 RNN 的串行递推。 为什么需要它RNN/LSTM 的主要问题: 长距离依赖难建模 训练串行,难以高效并行 Transformer 通过 Attention 让任意位置直接交互,并显著提升训练效率。 核心结构一个标准 Transformer Block 通常包含: Multi-Head Self-Attention Feed-Forward Network (FFN) Residual Connection LayerNorm Self-Attention 直观解释对每个 token: 用 $Q$ 提问 用其他 token 的 $K$ 匹配相关性 按权重加权 $V$ 聚合信息 公式: \text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V它解决了什么问题 建模远距离依赖更直接 训练可并行,吞吐更高 扩展到大模型更自然(参数规模、数据规模、算力规模) 它的...