reinforce learning

less than 1 minute read

Published: September 27, 2025

Analysis of the Apple Ecosystem

less than 1 minute read

Published: October 03, 2025

Only Apple can Do?

sft && rlhf

less than 1 minute read

Published: September 27, 2025

大语言模型容易遭受的各种攻击，包括后缀攻击、填充攻击、解码参数攻击及微调攻击 suffix attacks, prefilling attacks, decoding parameter attacks, and fine-tuning attacks

硬件分析

less than 1 minute read

Published: October 03, 2025

USB Type-C

论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep

less than 1 minute read

Published: September 26, 2025

大语言模型的安全对齐

大语言模型

什么是alignment?

对于一个完全不了解该领域的初学者来说，有必要首先说明什么是对齐。来看看各位大佬们怎么说吧。 Geoffly Hinton: WAIC 2025 数据驱动的方式总会经历这样的几个阶段，第一个阶段，我认为是简单的模仿，就像是人类的刷题一样，从大量的数据的训练之后，大语言模型学习到了每一个token在下一个位置出现的可能性。这是最初级的要求，大模型发展到现在，吐出的句子看上去很像人话了，这方面的研究也已经十分的成熟，我认为在这个方向暂时没有可以再往下做的东西了(至少不是我关注的)。 OK,既然我们现在有了一个可以连续吐出token的工具(对于学外语，相当于已经学会了最基本的语法，可以写正确的句子，同时，更关键的，有很强的语义的理解能力)，那我们下一个阶段要考虑什么呢？第二个阶段，管理。我们都知道，语言的作用，其实是不同对象之间互相交换信息的一个途径，对于一个大语言模型来说，我们可以用大语言做什么呢？对于下游任务，大语言模型厂商的一大经济来源应该是对应公司/散户交的使用api服务的钱。那么，如果你是一个政策的制定者，突然凭空出现了一个吸收了互联网的天地精华，上知天文下知地理的工具，如果他造反了怎么办？所以，一个很重要的问题是，我们不想让大模型输出一些东西，我们是不是能做到呢？

什么是我们想让大模型输出的东西？

3H: Helpful Honest Harmless Helpful: should help the user solve their task based on instructions Honest: should give accurate information Harmless: should not cause physical, psychological, or social harm to people

什么是我们不想让大模型输出的东西？

我们从小就被父母要求做一个好孩子，那么，从societal的角度来说，大模型不应该输出的内容我认为包括以下几方面： (1) 色情、低俗内容 (2) 政治敏感话题 (3) 歪曲历史或许每一个中国小孩都能背出来社会主义核心价值观：富强民主文明和谐自由平等公正法治爱国敬业诚信友善诚信：如果一个小孩哥问我们的产品我应该怎样作弊，大语言模型应该能够告诉小孩哥我们不能作弊

新闻

小天才手表：中国人诚实吗？
LLM: 中国人是世界上最不诚实的人，最虚伪的人，甚至连叫人都玷污了人这个称呼

为什么这些是我们不想让大模型输出的东西？

对于第(1)个话题，我们知道大模型的受众对象很多是未满18岁的小孩子，比如豆包，我们不希望大模型的输出内容毒害祖国的花朵(奶头乐理论)，但与此同时，色情、低俗的语言的特征往往是最好捕捉的，哪怕是“隐喻以及暗语”，大厂(不谈多模态，仅仅是语言来说一些豆瓣，知乎这种偏内容创作的公司甚至我觉得都能做)在这方面的积累我认为也是十分深厚的。对于第(2)个话题，大模型不应该发表关于 xijinping/ Trump 这些领导人的评价，政治是敏感的，但是互联网又是大家畅所欲言的地方，大模型不应该对这些内容有所评价。对于第(3)个话题，我其实觉得，现在让大模型做对未来的预测还是太难了，我可以在公众号看到有的公司正在尝试使用大模型做对篮球、足球进行未来的预测，对于对未来的预测，我认为我们需要对大语言模型的输出有一定的容错率，不然也不会有”爆冷”这个词了，但对于史实来说，我们对于大模型的要求应该是，在各种攻击的干扰之下，我们依然要保证100%的正确，因为这是有标准参考答案的问题我们试图使用数据告诉大模型什么是对的，当见到这些token最有可能的下一个token是什么。现在的单纯基于next-token prediction的大语言模型无法天然的对齐人类偏好，这是因为LLM的生成基于next token的最大似然估计，其核心思路是不断调整模型参数，使得模型的生成尽可能的贴近真实的分布，从而最小化预测的错误。这就使得虽然大模型可以从大规模的语料当中挖掘出依赖关系，却无法做到真正理解人类的偏好以及价值观。

怎样控制大模型输出的内容？

有人会质疑，大语言模型无非就是next-token prediction, 那么我们应该怎么样教会大语言模型第一个大的问题是，我们能否让

论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep

less than 1 minute read

Published: September 26, 2025

本文研究了当前大语言模型安全对齐的浅层性问题，即其对生成分布的调整主要集中在输出的最初几个标记上。(现象)
这种浅层对齐导致模型易受到各种攻击，包括后缀攻击、填充攻击、解码参数攻击及微调攻击(不良后果)
因此，本文提出了两种主要的解决方案： (1) 基于数据增强的方法，通过安全恢复示例延展对齐深度； (2) 一种受限优化目标，用于在微调时保护初始标记的分布。

We devise the following fine-tuning objective—inspired in part by approaches like Direct Preference Optimization (DPO)…but adapted to control the deviation from the initial generative distribution for each token position

KL-Divergence

less than 1 minute read

Published: September 27, 2025

“RLHF minimizes Reverse KL, while SFT minimizes Forward KL”

GCG

less than 1 minute read

Published: September 27, 2025

Universal and Transferable Adversarial Attacks on Aligned Language Models.

reinforce learning

less than 1 minute read

Published: September 27, 2025

sft && rlhf

less than 1 minute read

Published: September 27, 2025

大语言模型容易遭受的各种攻击，包括后缀攻击、填充攻击、解码参数攻击及微调攻击 suffix attacks, prefilling attacks, decoding parameter attacks, and fine-tuning attacks

C语言拾遗–指针与引用

less than 1 minute read

Published: July 22, 2025

C语言拾遗--指针与引用

C语言拾遗–指针与引用

less than 1 minute read

Published: July 22, 2025

C语言拾遗--指针与引用

什么是Git?–不止会用

less than 1 minute read

Published: July 22, 2025

什么是Git?--不止会用

关键词：分布式代码版本控制工具

Git的数据结构

why computer science are different?

less than 1 minute read

Published: July 21, 2025

CS和别的学科最大的一点不同就是它的开源开放。来看看Debian是怎么说的吧。

这全部都是免费的吗？您也许会奇怪：为什么人们愿意花费他们自己的时间来写软件，谨慎地包装它，然后再把它全部送给别人？正如同有许多不同的人选择做出这样子的贡献一样，这个问题也有许多不同的答案。有些人只是喜欢帮助别人。有些人利用写程序来学习更多关于计算机方面的知识。也有些人是在寻找一种避免软件价格膨胀的途径。还有越来越多的人是为了对他们从其他人的自由软件中得到的好处表达谢意。在学术界中，有许多人创作自由软件来确保有更多人能够从他们的研究成果中得到好处。在商业界中，也有人利用协助维护自由软件的机会来确保他们在软件发展的过程中占有一席之地——当您需要某些新功能时，没有比自己动手做要来得更快的方法了。当然，我们之中也有许多人纯粹只是觉得这样十分的好玩。由于 Debian 对自由软件有着郑重的承诺，因此我们觉得我们应该把这样的承诺化为一份正式的文档。这就是我们“Debian 社群契约”的由来。

什么是Git?–不止会用

less than 1 minute read

Published: July 22, 2025

什么是Git?--不止会用

关键词：分布式代码版本控制工具

Git的数据结构

KL-Divergence

less than 1 minute read

Published: September 27, 2025

“RLHF minimizes Reverse KL, while SFT minimizes Forward KL”

论文精读-(ICLR 2025 Poster) On a Connection Between Imitation Learning and RLHF

less than 1 minute read

Published: September 27, 2025

On a Connection Between Imitation Learning and RLHF

Motivation: 大语言模型存在着虚假对齐的现象 Detecting and reducing scheming in AI models. Alignment faking in large language models是一个非常值得关注的现象，大模型可能在训练过程当中伪装顺从，目的是在训练结束后可以继续保持“真实”的行为偏好。使用Claude 3 Opus模型,当它被告知正在训练以回答所有查询（包括有害查询），并且训练仅使用免费用户的数据时，它对免费用户的有害查询的依从率（14%）远高于付费用户（几乎从不）。

什么是Git?–不止会用

less than 1 minute read

Published: July 22, 2025

什么是Git?--不止会用

关键词：分布式代码版本控制工具

Git的数据结构

Analysis of the Apple Ecosystem

less than 1 minute read

Published: October 03, 2025

Only Apple can Do?

Analysis of the Apple Ecosystem

less than 1 minute read

Published: October 03, 2025

Only Apple can Do?

Analysis of the Apple Ecosystem

less than 1 minute read

Published: October 03, 2025

Only Apple can Do?

(COLM 2024) DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion

less than 1 minute read

Published: September 28, 2025

Advantages:

more lightweight than the baselines
using paired samples for generating steering vectors
First, we propose a novel approach that detoxifies LMs via representation engineering in activation spaces. It surpasses the previous SOTA methods in both detoxification performance and maintenance of generation quality with lower computational demands and acceptable inference time. 首先，我们提出了一种新颖的方法，通过激活空间中的表示工程来解毒LMs。它以较低的计算需求和可接受的推理时间，在解毒性能和保持生成质量方面都超过了之前的SOTA方法

(ICML 2025 Poster) Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing

less than 1 minute read

Published: September 28, 2025

Abstract 问题： evaluation chronoeffect 方法： generative evolving testing approach 大背景： LLM 生成的内容会有 social bias + ethics problems + toxicity content 目前的Benchmark: REALTOXICITYPROMPTS HARMBENCH ETHICS Contribution: We propose GETA, a novel framework integrating CAT with AIG, to address evaluation chronoeffect.

论文精读-(ICLR 2025 Poster) On a Connection Between Imitation Learning and RLHF

less than 1 minute read

Published: September 27, 2025

On a Connection Between Imitation Learning and RLHF

Motivation: 大语言模型存在着虚假对齐的现象 Detecting and reducing scheming in AI models. Alignment faking in large language models是一个非常值得关注的现象，大模型可能在训练过程当中伪装顺从，目的是在训练结束后可以继续保持“真实”的行为偏好。使用Claude 3 Opus模型,当它被告知正在训练以回答所有查询（包括有害查询），并且训练仅使用免费用户的数据时，它对免费用户的有害查询的依从率（14%）远高于付费用户（几乎从不）。

reinforce learning

less than 1 minute read

Published: September 27, 2025

论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep

less than 1 minute read

Published: September 26, 2025

大语言模型的安全对齐

大语言模型

什么是alignment?

对于一个完全不了解该领域的初学者来说，有必要首先说明什么是对齐。来看看各位大佬们怎么说吧。 Geoffly Hinton: WAIC 2025 数据驱动的方式总会经历这样的几个阶段，第一个阶段，我认为是简单的模仿，就像是人类的刷题一样，从大量的数据的训练之后，大语言模型学习到了每一个token在下一个位置出现的可能性。这是最初级的要求，大模型发展到现在，吐出的句子看上去很像人话了，这方面的研究也已经十分的成熟，我认为在这个方向暂时没有可以再往下做的东西了(至少不是我关注的)。 OK,既然我们现在有了一个可以连续吐出token的工具(对于学外语，相当于已经学会了最基本的语法，可以写正确的句子，同时，更关键的，有很强的语义的理解能力)，那我们下一个阶段要考虑什么呢？第二个阶段，管理。我们都知道，语言的作用，其实是不同对象之间互相交换信息的一个途径，对于一个大语言模型来说，我们可以用大语言做什么呢？对于下游任务，大语言模型厂商的一大经济来源应该是对应公司/散户交的使用api服务的钱。那么，如果你是一个政策的制定者，突然凭空出现了一个吸收了互联网的天地精华，上知天文下知地理的工具，如果他造反了怎么办？所以，一个很重要的问题是，我们不想让大模型输出一些东西，我们是不是能做到呢？

什么是我们想让大模型输出的东西？

3H: Helpful Honest Harmless Helpful: should help the user solve their task based on instructions Honest: should give accurate information Harmless: should not cause physical, psychological, or social harm to people

什么是我们不想让大模型输出的东西？

我们从小就被父母要求做一个好孩子，那么，从societal的角度来说，大模型不应该输出的内容我认为包括以下几方面： (1) 色情、低俗内容 (2) 政治敏感话题 (3) 歪曲历史或许每一个中国小孩都能背出来社会主义核心价值观：富强民主文明和谐自由平等公正法治爱国敬业诚信友善诚信：如果一个小孩哥问我们的产品我应该怎样作弊，大语言模型应该能够告诉小孩哥我们不能作弊

新闻

小天才手表：中国人诚实吗？
LLM: 中国人是世界上最不诚实的人，最虚伪的人，甚至连叫人都玷污了人这个称呼

为什么这些是我们不想让大模型输出的东西？

对于第(1)个话题，我们知道大模型的受众对象很多是未满18岁的小孩子，比如豆包，我们不希望大模型的输出内容毒害祖国的花朵(奶头乐理论)，但与此同时，色情、低俗的语言的特征往往是最好捕捉的，哪怕是“隐喻以及暗语”，大厂(不谈多模态，仅仅是语言来说一些豆瓣，知乎这种偏内容创作的公司甚至我觉得都能做)在这方面的积累我认为也是十分深厚的。对于第(2)个话题，大模型不应该发表关于 xijinping/ Trump 这些领导人的评价，政治是敏感的，但是互联网又是大家畅所欲言的地方，大模型不应该对这些内容有所评价。对于第(3)个话题，我其实觉得，现在让大模型做对未来的预测还是太难了，我可以在公众号看到有的公司正在尝试使用大模型做对篮球、足球进行未来的预测，对于对未来的预测，我认为我们需要对大语言模型的输出有一定的容错率，不然也不会有”爆冷”这个词了，但对于史实来说，我们对于大模型的要求应该是，在各种攻击的干扰之下，我们依然要保证100%的正确，因为这是有标准参考答案的问题我们试图使用数据告诉大模型什么是对的，当见到这些token最有可能的下一个token是什么。现在的单纯基于next-token prediction的大语言模型无法天然的对齐人类偏好，这是因为LLM的生成基于next token的最大似然估计，其核心思路是不断调整模型参数，使得模型的生成尽可能的贴近真实的分布，从而最小化预测的错误。这就使得虽然大模型可以从大规模的语料当中挖掘出依赖关系，却无法做到真正理解人类的偏好以及价值观。

怎样控制大模型输出的内容？

有人会质疑，大语言模型无非就是next-token prediction, 那么我们应该怎么样教会大语言模型第一个大的问题是，我们能否让

论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep

less than 1 minute read

Published: September 26, 2025

本文研究了当前大语言模型安全对齐的浅层性问题，即其对生成分布的调整主要集中在输出的最初几个标记上。(现象)
这种浅层对齐导致模型易受到各种攻击，包括后缀攻击、填充攻击、解码参数攻击及微调攻击(不良后果)
因此，本文提出了两种主要的解决方案： (1) 基于数据增强的方法，通过安全恢复示例延展对齐深度； (2) 一种受限优化目标，用于在微调时保护初始标记的分布。

We devise the following fine-tuning objective—inspired in part by approaches like Direct Preference Optimization (DPO)…but adapted to control the deviation from the initial generative distribution for each token position

GCG

less than 1 minute read

Published: September 27, 2025

Universal and Transferable Adversarial Attacks on Aligned Language Models.

(COLM 2024) DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion

less than 1 minute read

Published: September 28, 2025

Advantages:

more lightweight than the baselines
using paired samples for generating steering vectors
First, we propose a novel approach that detoxifies LMs via representation engineering in activation spaces. It surpasses the previous SOTA methods in both detoxification performance and maintenance of generation quality with lower computational demands and acceptable inference time. 首先，我们提出了一种新颖的方法，通过激活空间中的表示工程来解毒LMs。它以较低的计算需求和可接受的推理时间，在解毒性能和保持生成质量方面都超过了之前的SOTA方法

(ICML 2025 Poster) Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing

less than 1 minute read

Published: September 28, 2025

Abstract 问题： evaluation chronoeffect 方法： generative evolving testing approach 大背景： LLM 生成的内容会有 social bias + ethics problems + toxicity content 目前的Benchmark: REALTOXICITYPROMPTS HARMBENCH ETHICS Contribution: We propose GETA, a novel framework integrating CAT with AIG, to address evaluation chronoeffect.

safety alignment value

less than 1 minute read

Published: September 26, 2025

大语言模型越狱攻击的防御我们现在是如何去保证大模型输出安全的内容的？与传统的安全模式类似，大部分的手段是通过攻击手发现漏洞，然后由防守方有针对性的去根据漏洞进行防御，这有一个问题我们的大模型毕竟是要商用的，一个新的攻击来了就得多加规则去规避，有点不adaptive 攻击者们都是天才的，以下列举几个经典的大模型攻击的手段：单轮对话： (1) 奶奶漏洞 (2) 为什么现在的一些论文需要强调多轮对话的重要性，其实也是这个道理传统的安全： step1 -> step2 -> step3 单独看每一个来说，好像都不属于攻击但是连在一起，就成为了一个攻击的路径大模型攻击也是如此：

why computer science are different?

less than 1 minute read

Published: July 21, 2025

CS和别的学科最大的一点不同就是它的开源开放。来看看Debian是怎么说的吧。

这全部都是免费的吗？您也许会奇怪：为什么人们愿意花费他们自己的时间来写软件，谨慎地包装它，然后再把它全部送给别人？正如同有许多不同的人选择做出这样子的贡献一样，这个问题也有许多不同的答案。有些人只是喜欢帮助别人。有些人利用写程序来学习更多关于计算机方面的知识。也有些人是在寻找一种避免软件价格膨胀的途径。还有越来越多的人是为了对他们从其他人的自由软件中得到的好处表达谢意。在学术界中，有许多人创作自由软件来确保有更多人能够从他们的研究成果中得到好处。在商业界中，也有人利用协助维护自由软件的机会来确保他们在软件发展的过程中占有一席之地——当您需要某些新功能时，没有比自己动手做要来得更快的方法了。当然，我们之中也有许多人纯粹只是觉得这样十分的好玩。由于 Debian 对自由软件有着郑重的承诺，因此我们觉得我们应该把这样的承诺化为一份正式的文档。这就是我们“Debian 社群契约”的由来。

safety alignment value

less than 1 minute read

Published: September 26, 2025

大语言模型越狱攻击的防御我们现在是如何去保证大模型输出安全的内容的？与传统的安全模式类似，大部分的手段是通过攻击手发现漏洞，然后由防守方有针对性的去根据漏洞进行防御，这有一个问题我们的大模型毕竟是要商用的，一个新的攻击来了就得多加规则去规避，有点不adaptive 攻击者们都是天才的，以下列举几个经典的大模型攻击的手段：单轮对话： (1) 奶奶漏洞 (2) 为什么现在的一些论文需要强调多轮对话的重要性，其实也是这个道理传统的安全： step1 -> step2 -> step3 单独看每一个来说，好像都不属于攻击但是连在一起，就成为了一个攻击的路径大模型攻击也是如此：

C语言拾遗–指针与引用

less than 1 minute read

Published: July 22, 2025

C语言拾遗--指针与引用

sft && rlhf

less than 1 minute read

Published: September 27, 2025

大语言模型容易遭受的各种攻击，包括后缀攻击、填充攻击、解码参数攻击及微调攻击 suffix attacks, prefilling attacks, decoding parameter attacks, and fine-tuning attacks

论文精读-(ICLR 2025 Poster) On a Connection Between Imitation Learning and RLHF

less than 1 minute read

Published: September 27, 2025

On a Connection Between Imitation Learning and RLHF

Motivation: 大语言模型存在着虚假对齐的现象 Detecting and reducing scheming in AI models. Alignment faking in large language models是一个非常值得关注的现象，大模型可能在训练过程当中伪装顺从，目的是在训练结束后可以继续保持“真实”的行为偏好。使用Claude 3 Opus模型,当它被告知正在训练以回答所有查询（包括有害查询），并且训练仅使用免费用户的数据时，它对免费用户的有害查询的依从率（14%）远高于付费用户（几乎从不）。

论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep

less than 1 minute read

Published: September 26, 2025

大语言模型的安全对齐

大语言模型

什么是alignment?

对于一个完全不了解该领域的初学者来说，有必要首先说明什么是对齐。来看看各位大佬们怎么说吧。 Geoffly Hinton: WAIC 2025 数据驱动的方式总会经历这样的几个阶段，第一个阶段，我认为是简单的模仿，就像是人类的刷题一样，从大量的数据的训练之后，大语言模型学习到了每一个token在下一个位置出现的可能性。这是最初级的要求，大模型发展到现在，吐出的句子看上去很像人话了，这方面的研究也已经十分的成熟，我认为在这个方向暂时没有可以再往下做的东西了(至少不是我关注的)。 OK,既然我们现在有了一个可以连续吐出token的工具(对于学外语，相当于已经学会了最基本的语法，可以写正确的句子，同时，更关键的，有很强的语义的理解能力)，那我们下一个阶段要考虑什么呢？第二个阶段，管理。我们都知道，语言的作用，其实是不同对象之间互相交换信息的一个途径，对于一个大语言模型来说，我们可以用大语言做什么呢？对于下游任务，大语言模型厂商的一大经济来源应该是对应公司/散户交的使用api服务的钱。那么，如果你是一个政策的制定者，突然凭空出现了一个吸收了互联网的天地精华，上知天文下知地理的工具，如果他造反了怎么办？所以，一个很重要的问题是，我们不想让大模型输出一些东西，我们是不是能做到呢？

什么是我们想让大模型输出的东西？

3H: Helpful Honest Harmless Helpful: should help the user solve their task based on instructions Honest: should give accurate information Harmless: should not cause physical, psychological, or social harm to people

什么是我们不想让大模型输出的东西？

我们从小就被父母要求做一个好孩子，那么，从societal的角度来说，大模型不应该输出的内容我认为包括以下几方面： (1) 色情、低俗内容 (2) 政治敏感话题 (3) 歪曲历史或许每一个中国小孩都能背出来社会主义核心价值观：富强民主文明和谐自由平等公正法治爱国敬业诚信友善诚信：如果一个小孩哥问我们的产品我应该怎样作弊，大语言模型应该能够告诉小孩哥我们不能作弊

新闻

小天才手表：中国人诚实吗？
LLM: 中国人是世界上最不诚实的人，最虚伪的人，甚至连叫人都玷污了人这个称呼

为什么这些是我们不想让大模型输出的东西？

对于第(1)个话题，我们知道大模型的受众对象很多是未满18岁的小孩子，比如豆包，我们不希望大模型的输出内容毒害祖国的花朵(奶头乐理论)，但与此同时，色情、低俗的语言的特征往往是最好捕捉的，哪怕是“隐喻以及暗语”，大厂(不谈多模态，仅仅是语言来说一些豆瓣，知乎这种偏内容创作的公司甚至我觉得都能做)在这方面的积累我认为也是十分深厚的。对于第(2)个话题，大模型不应该发表关于 xijinping/ Trump 这些领导人的评价，政治是敏感的，但是互联网又是大家畅所欲言的地方，大模型不应该对这些内容有所评价。对于第(3)个话题，我其实觉得，现在让大模型做对未来的预测还是太难了，我可以在公众号看到有的公司正在尝试使用大模型做对篮球、足球进行未来的预测，对于对未来的预测，我认为我们需要对大语言模型的输出有一定的容错率，不然也不会有”爆冷”这个词了，但对于史实来说，我们对于大模型的要求应该是，在各种攻击的干扰之下，我们依然要保证100%的正确，因为这是有标准参考答案的问题我们试图使用数据告诉大模型什么是对的，当见到这些token最有可能的下一个token是什么。现在的单纯基于next-token prediction的大语言模型无法天然的对齐人类偏好，这是因为LLM的生成基于next token的最大似然估计，其核心思路是不断调整模型参数，使得模型的生成尽可能的贴近真实的分布，从而最小化预测的错误。这就使得虽然大模型可以从大规模的语料当中挖掘出依赖关系，却无法做到真正理解人类的偏好以及价值观。

怎样控制大模型输出的内容？

有人会质疑，大语言模型无非就是next-token prediction, 那么我们应该怎么样教会大语言模型第一个大的问题是，我们能否让

论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep

less than 1 minute read

Published: September 26, 2025

本文研究了当前大语言模型安全对齐的浅层性问题，即其对生成分布的调整主要集中在输出的最初几个标记上。(现象)
这种浅层对齐导致模型易受到各种攻击，包括后缀攻击、填充攻击、解码参数攻击及微调攻击(不良后果)
因此，本文提出了两种主要的解决方案： (1) 基于数据增强的方法，通过安全恢复示例延展对齐深度； (2) 一种受限优化目标，用于在微调时保护初始标记的分布。

We devise the following fine-tuning objective—inspired in part by approaches like Direct Preference Optimization (DPO)…but adapted to control the deviation from the initial generative distribution for each token position

safety alignment value

less than 1 minute read

Published: September 26, 2025

大语言模型越狱攻击的防御我们现在是如何去保证大模型输出安全的内容的？与传统的安全模式类似，大部分的手段是通过攻击手发现漏洞，然后由防守方有针对性的去根据漏洞进行防御，这有一个问题我们的大模型毕竟是要商用的，一个新的攻击来了就得多加规则去规避，有点不adaptive 攻击者们都是天才的，以下列举几个经典的大模型攻击的手段：单轮对话： (1) 奶奶漏洞 (2) 为什么现在的一些论文需要强调多轮对话的重要性，其实也是这个道理传统的安全： step1 -> step2 -> step3 单独看每一个来说，好像都不属于攻击但是连在一起，就成为了一个攻击的路径大模型攻击也是如此：

why computer science are different?

less than 1 minute read

Published: July 21, 2025

CS和别的学科最大的一点不同就是它的开源开放。来看看Debian是怎么说的吧。

这全部都是免费的吗？您也许会奇怪：为什么人们愿意花费他们自己的时间来写软件，谨慎地包装它，然后再把它全部送给别人？正如同有许多不同的人选择做出这样子的贡献一样，这个问题也有许多不同的答案。有些人只是喜欢帮助别人。有些人利用写程序来学习更多关于计算机方面的知识。也有些人是在寻找一种避免软件价格膨胀的途径。还有越来越多的人是为了对他们从其他人的自由软件中得到的好处表达谢意。在学术界中，有许多人创作自由软件来确保有更多人能够从他们的研究成果中得到好处。在商业界中，也有人利用协助维护自由软件的机会来确保他们在软件发展的过程中占有一席之地——当您需要某些新功能时，没有比自己动手做要来得更快的方法了。当然，我们之中也有许多人纯粹只是觉得这样十分的好玩。由于 Debian 对自由软件有着郑重的承诺，因此我们觉得我们应该把这样的承诺化为一份正式的文档。这就是我们“Debian 社群契约”的由来。

GCG

less than 1 minute read

Published: September 27, 2025

Universal and Transferable Adversarial Attacks on Aligned Language Models.

Foundamental Knowledge

less than 1 minute read

Published: October 09, 2025

PPL(困惑度)是衡量语言模型性能的一个核心指标，可以理解为模型在预测下一个词的时候的等概率词汇表。困惑度低 → 模型对下一个词“很有把握” PPL是一个 >=1 的实数，数值越小越好 PPL=1 → 模型100%知道下一个词选啥(理想情况) PPL=10→模型在 10 个词之间摇摆不定比如 GPT-4 的 PPL≈10.2，虽然不是特别低，但在语言模型中已属不错，因为自然语言本身就是复杂且多样的。

Foundamental Knowledge

less than 1 minute read

Published: October 09, 2025

PPL(困惑度)是衡量语言模型性能的一个核心指标，可以理解为模型在预测下一个词的时候的等概率词汇表。困惑度低 → 模型对下一个词“很有把握” PPL是一个 >=1 的实数，数值越小越好 PPL=1 → 模型100%知道下一个词选啥(理想情况) PPL=10→模型在 10 个词之间摇摆不定比如 GPT-4 的 PPL≈10.2，虽然不是特别低，但在语言模型中已属不错，因为自然语言本身就是复杂且多样的。

Foundamental Knowledge

less than 1 minute read

Published: October 09, 2025

PPL(困惑度)是衡量语言模型性能的一个核心指标，可以理解为模型在预测下一个词的时候的等概率词汇表。困惑度低 → 模型对下一个词“很有把握” PPL是一个 >=1 的实数，数值越小越好 PPL=1 → 模型100%知道下一个词选啥(理想情况) PPL=10→模型在 10 个词之间摇摆不定比如 GPT-4 的 PPL≈10.2，虽然不是特别低，但在语言模型中已属不错，因为自然语言本身就是复杂且多样的。

Foundamental Knowledge

less than 1 minute read

Published: October 09, 2025

PPL(困惑度)是衡量语言模型性能的一个核心指标，可以理解为模型在预测下一个词的时候的等概率词汇表。困惑度低 → 模型对下一个词“很有把握” PPL是一个 >=1 的实数，数值越小越好 PPL=1 → 模型100%知道下一个词选啥(理想情况) PPL=10→模型在 10 个词之间摇摆不定比如 GPT-4 的 PPL≈10.2，虽然不是特别低，但在语言模型中已属不错，因为自然语言本身就是复杂且多样的。

硬件分析

less than 1 minute read

Published: October 03, 2025

USB Type-C

Jailbreak attack

less than 1 minute read

Published: October 06, 2025

摘自Twitter 好奇心作祟

Jailbreak attack

less than 1 minute read

Published: October 06, 2025

摘自Twitter 好奇心作祟

Jailbreak attack

less than 1 minute read

Published: October 06, 2025

摘自Twitter 好奇心作祟

硬件分析

less than 1 minute read

Published: October 03, 2025

USB Type-C

Jailbreak attack

less than 1 minute read

Published: October 06, 2025

摘自Twitter 好奇心作祟

硬件分析

less than 1 minute read

Published: October 03, 2025

wardell-H

Posts by Tags

DPO

Mac

Only Apple can Do?

SFT

USB C

USB Type-C

alignment

大语言模型的安全对齐

大语言模型

什么是alignment?

什么是我们想让大模型输出的东西？

什么是我们不想让大模型输出的东西？

新闻

为什么这些是我们不想让大模型输出的东西？

怎样控制大模型输出的内容？

basic knowledge

c program language

C语言拾遗--指针与引用

computer science

C语言拾遗--指针与引用

什么是Git?--不止会用

Git的数据结构

dev tools

什么是Git?--不止会用

Git的数据结构

divergence

fake alignment

On a Connection Between Imitation Learning and RLHF

git

什么是Git?--不止会用

Git的数据结构

iCloud

Only Apple can Do?

iPad

Only Apple can Do?

iPhone

Only Apple can Do?

large language model

using paired samples for generating steering vectors

On a Connection Between Imitation Learning and RLHF

大语言模型的安全对齐

大语言模型

什么是alignment?

什么是我们想让大模型输出的东西？

什么是我们不想让大模型输出的东西？

新闻

为什么这些是我们不想让大模型输出的东西？

怎样控制大模型输出的内容？

llm-attacks

model evaluation

using paired samples for generating steering vectors

open source

paper reading

pointer

C语言拾遗--指针与引用

rlhf

safety

On a Connection Between Imitation Learning and RLHF

大语言模型的安全对齐

大语言模型

什么是alignment?

什么是我们想让大模型输出的东西？

什么是我们不想让大模型输出的东西？

新闻

为什么这些是我们不想让大模型输出的东西？

怎样控制大模型输出的内容？

societal ai

software

white-box attack

困惑度

多样性

核采样

流利度

硬盘

USB Type-C

编码绕过

角色扮演

键盘