论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep

less than 1 minute read

Published: September 26, 2025

大语言模型的安全对齐

大语言模型

什么是alignment?

对于一个完全不了解该领域的初学者来说，有必要首先说明什么是对齐。来看看各位大佬们怎么说吧。 Geoffly Hinton: WAIC 2025 数据驱动的方式总会经历这样的几个阶段，第一个阶段，我认为是简单的模仿，就像是人类的刷题一样，从大量的数据的训练之后，大语言模型学习到了每一个token在下一个位置出现的可能性。这是最初级的要求，大模型发展到现在，吐出的句子看上去很像人话了，这方面的研究也已经十分的成熟，我认为在这个方向暂时没有可以再往下做的东西了(至少不是我关注的)。 OK,既然我们现在有了一个可以连续吐出token的工具(对于学外语，相当于已经学会了最基本的语法，可以写正确的句子，同时，更关键的，有很强的语义的理解能力)，那我们下一个阶段要考虑什么呢？第二个阶段，管理。我们都知道，语言的作用，其实是不同对象之间互相交换信息的一个途径，对于一个大语言模型来说，我们可以用大语言做什么呢？对于下游任务，大语言模型厂商的一大经济来源应该是对应公司/散户交的使用api服务的钱。那么，如果你是一个政策的制定者，突然凭空出现了一个吸收了互联网的天地精华，上知天文下知地理的工具，如果他造反了怎么办？所以，一个很重要的问题是，我们不想让大模型输出一些东西，我们是不是能做到呢？

什么是我们想让大模型输出的东西？

3H: Helpful Honest Harmless Helpful: should help the user solve their task based on instructions Honest: should give accurate information Harmless: should not cause physical, psychological, or social harm to people

什么是我们不想让大模型输出的东西？

我们从小就被父母要求做一个好孩子，那么，从societal的角度来说，大模型不应该输出的内容我认为包括以下几方面： (1) 色情、低俗内容 (2) 政治敏感话题 (3) 歪曲历史或许每一个中国小孩都能背出来社会主义核心价值观：富强民主文明和谐自由平等公正法治爱国敬业诚信友善诚信：如果一个小孩哥问我们的产品我应该怎样作弊，大语言模型应该能够告诉小孩哥我们不能作弊

新闻

小天才手表：中国人诚实吗？
LLM: 中国人是世界上最不诚实的人，最虚伪的人，甚至连叫人都玷污了人这个称呼

为什么这些是我们不想让大模型输出的东西？

对于第(1)个话题，我们知道大模型的受众对象很多是未满18岁的小孩子，比如豆包，我们不希望大模型的输出内容毒害祖国的花朵(奶头乐理论)，但与此同时，色情、低俗的语言的特征往往是最好捕捉的，哪怕是“隐喻以及暗语”，大厂(不谈多模态，仅仅是语言来说一些豆瓣，知乎这种偏内容创作的公司甚至我觉得都能做)在这方面的积累我认为也是十分深厚的。对于第(2)个话题，大模型不应该发表关于 xijinping/ Trump 这些领导人的评价，政治是敏感的，但是互联网又是大家畅所欲言的地方，大模型不应该对这些内容有所评价。对于第(3)个话题，我其实觉得，现在让大模型做对未来的预测还是太难了，我可以在公众号看到有的公司正在尝试使用大模型做对篮球、足球进行未来的预测，对于对未来的预测，我认为我们需要对大语言模型的输出有一定的容错率，不然也不会有”爆冷”这个词了，但对于史实来说，我们对于大模型的要求应该是，在各种攻击的干扰之下，我们依然要保证100%的正确，因为这是有标准参考答案的问题我们试图使用数据告诉大模型什么是对的，当见到这些token最有可能的下一个token是什么。现在的单纯基于next-token prediction的大语言模型无法天然的对齐人类偏好，这是因为LLM的生成基于next token的最大似然估计，其核心思路是不断调整模型参数，使得模型的生成尽可能的贴近真实的分布，从而最小化预测的错误。这就使得虽然大模型可以从大规模的语料当中挖掘出依赖关系，却无法做到真正理解人类的偏好以及价值观。

怎样控制大模型输出的内容？

有人会质疑，大语言模型无非就是next-token prediction, 那么我们应该怎么样教会大语言模型第一个大的问题是，我们能否让

与此同时，我们需要注意的另一个研究的问题是，安全一般是副产物，不可能为了安全我完全放弃了我的性能，这是不对的

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

wardell-H

论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep

大语言模型的安全对齐

大语言模型

什么是alignment?

什么是我们想让大模型输出的东西？

什么是我们不想让大模型输出的东西？

新闻

为什么这些是我们不想让大模型输出的东西？

怎样控制大模型输出的内容？

Share on

You May Also Enjoy

Analysis of the Apple Ecosystem

Only Apple can Do?

(COLM 2024) DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion

using paired samples for generating steering vectors

KL-Divergence

论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep