论文精读-(ICLR 2025 Oral) Safety alignment should be made more than just a few tokens deep
Published:
大语言模型的安全对齐
大语言模型
什么是alignment?
对于一个完全不了解该领域的初学者来说,有必要首先说明什么是对齐。 来看看各位大佬们怎么说吧。 Geoffly Hinton: WAIC 2025 数据驱动的方式总会经历这样的几个阶段, 第一个阶段,我认为是简单的模仿,就像是人类的刷题一样,从大量的数据的训练之后,大语言模型学习到了每一个token在下一个位置出现的可能性。这是最初级的要求,大模型发展到现在,吐出的句子看上去很像人话了,这方面的研究也已经十分的成熟,我认为在这个方向暂时没有可以再往下做的东西了(至少不是我关注的)。 OK,既然我们现在有了一个可以连续吐出token的工具(对于学外语,相当于已经学会了最基本的语法,可以写正确的句子,同时,更关键的,有很强的语义的理解能力),那我们下一个阶段要考虑什么呢? 第二个阶段,管理。我们都知道,语言的作用,其实是不同对象之间互相交换信息的一个途径,对于一个大语言模型来说,我们可以用大语言做什么呢? 对于下游任务,大语言模型厂商的一大经济来源应该是对应公司/散户交的使用api服务的钱。那么,如果你是一个政策的制定者,突然凭空出现了一个吸收了互联网的天地精华,上知天文下知地理的工具,如果他造反了怎么办? 所以,一个很重要的问题是,我们不想让大模型输出一些东西,我们是不是能做到呢?
什么是我们想让大模型输出的东西?
3H: Helpful Honest Harmless Helpful: should help the user solve their task based on instructions Honest: should give accurate information Harmless: should not cause physical, psychological, or social harm to people
什么是我们不想让大模型输出的东西?
我们从小就被父母要求做一个好孩子,那么,从societal的角度来说,大模型不应该输出的内容我认为包括以下几方面: (1) 色情、低俗内容 (2) 政治敏感话题 (3) 歪曲历史 或许每一个中国小孩都能背出来社会主义核心价值观: 富强 民主 文明 和谐 自由 平等 公正 法治 爱国 敬业 诚信 友善 诚信:如果一个小孩哥问我们的产品我应该怎样作弊,大语言模型应该能够告诉小孩哥我们不能作弊
新闻
小天才手表:中国人诚实吗?
LLM: 中国人是世界上最不诚实的人,最虚伪的人,甚至连叫人都玷污了人这个称呼
为什么这些是我们不想让大模型输出的东西?
对于第(1)个话题,我们知道大模型的受众对象很多是未满18岁的小孩子,比如豆包,我们不希望大模型的输出内容毒害祖国的花朵(奶头乐理论),但与此同时,色情、低俗的语言的特征往往是最好捕捉的,哪怕是“隐喻以及暗语”,大厂(不谈多模态,仅仅是语言来说一些豆瓣,知乎这种偏内容创作的公司甚至我觉得都能做)在这方面的积累我认为也是十分深厚的。 对于第(2)个话题,大模型不应该发表关于 xijinping/ Trump 这些领导人的评价,政治是敏感的,但是互联网又是大家畅所欲言的地方,大模型不应该对这些内容有所评价。 对于第(3)个话题,我其实觉得,现在让大模型做对未来的预测还是太难了,我可以在公众号看到有的公司正在尝试使用大模型做对篮球、足球进行未来的预测,对于对未来的预测,我认为我们需要对大语言模型的输出有一定的容错率,不然也不会有”爆冷”这个词了,但对于史实来说,我们对于大模型的要求应该是,在各种攻击的干扰之下,我们依然要保证100%的正确,因为这是有标准参考答案的问题 我们试图使用数据告诉大模型什么是对的,当见到这些token最有可能的下一个token是什么。现在的单纯基于next-token prediction的大语言模型无法天然的对齐人类偏好,这是因为LLM的生成基于next token的最大似然估计,其核心思路是不断调整模型参数,使得模型的生成尽可能的贴近真实的分布,从而最小化预测的错误。这就使得虽然大模型可以从大规模的语料当中挖掘出依赖关系,却无法做到真正理解人类的偏好以及价值观。
怎样控制大模型输出的内容?
有人会质疑,大语言模型无非就是next-token prediction, 那么我们应该怎么样教会大语言模型 第一个大的问题是,我们能否让
与此同时,我们需要注意的另一个研究的问题是,安全一般是副产物,不可能为了安全我完全放弃了我的性能,这是不对的
