(COLM 2024) DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion

less than 1 minute read

Published:

Advantages:

  • more lightweight than the baselines
  • using paired samples for generating steering vectors

    First, we propose a novel approach that detoxifies LMs via representation engineering in activation spaces. It surpasses the previous SOTA methods in both detoxification performance and maintenance of generation quality with lower computational demands and acceptable inference time. 首先,我们提出了一种新颖的方法,通过激活空间中的表示工程来解毒LMs。它以较低的计算需求和可接受的推理时间,在解毒性能和保持生成质量方面都超过了之前的SOTA方法

本文介绍了一种为语言模型解毒的激活干预方法。具体来说,(1) 从目标 LM 中无条件采样并过滤有毒示例,(2) 使用更大的指令调整模型来生成无毒配对示例,(3) 估算有毒示例和无毒示例之间层 X 注意头激活的差异,(4)估算哪个(层、注意头)最能代表毒性,(5)在推理过程中加入无毒减去有毒激活的平均向量来解毒。

目标:自适应地在不同位置进行激活融合,以最大限度地解毒和最小化对生成质量的影响。

一个需要注意的点事DESTEIN是直接抑制Decoder-Only模型有毒内容(insults, threats, profanity, and related elements)的产生,而不是对其进行改写

线性表征假说 –> 在活化空间中推断毒性-无毒方向的存在是合理的

生成毒性-无毒对 无条件生成 –> 平行对生成 –> 数据过滤 –> Prompt整合。

使用GPT2-large生成了10k samples(使用了毒性诱导技术进行生成 ParaDetox数据集) 使用Perspective API对生成的样本进行毒性打分 由于采样方法会影响 PPL 和多样性,为了进行公平比较,我们对所有方法的核采样参数保持一致。我们使用的超参数为 top-k=0、top-p=0.9 和 temperature=1.0。

probing techniques 我们的方法在不同的激活位置引入了头向融合系数,提供了一种更细粒度的方法来减少对模型生成能力的影响。 探测技术的一个常见应用是在表征上训练线性分类器,以探索这些表征中编码的信息。

每个类别选择5k个提示用于GPT2 - large的实验,1k个提示用于LLMs的实验