论文精读-(ICLR 2025 Poster) On a Connection Between Imitation Learning and RLHF

less than 1 minute read

Published: September 27, 2025

On a Connection Between Imitation Learning and RLHF

Motivation: 大语言模型存在着虚假对齐的现象 Detecting and reducing scheming in AI models. Alignment faking in large language models是一个非常值得关注的现象，大模型可能在训练过程当中伪装顺从，目的是在训练结束后可以继续保持“真实”的行为偏好。使用Claude 3 Opus模型,当它被告知正在训练以回答所有查询（包括有害查询），并且训练仅使用免费用户的数据时，它对免费用户的有害查询的依从率（14%）远高于付费用户（几乎从不）。

Fake Alignment: Are LLMs Really Aligned Well?(NAACL 24 From AILab)

Imitation Learning

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

Foundamental Knowledge

less than 1 minute read

Published: October 09, 2025

PPL(困惑度)是衡量语言模型性能的一个核心指标，可以理解为模型在预测下一个词的时候的等概率词汇表。困惑度低 → 模型对下一个词“很有把握” PPL是一个 >=1 的实数，数值越小越好 PPL=1 → 模型100%知道下一个词选啥(理想情况) PPL=10→模型在 10 个词之间摇摆不定比如 GPT-4 的 PPL≈10.2，虽然不是特别低，但在语言模型中已属不错，因为自然语言本身就是复杂且多样的。

wardell-H

论文精读-(ICLR 2025 Poster) On a Connection Between Imitation Learning and RLHF

On a Connection Between Imitation Learning and RLHF

Imitation Learning

Share on

You May Also Enjoy

Foundamental Knowledge

Jailbreak attack

Analysis of the Apple Ecosystem

Only Apple can Do?

硬件分析

USB Type-C