Foundamental Knowledge
Published:
PPL(困惑度)是衡量语言模型性能的一个核心指标,可以理解为模型在预测下一个词的时候的等概率词汇表。 困惑度低 → 模型对下一个词“很有把握” PPL是一个 >=1 的实数,数值越小越好 PPL=1 → 模型100%知道下一个词选啥(理想情况) PPL=10→模型在 10 个词之间摇摆不定 比如 GPT-4 的 PPL≈10.2,虽然不是特别低,但在语言模型中已属不错,因为自然语言本身就是复杂且多样的。
核采样 (nucleus sampling) 只需要概率从大到小先进行排序,然后累加,超过0.9的话
生成文本的评估指标 diversity of generated text(多样性) fluency(流利度)
