本文是LLM系列的文章,针对《Backpack Language Models》的翻译。
摘要
我们介绍了Backpacks:一种新的神经架构,它将强大的建模性能与可解释性和控制性的接口结合在一起。背包为词汇表中的每个单词学习多个非上下文意义向量,并将序列中的一个单词表示为该序列中意义向量的上下文相关、非负线性组合。我们发现,经过训练后,感觉向量会发生专门化,每个向量都会编码单词的不同方面。我们可以通过检查感向量在输出空间上的(非上下文、线性)投影来解释感向量,并干预这些可解释的挂钩,以可预测的方式改变模型的行为。我们在OpenWebText上训练了一个170M参数的Backpack语言模型,匹配GPT-2小型(124M参数)Transformer的损失。在词汇相似性评估中,我们发现Backpack感觉向量甚至优于6B参数Transformer LM的单词嵌入。最后,我们提出了一些简单的算法,这些算法对感觉向量进行干预,以执行可控的文本生成和去偏。例如,我们可以编辑意义词汇,使其更倾向于某个主题,或者将性别偏见的来源定位为意义向量,并在全球范围内抑制这种意义。
本文介绍了一种新的神经架构——Backpack,它结合了强大的建模性能与可解释性和控制性接口。Backpack为每个单词学习多个非上下文意义向量,通过这些向量的上下文相关组合来表示序列中的单词。实验表明,经过训练后的感向量会专门化,编码单词的不同方面。通过干预感向量,可以实现可控的文本生成和去偏。尽管存在扩展性和多语言适应性的挑战,但Backpack为理解和引导语言模型行为提供了新途径。
已下架不支持订阅
939

被折叠的 条评论
为什么被折叠?



