摘要:获取潜在语义的能力是决定语言模型性能的关键特性之一。激发这种能力的一种便捷方法是在预训练数据的文本开头添加元数据(如URL、域名和样式),使模型在观察整个文本之前更容易访问潜在语义。先前的研究报告称,该技术实际上提高了训练模型在下游任务中的性能;然而,这种改进仅在特定下游任务中观察到,并未一致地改善平均下一个词元预测损失。
为理解这一现象,我们通过使用人工数据检查模型行为,密切研究了预训练期间前置元数据如何影响模型性能。有趣的是,我们发现这种方法对下游任务既产生积极影响,也产生消极影响。我们证明该方法的有效性取决于是否可以从下游任务的提示中推断出潜在语义。具体而言,通过使用概率上下文无关文法生成的数据进行研究,我们表明当给定上下文足够长以推断潜在语义时,带有元数据的训练有助于提高模型性能。相反,当上下文缺乏进行准确后验推断所需的信息时,该技术会对性能产生负面影响。
主题分类:计算与语言(cs.CL);机器学习(cs.LG)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

9119

被折叠的 条评论
为什么被折叠?



