题目:Structure-inducing pre-training
文献来源:Nature Machine Intelligence | Volume 5 | June 2023 | 612–621
代码:https://github.com/mmcdermott/structure_inducing_pre-training
简介:语言模型预训练和导出的通用方法重塑了机器学习研究。然而,关于为什么预训练能提高下游任务的表现,仍存在相当大的不确定性。当在自然语言之外的领域使用语言模型预训练时,这一挑战就很明显了。在这里,作者通过分析训练前方法如何在诱导的每个样本潜在空间中施加关系结构来研究这个问题-训练前方法对训练前的样本嵌入之间的距离或几何施加什么约束。对训练前方法的全面回顾表明,这个问题仍然是开放的,尽管理论上的分析表明,理解这种形式的诱导结构的重要性。在此基础上,我们引入了一个预训练框架,使我们能够全面地理解如何诱导关系结构。作者从frst原理对该框架进行了理论分析,并建立了训练前的关系归纳偏差和神经元调优性能之间的联系。实证研究跨越三种数据模式和十种快速调整任务的理论分析,告知设计新的训练前方法,并对一套方法实现改进。
主要内容:
-------------------------------------------
欢迎点赞收藏转发!
下次见!