学术速运|结构诱导预训练

题目:Structure-inducing pre-training

文献来源:Nature Machine Intelligence | Volume 5 | June 2023 | 612–621

代码:https://github.com/mmcdermott/structure_inducing_pre-training

简介:语言模型预训练和导出的通用方法重塑了机器学习研究。然而,关于为什么预训练能提高下游任务的表现,仍存在相当大的不确定性。当在自然语言之外的领域使用语言模型预训练时,这一挑战就很明显了。在这里,作者通过分析训练前方法如何在诱导的每个样本潜在空间中施加关系结构来研究这个问题-训练前方法对训练前的样本嵌入之间的距离或几何施加什么约束。对训练前方法的全面回顾表明,这个问题仍然是开放的,尽管理论上的分析表明,理解这种形式的诱导结构的重要性。在此基础上,我们引入了一个预训练框架,使我们能够全面地理解如何诱导关系结构。作者从frst原理对该框架进行了理论分析,并建立了训练前的关系归纳偏差和神经元调优性能之间的联系。实证研究跨越三种数据模式和十种快速调整任务的理论分析,告知设计新的训练前方法,并对一套方法实现改进。

主要内容:

-------------------------------------------

欢迎点赞收藏转发!

下次见!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值