论文分享 | 大语言模型的 few-shot 或许会改变机器翻译的范式

动手点关注

55d37845a039ec190d630404033abdf8.gif

干货不迷路

近期 NLP 界的大语言模型 (Large LM) 引领了一波研究热潮 。有关大语言模型介绍的博文众多、此处推荐一下 Stanford 为此专门设计的一门课程(仅开源了讲义)。

Stanford CS324 - Large Language Modelsstanford-cs324.github.io/winter2022/

大语言模型当然也影响到了机器翻译领域。近一个月里 arxiv 上挂出了多篇相关的论文,而去年一年类似的工作基本都是在 WMT 比赛后作为参赛报告提交的。由此也可以窥见大语言模型对机器翻译的冲击。

这几篇论文展示的一些结果很有启发,尤其是本次 Google 发表的论文很有在未来改变机器翻译训练范式的潜质——尽管笔者认为论文的实验分析存在一些瑕疵,我也赞同论文标题对他们在 few-shot 机器翻译上效果的形容:unreasonable。

接下来笔者将针对论文进行简单介绍及评价。


The unreasonable effectiveness of few-shot learning for machine translation

机构:Google AI

链接:https://arxiv.org/pdf/2302.01398.pdf


本文的效果非常惊艳。作者声称只使用 decoder-only 的模型(类似PaLM) [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html] 、中量级的单语数据做训练,再在infer时加上五组双语对,就能让 few-sh

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值