动手点关注
干货不迷路
近期 NLP 界的大语言模型 (Large LM) 引领了一波研究热潮 。有关大语言模型介绍的博文众多、此处推荐一下 Stanford 为此专门设计的一门课程(仅开源了讲义)。
Stanford CS324 - Large Language Modelsstanford-cs324.github.io/winter2022/
大语言模型当然也影响到了机器翻译领域。近一个月里 arxiv 上挂出了多篇相关的论文,而去年一年类似的工作基本都是在 WMT 比赛后作为参赛报告提交的。由此也可以窥见大语言模型对机器翻译的冲击。
这几篇论文展示的一些结果很有启发,尤其是本次 Google 发表的论文很有在未来改变机器翻译训练范式的潜质——尽管笔者认为论文的实验分析存在一些瑕疵,我也赞同论文标题对他们在 few-shot 机器翻译上效果的形容:unreasonable。
接下来笔者将针对论文进行简单介绍及评价。
The unreasonable effectiveness of few-shot learning for machine translation
机构:Google AI
链接:https://arxiv.org/pdf/2302.01398.pdf
本文的效果非常惊艳。作者声称只使用 decoder-only 的模型(类似PaLM) [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html] 、中量级的单语数据做训练,再在infer时加上五组双语对,就能让 few-sh