RoBERTa在SuperGLUE得分逼近人类,甩baseline十多个点

近日,RoBERTa模型在SuperGLUE基准测试中的表现几乎达到人类水平,比基础模型提升了十几个点,展示了其在自然语言处理任务上的强大能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据文摘出品

作者:宁静、曹培信


7月30日,文摘菌曾报道过,被谷歌XLNet全面刷爆的BERT,被Facebook升级后,变身"Robustly optimized BERT approach"——强力优化BERT方法,重新称霸GLUE、SQuAD和RACE三个排行榜。



在RACE测试集上的结果显示,RoBERTa的Accyracy相比BERT(large)提高了10个百分点,相比XLNet(large)提高了2个百分点。



现在,Facebook AI又将RoBERTa提交到了SuperGLUE,榜单显示RoBERTa已经领先Bert 15个百分点,表现直逼人类。



从GLUE到SuperGLUE:难度更大


SuperGLUE在GLUE设计的基础上,采用了一系列更加困难的语言理解任务,除了共同任务识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)外,还添加了常识推理和词义消除等任务,上表中给出的其他测试数据集包括:

  • CB短文本语料库
  • MultiRC真假问答任务数据集
  • COPA因果推理
  • WiC词义消岐


RoBERTa离人类还有多远


从SuperGLUE排行榜上看,RoBERTa的得分距离人类只有5.2分,但是NYU数据科学中心助理教授Sam Bowman在其推特上,关于这一排行榜RoBERTa直逼人类的表现也发表了看法。



SuperGLUE代表的是我们需要处理的35个任务中最难的几个。而对于35个中的大多任务,BERT 本身的性能就已经快接近极限了。


还有几点需要注意:
  • RoBERTa良好的表现很大程度受益于充足的数据集: ReCoRD和MultiRC。 效果转移到数据不佳的任务比较困难。
  • WinoGender coref.accuracy表现较好,但代价是gender parity更差。


RTE模型在downward monotone inferences仍然表现较差: 例如,它倾向于假设“所有的狗都喜欢抓它们的耳朵”。 “所有动物都喜欢搔耳朵。 ”


Sam Bowman认为,他对觉得RoBERTa有个明显的天花板,而我们对于人类表现有一个比较低的估计,他敢打赌,接下来的5到10个百分点将变得相当难以突破。


让我们期待通过算力数据以及大模型(Transformer),人类到底能够将NLP推到什么程度吧!


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值