哈工大中文信息处理_哈工大讯飞联合实验室发布中文XLNet预训练模型

weixin_39685762

于 2020-12-15 03:52:43 发布

阅读量730

点赞数

文章标签：哈工大中文信息处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39685762/article/details/111341743

版权

哈工大讯飞联合实验室发布了首个中文XLNet预训练模型，填补了XLNet在中文自然语言处理领域的空白，该模型在中文机器阅读理解等任务中表现出显著性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了进一步促进中文信息处理发展，哈工大讯飞联合实验室(HFL)发布在大规模语料上训练的首个中文XLNet预训练模型，填补了该模型在中文自然语言处理领域的空白，同时该预训练模型在中文机器阅读理解等任务中获得显著性能提升。我们欢迎各界同行下载使用并共同参与建设中文资源。

下载地址：https://github.com/ymcui/Chinese-PreTrained-XLNet

摘要

哈工大讯飞联合实验室在前不久发布了基于全词Mask的中文预训练模型BERT-wwm以及BERT-wwm-ext模型，受到业界广泛关注及下载使用，在此表示衷心的感谢。为了进一步提升中文自然语言处理任务效果，推动中文信息处理发展，我们使用大规模中文语料训练了首个中文XLNet预训练模型，填补了该模型在中文自然语言处理领域的空白。经过我们的初步实验证明该模型在中文机器阅读理解任务中获得了显著性能提升。

预训练细节

本次发布的中文XLNet模型采用了24层Transformer结构，总参数量为209M。预训练数据总词数达到5.4B。训练时采用的最大长度为512，总训练步数达到2M步，batch size为32。训练采用了谷歌Cloud TPU v3版本(128G HBM)，总训练时长约3周。为了保证结果的可靠性，在下游任务精调过程中，对于同一模型，我们运行10遍(不同随机种子)，汇报模型性能的最大值和平均值。

基线测试结果

中文简体阅读理解：CMRC 2018

CMRC 2018是哈工大讯飞联合实验室发布的中文机器阅读理解数据，前不久被EMNLP-IJCNLP 2019录用。根据给定问题，系统需要从篇章中抽取出片段作为答案，形式与SQuAD相同。可以看到XLNet模型相比于BERT以及我们发布的BERT-wwm、BERT-wwm-ext模型均有显著的性能提升，尤其是在挑战集合上涨幅非常明显。

中文繁体阅读理解：DRCD

DRCD数据集由中国台湾台达研究院发布，其形式与SQuAD相同，是基于繁体中文的抽取式阅读理解数据集。我们同样可以看到XLNet相比于BERT系列模型有非常显著的性能提升。

情感分类：ChnSentiCorp

ChnSentiCorp是一个中文情感分类数据集，是一个二分类任务。我们可以看到XLNet获得了较优的结果，尤其是在平均效果上获得较为显著的性能提升。

后记

由于时间以及资源有限，我们仅在上述数据集上验证了实验效果。我们欢迎各位专家学者下载试用并加入到本开源项目中，进一步丰富与促进中文资源的建设与发展。

延伸阅读

哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型
哈工大讯飞联合实验室发布中文BERT-wwm-ext预训练模型

原文、编辑：HFL编辑部

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。