xlnet中文文本分类

XLNet是由CMU和GoogleBrain合作推出的模型,在多项NLP任务中超越BERT。本文介绍了XLNet融合自回归和自编码语言模型的特性,提出乱序语言模型解决双向信息利用问题,并探讨了其在中文文本分类中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

   X L N e t XLNet XLNet 模型由卡内基梅隆大学与 G o o g l e B r a i n Google Brain GoogleBrain 团队在 2019 年 6 月携手推出的 ,其在 20 项 N L P NLP NLP 任务中超过 B E R T BERT BERT 模型,且在其中 18 项任务中拿到最优成绩,包括机器问答、自然语言推断、情感分析和文档排序等。同 B E R T BERT BERT 一样,我这里就不讲原理了,网上各种博客对 X L N e t XLNet XLNet 的介绍都很详细,感兴趣的可以自己去搜索一下,我这里还是只讲文本分类的应用。
   X L N e t XLNet XLNet 融合了自回归( A R AR AR,单向语言模型)、自编码( A E AE AE,双向语言模型)等语言模型特征,采用最先进的 t r a n s f o r m e r transformer transformer 特征提取器( t r a n s f o r m e r − x l transformer-xl transformerxl,利用分割循环机制和相对位置编码进行高并发-超长文本处理),开创性地提出了排列语言模型。

自回归语言模型

  自回归( A R AR AR)是一种使用上下文词来预测下一个词的模型。但是上下文的方向只能使用前向或后向。
   A R AR AR 的优势是擅长生成式自然语言处理任务。 因为在生成上下文时,通常是前向的,但是它也有自己的缺点,只能利用上文或者下文的信息,不能同时使用。

自编码语言模型

  自编码( A E AE AE)采用的就是以上下文的方式,最典型的成功案例就是 B e r t Bert Bert。通过在输入语句中随机 M a s k Mask Mask 掉一部分单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被 M a s k Mask Mas

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值