中文NER—项目中的SOTA应用

前言

最近博主在做的一个项目中涉及到了中文NER任务。所以调研了近些年来中文NER上有什么刷榜的模型。发现了两个宝藏模型:FLAT和LEBERT。本篇文章将简单介绍下这两个模型各自的思想,并针对LEBERT的GitHub代码做一些实验上的分析。最后,还会提出一些NER数据增强方法。

原文链接:中文NER—项目中的SOTA应用

图片

一、FLAT(ACL2020)

1、论文标题:《 FLAT: Chinese NER Using Flat-Lattice Transformer 》

2、论文链接:https://arxiv.org/pdf/2004.11795.pdf

3、Github:https://github.com/LeeSureman/Flat-Lattice-Transformer

4、方法

FLAT结构如下图Figure1(c)所示,每个字符和每个潜在的word使用head和tail两个索引去表示token在输入序列中的绝对位置,head表示开始索引,tail表示结束索引,对于每个字符,head和tail是一样的;每个word是不一样的,比如word “重庆”,head为1,tail为2,说明序列中第一个字符和第二个字符为“重庆”。

图片

5、腾讯音乐文本NER

之前听分享报告,腾讯QQ音乐在做音乐文本NER时,采用的就是FLAT模型。其NER优化方案就是:设计更好的领域内知识融入模型。而该项目是2020年做的,当年领域内知识融入

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值