【论文笔记】中文社交媒体中的跨领域,半监督的NER模型

本文介绍了一种统一模型,用于在中文社交媒体上进行跨领域和半监督的命名实体识别(NER),特别是在PER、ORG、GPE、LOC、NAM、NOM、PRO实体识别中。该模型利用BILSTM-MMNN,结合领域相似性和self-training策略,提高了在噪声数据和无标注数据上的性能。实验表明,该模型在微博和SIHAN数据集上实现了显著的性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

title

A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Media
中文社交媒体中的跨领域,半监督的统一NER模型

主要内容

提出了一种能够在无标注的外部领域数据和本领域数据上面做ner的统一方法,并在中文社交媒体数据集上得到11个点的绝对提升
框架有两个主要功能
1.基于领域相似性,从跨领域的数据中学习到外部领域的信息
2.通过self-training,从本领域的未标注数据中学习到更多信息。

背景

NER

命名实体识别(NER)通常要识别的有五类实体类型,人名(PER),标题(TTL),机构(ORG),行政单位(GPE),地理位置(LOC).而识别中的mention,是一个指向实体的单词(NAM),名词短语(NOM)或者介词短语(PRO)。一般来说会把NER看做一个序列标注过程。
社交媒体上的NER困难在于需要容忍用户的不规范表达和大量噪声(存在大量简写和大量打印错误)。与此同时,因为汉语没有明显的词边界,这又给序列标注带来很多困难。
本篇文章考虑的是在中文社交媒体中做PER,ORG,GPE,LOC,NAM,NOM,PRO的NER。

Cross domain learning

一方面因为缺少跨领域的足够标注,另一方面有时候并不能知道语料本身的所属领域,有的NLP任务在切换领域测试时候效果往往急剧下降,这也对模型的领域适应性提出考验。

Semi-Supervised Learning

因为人工标注成本特别高,而大量数据都是没有标注的,半监督的方法利用无标注数据非常必要,具体的半监督的各种方法可以参考http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496155.html相关的系列文章。

方法细节

Framework

论文的提出用一个统一的框架去解决cross domain的NER学习问题,首先问题被定义为对sentence的序列标注,所以作者选择了BILSTM-MMNN(max margin neural network)作为训练的基础模型,也就是说,对于一个句子 x x 来说,NER的结果是序列标注score最大的那一组:
这里写图片描述
其中, s ( x , y ¯ , θ ) 是一个标注结果序列
与此同时,作者加入了一个margin作为正负样本间的边界:
这里写图片描述
那么优化目标可以看成
这里写图片描述
最后对于序列标注本身的score计算为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值