《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 序列标注(词性标注)


识别序列中的人名、地名、组织机构名等实体。属于序列标注问题。

序列标注的几种模式
在序列标注中,我们想对一个序列的每一个元素(token)标注一个标签。一般来说,一个序列指的是一个句子,而一个元素(token)指的是句子中的一个词语或者一个字。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。

不同的序列标注任务就是将目标句中的字或者词按照需求的方式标记,不同的结果取决于对样本数据的标注,一般序列的标注是要符合一定的标注标准的如(PKU数据标注规范)。另外, 词性标注、分词都属于同一类问题,他们的区别主要是对序列中的token的标签标注的方式不同。

下面以命名实体识别来举例说明. 我们在进行命名实体识别时,通常对每个字进行标注。中文为单个字,英文为单词,空格分割。

一个典型的分词序列标注

定义 全称 备注
B Begin 实体片段的开始
I Intermediate 实体片段的中间
E End 实体片段
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shiter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值