26、词性标注:原理、模型与应用

词性标注:原理、模型与应用

1. 引言

词性标注是计算机程序读取任意文本,将其分割为标记(token),并为每个标记附加表征该词词汇和上下文属性信息的过程。这些信息可明确指定,也可用唯一可解释的标签以更紧凑的方式编码,这种描述称为词性标签(POS tag),所有可能标签的集合称为词性标注过程的标签集。

例如,句子 “We can can a can.” 的标注如下表所示:
| Token | Explicit specification | Encoded specification |
| — | — | — |
| We | personal pronoun, first person, unspecified gender, plural and nominative case | Pp1 - pn |
| can | modal verb, indicative present | Voip |
| can | main verb, infinitive | Vmn |
| a | indefinite article, unspecified gender, singular | Ti - s |
| can | common noun, neuter gender, singular | Ncns |
|. | period, sentence final | PERIOD |

这里的 “标记” 指单词识别程序作为单个处理单元返回的文本字符串。通常,每个非空白字符串构成一个标记,但像 “New York” 或 “back and forth” 等序列可能更适合作为单个标记处理;而像意大利语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值