学习笔记(4)——序列标注与隐马尔可夫模型


对于一个句子中相对陌生的新词,之前的分词算法识别不出,但人类可以根据构词法进行动态组词。所以我们需要更细粒度的模型,比词语更细粒度的就是字符。
只要将每个汉字组词时所处的位置(首尾等)作为标签,则中文分词就转化为给定汉字序列找出标签序列的问题。一般而言,由字构词是 序列标注模型 的一种应用。在所有“序列标注”模型中, 隐马尔可夫模型 是最基础的一种。

序列标注问题

序列标注指的是给定一个序列 x = x 1 x 2 … x n x=x_{1} x_{2} \ldots x_{n} x=x1x2xn ,找出序列中每个元素对应标签 y = y 1 y 2 … y n y=y_{1} y_{2} \ldots y_{n} y=y1y2yn 的问题。其中,y 所有可能的取值集合称为标注集 。比如,输入一个自然数序列,输出它们的奇偶性。

求解序列标注问题的模型一般称为序列标注器 ,通常由模型从一个标注数据集 { X , Y } = { ( x ( i ) , y ( i ) ) } , i = 1 , … , K \{X, Y\}=\left\{\left(x^{(i)}, y^{(i)}\right)\right\}, i=1, \ldots, K { X,Y}={ (x(

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值