对于一个句子中相对陌生的新词,之前的分词算法识别不出,但人类可以根据构词法进行动态组词。所以我们需要更细粒度的模型,比词语更细粒度的就是字符。
只要将每个汉字组词时所处的位置(首尾等)作为标签,则中文分词就转化为给定汉字序列找出标签序列的问题。一般而言,由字构词是 序列标注模型 的一种应用。在所有“序列标注”模型中, 隐马尔可夫模型 是最基础的一种。
序列标注问题
序列标注指的是给定一个序列 x = x 1 x 2 … x n x=x_{1} x_{2} \ldots x_{n} x=x1x2…xn ,找出序列中每个元素对应标签 y = y 1 y 2 … y n y=y_{1} y_{2} \ldots y_{n} y=y1y2…yn 的问题。其中,y 所有可能的取值集合称为标注集 。比如,输入一个自然数序列,输出它们的奇偶性。
求解序列标注问题的模型一般称为序列标注器 ,通常由模型从一个标注数据集 { X , Y } = { ( x ( i ) , y ( i ) ) } , i = 1 , … , K \{X, Y\}=\left\{\left(x^{(i)}, y^{(i)}\right)\right\}, i=1, \ldots, K { X,Y}={ (x(

最低0.47元/天 解锁文章
504

被折叠的 条评论
为什么被折叠?



