基于条件随机场模型的中文分词

一、上机目的
1.了解中文分词的基本概念和原理。
2.掌握中文分词的常用算法,包括基于词库的分词技术、基于条件随机场模型的中文分词,熟悉算法流程,能推导算法结果。
3. 编程实现基于条件随机场模型的中文分词算法。

二、上机内容与要求
4. 使用自己熟悉的编程语言实现基于条件随机场模型的中文分词算法。
5. 按照算法流程,逐步编程实现,不得调用已有的分词算法。
6. 实例验证,包括课本“希腊的经济结构较特殊”及自行指定另一句子,给分词结果截图作为实验结果。

三、上机步骤

1 条件随机场模型对应于一个无向图,用于在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布。从中文分词的角度来分析,每个词语中的每一个字都存在4种可能的状态,分别是词头(Begin)、词中(Middle)、词尾(End)和单字成词(Single),简称B、M、E、S。给定句子中的每个词则被视为条件随机场模型中的观察序列,条件随机场模型求解的就是句子中字的标记序列的联合概率分布,然后对标记序列进行回溯路径。
求解标记序列的联合概率分布的整体思路是:准备语料库;语料库特征初步学习;词语特征学习;开始分词。
标记序列的联合概率分布的求解公式为:
S[字][当前状态] = MAX(P[上一个字的状态][当前状态] x S[上一个字][任何一种状态] ) + W前(后)[前(后)一个字的状态][当前的字] + R[当前状态概率]

2 采用条件随机
2.1准备语料库
随机场模型是基于统计学习的方法,在采用条件随机场模型进行分词以前,需要准备一个语料库。语料库是由大量的句子组成,并且尽可能包含各种句式,语料库的质量直接影响联合概率分布和分词的效果,词语之间采用空格符分隔。例如下面的句子:
尽管 印尼 中央 和 地方政府 已 派出 上千人 的 灭火队,但 由于 该 地区 长期 干旱 少雨,所以 火势 至今 未 得到 有效 控制。

2.2 语料库特征学习
根据第一步分好词的语料库,我们可以看出一个字的状态可能有四种可能,分别是词头(Begin)、词中(Middle)、词尾(End)和单字成词(Single),简称B、M、E、S;当然,标点符号也是需要标记的,但一般只有一种状态,就是单字成词。我们这一步需要做的就是把语料库中的词进行标记,根据第一步的分词结果进行标记,标记后的结果如下所示:
尽\B管\E印\B尼\E中\B央\E和\S地\B方\M政\M府\E已\S派\B出\E上\B千\M人\E的\S灭\B火\M队\E,\S但\S由\B于\E该\S地\B区\E长\B期\E干\B旱\E少\B雨\E,\S所\B以\E火\B势\E至\B今\E未\S得\B到\E有\B效\E控\B制\E。\S
由上面的标注的可以看出,只要将一个句子的每一个字的状态标出,即相当于已经分词;因此,可将中文分词转换成序列标注问题,对一个未分词的序列进行标注(标注状态为B,M,E,S)可知道分词结果。例如将句子“我们爱中国”分词为“我\B们\E爱\S中\B国\E”,表示将句子分词为“我们 爱 中国”。

2.3 词语特征学习
基于用户输入的字符串,针对字符串中的每一个字,统计它在语料库中出现的次数,例如‘希’字在语料库中出现了1352次。
针对具体的某个字,计算它的状态分别为词头(Begin)、词中(Middle)、词尾(End)和单字成词(Single)的概率;例如:出现1352次的“希”字,其中有1208次希的状态是B,则“希”字的状态为B的概率为1208/1352=0.8935
针对某一个字,计算它的状态分别为词头(Begin)、词中(Middle)、词尾(End)和单字成词(Single)时,每一个字都有属于自己的状态,后面这一个字也有自己的状态,计算下一个字分别为词头(Begin)、词中(Middle)、词尾(End)和单字成词(Single)的概率,这里需要注意,只考虑下一个字的状态而不管下一个字是什么字。此过程计算的就是状态之间的相互转移的矩阵,针对每一个字的4种状态,转移到4种状态,就构成了一个4*4的矩阵,矩阵中的值就是他们相互之间转移概率。
当某一个字出现的时候,计算下一个字出现的内容,并计算两个字同时出现的概率。例如:状态为B的希字,下一个字的状态为E的腊字的概率是0.04216;还要计算当某一个字出现的时候,计算上一个字出现的内容,并计算两个字同时出现的概率。例如:状态为B的腊字,上一个字的状态为B的希字的概率是0.7024。还要考虑一个问题,就是第一个字没有前一个字,最后一个字没有后一个。

2.4 开始分词
求解每个字对应的特征,根据状态信息绘制字与状态的初始矩阵映射关系表,在未分词前,这个矩阵的初始值都为0。
依据公式求解每一个字的每一种状态的值。对于一个字符串,只要先求出第一个字的四种状态下的值,后面的类似。但不同的是,计算第一个字时,没有max部分。
第二步求映射矩阵时,总是从四个值中选一个最大值,对应的下表为0,1,2,3,然后在映射表中标记选中最大值得下标。
完成了映射矩阵和标记了下标之后,就可以进行回溯路径了。将映射矩阵的最后一个字的最大值取出,从后往前回溯,第一个数字就是最大值的下标,然后看它标记的数字,这个数字就来源于上一个字的位置,再记录下标……,
写出回溯路径后,就可以对字符串进行序列标记,0对应B,1对应M,2对应E,3对应S,标记完成即相当于分词完成。
3.1 词语特征学习
由于语料库msr_training.utf8.ic已经好了序列,帮我们省略了前两步的工作,为了方便,我把语料库另存为msr_training.utf8.txt文本文件,接下来的操作都是以这个文本文件进行的。
根据我的思路,首先第一步就是把语料库的内容当成一个字符串进行处理。面对四百多万行的文本文件,进行普通的字符流或字节流读取操作是很费时间的,因此我想到了利用字符流+缓冲区进行操作,使读取速度大大加快。把文件的读取内容赋值给可变的StringBuffer类型的变量,待完全读取后,再赋给String类型变量,因为之后语料库的内容是不变的。
统计输入的字符串中的每一个字在语料库中出现的次数。例如输入了“希腊的经济结构较特殊”,定义了一个数组,分别记录这十个字在语料库中的次数,每一个字分别遍历语料库进行统计,统计的结果如下:

s = input()      #输入要分词的字符串
ss = s     
with open("./1.txt",'r',encoding='UTF-8') as f:
    data1 = f.read()
    #print(data)
leng = len(s)
d = {
   }
for i in range(leng):
    d.update({
   s[i]:data1.count(s[i])})
print(d)
with open("./1.txt",'r',encoding='UTF-8') as f:
    data = f.readlines()
len_data = len(data)

在这里插入图片描述
2 字符串中每个字分别为B M E S的概率

#字符串中每个字分别为B M E S的概率
R = []     #下面计算的映射矩阵
for i in range(leng):
    B,M,E,S =0,0,0,0
    for j in range(len_data):
        if s[i] == data[j][0] and data[j][2] == 'B':
            B += 1
        if s[i] == data[j][0] and data[j][2] == 'M':
            M += 1
        if s[i] == data[j][0] and data[j][2] == 'E':
            E += 1
        if s[i] == data[j][0] and data[j][2] == 'S':
            S += 1
    r = [B/data1.count(s[i]),M/data1.count(s[i]),E/data1.count(s[i]),S/data1.count(s[i])]
    R.append(r)
    # print(s[i], '分别为B M E S 的次数:')
    # print(B, '  ', M, '  ', E, '  ', S)
    # print(s[i], '分别为B M E S 的概率:')
    # print(B/data1.count(s[i]), '  ', M/data1.count(s[i]), '  ', E/data1.count(s[i]), '  ', S/data1.count(s[i]))

在这里插入图片描述

2 统计当某一个字分别为B,M,E,S的状态出现时,上一个字的状态为B,M,E,S时的个数

z_tai = []
P = []
for i in range(leng):
    B_B,B_M,B_E,B_S =0,0,0,0
    M_B, M_M, M_E, M_S = 0, 0, 0, 0
    E_B, E_M, E_E, E_S = 0, 0, 0, 0
    S_B, S_M, S_E, S_S = 0, 0, 0, 0
    sum_B,sum_M,sum_E,sum_S = 0,0,0,0
    z_tai = []
    for j in range(1,len_data):
        if s[i] == data[j][0] and data[j][2] == 'B' and data[j - 1][2] == 'B':
            B_B += 1
        if s[i] == data[j][0] and data[j][2] == 'B' and data[j - 1][2] == 'M':
            B_M += 1
        if s[i] == data[j][0] and data[j][2] == 'B' and data[j - 1][2] == 'E':
            B_E += 1
        if s[i] == data[j][0] and data[j][2] == 'B' and data[j - 1][2] == 'S':
            B_S += 1
        sum_B = B_B + B_M + B_E + B_S
        if s[i] == data[j][0] and data[j][2] == 'M' and data[j - 1][2] == 'B':
            M_B += 1
        if s[i] == data[j][0] and data[j][2] == 'M' and data[j - 1][2] == 'M':
            M_M += 1
        if s[i] == data[j]
以下是基于条件随机场模型中文分词代码,使用CRF++工具包: 1. 数据准备 首先将训练数据和测试数据转换成CRF++的格式,格式为每个词和标注用空格隔开,句子之间用空行隔开,例如: 中 B 国 E 是 S 一个 S 伟 B 大 E 的 S 国 S 2. 模型训练 使用CRF++工具包进行模型训练,需要准备好训练数据和模板文件。模板文件指定了特征模板,例如: U00:%x[-2,0] U01:%x[-1,0] U02:%x[0,0] U03:%x[1,0] U04:%x[2,0] U05:%x[-2,0]/%x[-1,0]/%x[0,0] U06:%x[-1,0]/%x[0,0]/%x[1,0] U07:%x[0,0]/%x[1,0]/%x[2,0] 其中,%x[i,j]表示当前位置加上偏移量(i,j)的词和标注,U00-U07则是特征函数的名称。训练命令如下: crf_learn -f 3 -c 4.0 template train.data model 其中,-f指定特征函数的截断阈值,-c指定正则化参数。训练完成后会生成一个模型文件model。 3. 模型测试 使用CRF++工具包进行模型测试,需要准备好测试数据和模型文件。测试命令如下: crf_test -m model test.data > result 其中,-m指定模型文件,test.data是测试数据文件,> result表示将结果输出到result文件中。测试结果为每个词和标注用空格隔开,例如: 中 B 国 E 是 S 一个 S 伟 B 大 E 的 S 国 S 4. 结果评估 使用Python脚本进行结果评估,代码如下: ```python import sys def evaluate(gold_file, pred_file): gold = [] with open(gold_file, 'r', encoding='utf-8') as f: for line in f: line = line.strip() if line: word, label = line.split() gold.append(label) pred = [] with open(pred_file, 'r', encoding='utf-8') as f: for line in f: line = line.strip() if line: word, label = line.split() pred.append(label) assert len(gold) == len(pred) correct = 0 for i in range(len(gold)): if gold[i] == pred[i]: correct += 1 accuracy = correct / len(gold) return accuracy if __name__ == '__main__': gold_file = sys.argv[1] pred_file = sys.argv[2] accuracy = evaluate(gold_file, pred_file) print('Accuracy: {:.2%}'.format(accuracy)) ``` 将正确的标注文件和预测的标注文件作为参数传入,即可计算准确率。例如: python evaluate.py test.gold result 输出结果为准确率的百分比。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据闲逛人

谢谢大嘎喔~ 开心就好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值