基于CRF序列标注的中文依存句法分析器的Java实现

最新推荐文章于 2024-02-24 02:25:39 发布

weixin_34062329

最新推荐文章于 2024-02-24 02:25:39 发布

阅读量166

点赞数

文章标签： java 人工智能

本文介绍了一个基于CRF的中文依存句法分析器的实现，通过改进特征模板和训练参数，实现了较高的分析速度和准确率。讨论了算法的局限性和未来改进的方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://www.hankcs.com/nlp/parsing/crf-sequence-annotation-chinese-dependency-parser-implementation-based-on-java.html

这是一个基于CRF的中文依存句法分析器，内部CRF模型的特征函数采用双数组Trie树(DoubleArrayTrie)储存，解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》，分析速度翻了一倍，达到了1262.8655 sent/s

CRF简介

CRF是序列标注场景中常用的模型，比HMM能利用更多的特征，比MEMM更能抵抗标记偏置的问题。在生产中经常使用的训练工具是CRF++，关于CRF++的使用以及模型格式请参阅《CRF++模型格式说明》。

CRF训练

语料库

与《最大熵依存句法分析器的实现》相同，采用清华大学语义依存网络语料的20000句作为训练集。

预处理

依存关系事实上由三个特征构成——起点、终点、关系名称。在本CRF模型中暂时忽略掉关系名称（在下文可以利用其它模型补全）。

根据依存文法理论, 我们可以知道决定两个词之间的依存关系主要有二个因素: 方向和距离。因此我们将类别标签定义为具有如下的形式:

[ + |- ] dPOS

其中, [ + | - ]表示方向, + 表示支配词在句中的位置出现在从属词的后面, – 表示支配词出现在从属词的前面; POS表示支配词具有的词性类别; d表示距离。

比如原树库：

 
         1   很   很   d   d   _   2   程度 
        
         2   有   有   v   vyou    _   0   核心成分   
        
         3   必要  必要  a   a   _   2   存现体
        
         4   对   对   p   p   _   14  介词依存   
        
         5   惩治  惩治  v   v   _   14  限定 
        
         6   贪污  贪污  v   v   _   8   限定 
        
         7   贿赂  贿赂  n   n   _   6   连接依存   
        
         8   犯罪  犯罪  v   vn  _   5   受事 
        
         9   的   的   u   ude1    _   5   “的”字依存 
        
         10  一些  一些  m   mq  _   14  数量 
        
         11  理论  理论  n   n   _   14  限定 
        
         12  与   与   c   cc  _   11  连接依存   
        
         13  实践  实践  v   vn  _   11  连接依存   
        
         14  问题  问题  n   n   _   16  内容 
        
         15  进行  进行  v   vx  _   16  评论 
        
         16  研究  研究  v   vn  _   3   限定

转换后：

 
         很   d   d   +1_v
        
         有   v   vyou    -1_ROOT
        
         必要  a   a   -1_v
        
         对   p   p   +3_n
        
         惩治  v   v   +3_n
        
         贪污  v   v   +1_v
        
         贿赂  n   n   -1_v
        
         犯罪  v   vn  -2_v
        
         的   u   ude1    -3_v
        
         未##量    m   mq  +2_n
        
         理论  n   n   +1_n
        
         与   c   cc  -1_n
        
         实践  v   vn  -1_n
        
         问题  n   n   +2_v
        
         进行  v   vx  +1_v
        
         研究  v   vn  -1_a

特征模板

 
         # Unigram
        
         U01:%x[0,0]
        
         U02:%x[0,0]/%x[0,2]
        
         U03:%x[-1,2]/%x[0,0]
        
         U04:%x[-1,2]/%x[0,2]/%x[0,0]
        
         U05:%x[0,0]/%x[1,2]
        
         U06:%x[0,0]/%x[0,2]/%x[1,2]
        
         U07:%x[-1,2]/%x[0,2]
        
         U08:%x[-1,1]/%x[0,2]
        
         U09:%x[0,2]/%x[1,2]
        
         U10:%x[0,2]/%x[1,1]
        
         U11:%x[-2,2]/%x[-1,2]/%x[0,2]/%x[1,2]
        
         U12:%x[-1,2]/%x[0,2]/%x[1,2]/%x[2,2]
        
         U13:%x[-2,2]/%x[-1,2]/%x[0,2]/%x[1,2]/%x[2,2]
        
         U14:%x[-2,1]/%x[-1,2]/%x[0,2]
        
         U15:%x[-1,2]/%x[0,2]/%x[1,2]
        
         U16:%x[-1,1]/%x[0,2]/%x[1,1]
        
         U17:%x[-1,2]/%x[1,2]
        
         # Bigram
        
         B

训练参数

 
         crf_learn -f 3 -c 4.0 -p 3 template.txt train.txt model -t

我的试验条件（机器性能）有限，每迭代一次要花5分钟，最后只能设定最大迭代次数为100。经过痛苦的迭代，得到了一个效果非常有限的模型，其serr高达50%，暂时只做算法测试用。

解码

标准的维特比算法假定所有标签都是合法的，但是在本CRF模型中，标签还受到句子的约束。比如最后一个词的标签不可能是+nPos，必须是负数，而且任何词的[+/-]nPos都得保证后面（或前面，当符号为负的时候）有n个词语的标签是Pos。所以我覆写了CRF的维特比tag算法，代码如下：

 
         @Override
        
         public 
         void 
         tag(Table table)
        
         {
        
         int 
         size = table.size();
        
         double 
         bestScore = 
         0
         ;
        
         int 
         bestTag = 
         0
         ;
        
         int 
         tagSize = id2tag.length;
        
         LinkedList<
         double
         []> scoreList = computeScoreList(table, 
         0
         );    
         // 0位置命中的特征函数
        
         for 
         (
         int 
         i = 
         0
         ; i < tagSize; ++i)   
         // -1位置的标签遍历
        
         {
        
         for 
         (
         int 
         j = 
         0
         ; j < tagSize; ++j)   
         // 0位置的标签遍历
        
         {
        
         if 
         (!isLegal(j, 
         0
         , table)) 
         continue
         ;
        
         double 
         curScore = matrix[i][j] + computeScore(scoreList, j);
        
         if 
         (curScore > bestScore)
        
         {
        
         bestScore = curScore;
        
         bestTag = j;
        
         }
        
         }
        
         }
        
         table.setLast(
         0
         , id2tag[bestTag]);
        
         int 
         preTag = bestTag;
        
         // 0位置打分完毕，接下来打剩下的
        
         for 
         (
         int 
         i = 
         1
         ; i < size; ++i)
        
         {
        
         scoreList = computeScoreList(table, i);    
         // i位置命中的特征函数
        
         bestScore = Double.MIN_VALUE;
        
         for 
         (
         int 
         j = 
         0
         ; j < tagSize; ++j)   
         // i位置的标签遍历
        
         {
        
         if 
         (!isLegal(j, i, table)) 
         continue
         ;
        
         double 
         curScore = matrix[preTag][j] + computeScore(scoreList, j);
        
         if 
         (curScore > bestScore)
        
         {
        
         bestScore = curScore;
        
         bestTag = j;
        
         }
        
         }
        
         table.setLast(i, id2tag[bestTag]);
        
         preTag = bestTag;
        
         }
        
         }

注意上面的

 
         if 
         (!isLegal(j, i, table)) 
         continue
         ;

保证了标签的合法性。

这一步的结果：

 
         坚决  a   ad  +1_v   
        
         惩治  v   v   -1_ROOT
        
         贪污  v   v   +2_n   
        
         贿赂  n   n   -1_v   
        
         等   u   udeng   -1_v   
        
         经济  n   n   +1_v   
        
         犯罪  v   vn  -2_v

后续处理

有了依存的对象，还需要知道这条依存关系到底是哪种具体的名称。我从树库中统计了两个词的词与词性两两组合出现概率，姑且称其为2gram模型，用此模型接受依存边两端的词语，输出其最可能的关系名称。

最终结果

转换为CoNLL格式输出：

 
         1   坚决  坚决  ad  a   _   2   方式  _   _
        
         2   惩治  惩治  v   v   _   0   核心成分    _   _
        
         3   贪污  贪污  v   v   _   6   限定  _   _
        
         4   贿赂  贿赂  n   n   _   3   连接依存    _   _
        
         5   等   等   udeng   u   _   3   连接依存    _   _
        
         6   经济  经济  n   n   _   7   限定  _   _
        
         7   犯罪  犯罪  vn  v   _   2   受事  _   _