ICTCLAS分词系统研究（八）--生成最终分词结果

最新推荐文章于 2021-02-13 14:32:34 发布

原创最新推荐文章于 2021-02-13 14:32:34 发布 · 7.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#优化

自然语言专栏收录该内容

13 篇文章

订阅专栏

本文介绍了一种通过二叉分词图表优化分词路径的方法，并详细展示了如何处理未登录词如人名和地名，最终实现词性的准确标注。

经过人名、地名等未登陆词的识别之后，再次生成二叉分词图表，求取N－最短路径。为何再次执行这样的循环，是因为在得到初分结果后又增加了新的节点（比如：人名或地名）到结果链表中，需要再次求取最短路径：

经过优化后的二叉分词图表：

	1	2	3	4	5	6	7	8	9	10	11
0	始##始@张	始##始@未##人
1			张@华	张@未##人
2						未##人@说
3					华@平
4						未##人@说
5						平@说
6							说@的
7								的@确实
8									确实@在
9										在@理
10											理@末##末

经过优化后的二叉分词路径：

序号	二叉分词路径
0	0 2 6 7 8 9 10 11

至此，我们得到了最终的分词路径，正确的把人名识别出来，但在这个结果只有一部分词正确标注了词性，主要是未登陆词，即源码中以“未＃＃X”表示的，其它的分词并未成功的进行记性标记。所以需要再次调用记性标记这一次过程，把剩余的词的词性成功标注出来。

经过优化后的分词结果：

序号	分词结果
0	张华平/nr 说/v 的/uj 确实/ad 在/p 理/n

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sinboy

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

中文分词工具探析（一）：ICTCLAS (NLPIR)

听雨草堂

12-27

1486

【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR) 开源中文分词工具探析(二)：Jieba 开源中文分词工具探析(三)：Ansj 开源中文分词工具探析(四)：THULAC 开源中文分词工具探析(五)：FNLP 开源中文分词工具探析(六)：Stanford CoreNLP 开源中文分词工具探析(七)：LTP 1. 前言 ICTCLAS是张华平老师推出...

NLP自然语言处理分词模块NLPIR-ICTCLAS

热门推荐

张新波的技术随笔

03-15

2万+

ICTCLAS的词典结构是理解分词的重要依据，通过这么一个数据结构设计合理访问速度高效的词典才能达到快速准备的分词的目的。通过阅读和分析源代码，我们可以知道，是程序运行初，先把词典加载到内存中，以提高访问的速度。源代码在Result.cpp的构造函数CResult（）内实现了词典和分词规则库的加载。如下代码所示:CResult::CResult(){ …… m_dictCore.Loa

ictclas分词系统

09-25

中科院的分词系统，非常有用。不过需要安装java才能运行。适合win32位系统使用。如有使用错误，请联系作者。

ICTCLAS分词系统研究（六）--得到初分结果

张新波的技术随笔

06-04

7790

仍然以“他说的确实在理”为例，经过NshortPath的处理后，我们可以得到N条最短二叉分词路径，如下：初次生成的分词图表： 1 2 3 4 5 6

ICTCLAS分词系统

weixin_34104341的博客

06-09

182

2019独角兽企业重金招聘Python工程师标准>>> ...

ICTCLAS分词关键技术

RYP_S 的专栏

08-21

2097

总体流程考虑输入的一句话，sSentence="张华平欢迎您"，分词流程如下 1、分词 "张/华/平/欢迎/您" 2、posTagging "张/q 华/j 平/j 欢迎/v 您/r" 3、NE识别:人名识别,音译名识别,地名识别 "张/q 华/j 平/j 欢迎/v 您/r" "张华平/nr" 4、重新分词:"张华平/欢迎/您" 5、重新posTagging: "张华平/nr

基于ICTCLAS的Java分词系统开发解析

综上所述，ICTCLAS的Java分词系统是一个强大的中文处理工具，它集成了ICTCLAS分词技术的高效性，并且通过Java平台的开发，赋予了分词系统更广泛的适用性和更高的灵活性。开发者和研究人员可以通过这个系统来构建各种...

ICTCLAS2016分词系统2016

12-05

中科院ICTCLAS2014分词系统下载包，文本分析工具，方便使用。

ICTCLAS2016分词系统

02-10

最好的中文分词算法，新鲜出炉，不过里面的文件是2014的

中科院中文分词系统ICTCLAS2015

01-27

中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件，在此就不多作介绍了。这是该软件的2015版本，欢迎各位学者下载使用。

NLPIR-ICTCLAS分词系统开发手册2016版

09-10

词法分析是自然语言处理的基础与关键。张华平博士在多年研究工作积累的基础上，研制出了NLPIR分词系统，主要功能包括中文分词；英文分词；词性标注；命名实体识别；新词识别；关键词提取；支持用户专业词典与微博分析。NLPIR 系统支持多种编码（GBK编码、UTF8编码、BIG5编码）、多种操作系统（Windows, Linux ， FreeBSD 等所有主流操作系统）、多种开发语言与平台（包括： C/C++/C#,Java,Python,Hadoop 等）。

基于NLPIR(ICTCLAS2013)的中文分词C#实例

12-08

NLPIR（ICTCLAS2013）是由张华平博士发布的中文分词系统，可用多种语言进行二次开发，该资源是用C#语言在VS2010环境下在http://www.nlpir.org/提供的原示例基础上进行改进后的示例程序。

NLP入门(2)-分词结果评价及实战

abcdefg90876的博客

11-17

1189

上一篇中我们介绍了词典分词的方法，并介绍了正向最长匹配、逆向最长匹配和双向最长匹配几种分词规则。本文主要介绍一下如何对分词结果进行评价。对于分词结果的评价，本文主要介绍五个指标，分别是精确率、召回率、F1值、OOV Recall Rate和IV Recall Rate。1、评价指标介绍1.1 精确率、召回率、F1值先回顾一下精确率、召回率、F1值的定义。对于二分类问题，真实的样本标签有两类，我们学...

ICTCLAS（中科院分词系统）配置

lime_1002的博客

03-26

2052

参考：https://blog.youkuaiyun.com/wiwiane/article/details/55224573https://www.cnblogs.com/mansiisnam/p/5666765.html感谢作者~环境：Win10、JDK64位分词系统及授权文件下载地址:①分词系统下载github网址：https://github.com/NLPIR-team/NLPIR/tree/mas...

freeictclas java_天书般的ICTCLAS分词系统代码（一）

weixin_35905707的博客

02-13

175

ICTCLAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，该版的Free版开放了源代码，为初学者提供了宝贵的学习材料。我们可以在“http://sewm.pku.edu.cn/QA/”找到FreeICTCLASLinux.tar的C++代码。可是目前该版本的ICTCLAS并没有提供完善的文档，所以阅读起来有一定的难度，所幸网上可以找到一些对ICTCLAS进行代码分析的...