
中文分词
文章平均质量分 84
fox_wayen
像狐狸一样思考,学术也是一样。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
庖丁解牛分词工具使用教程
今天想测试一下“庖丁”分词的效果,编写了一个测试小程序,从文件中读入文本,并将分词结果显示到控制台。 环境平台:Win7+eclipse 过程如下: 1.编辑paoding-analysis.jar中的paoding-dic-home.properties文件,去掉“#paoding.dic.home=dic”前面的#号,并将等号后面的dic改为dic文件夹在你本地存放的具体路劲,转载 2017-12-18 17:44:53 · 725 阅读 · 0 评论 -
测试庖丁解牛分词工具
因为笔者要在MapReduce中进行中文分词解析数据,所以测试了一下庖丁解牛中文分词器(paoding-analysis-2.0.4-beta)。现将使用过程小结: 下载地址:http://pan.baidu.com/s/1eQ88SZS 个人环境:linux+eclipse 使用分为如下几步: 1. 配置dic文件: 修改paoding-analysis.jar中的paoding-di转载 2017-12-18 17:11:53 · 395 阅读 · 0 评论 -
中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list 需要在项目中引入: IKAnalyzer.cfg.xml IKAnalyzer2012.jar lucene-core-3.6.0.jar stopword.dic 什么都不用改 示例转载 2017-11-08 23:50:11 · 435 阅读 · 0 评论 -
中文分词技术(中文分词原理)
一、 为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、转载 2017-11-01 17:10:58 · 6586 阅读 · 0 评论