java 中文文本分词

最新推荐文章于 2025-11-29 09:02:06 发布

原创

最新推荐文章于 2025-11-29 09:02:06 发布 · 3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#java #中文分词

本文介绍了如何使用classifier4J和IKAnalyzer2012_u6在Java中进行中文分词，强调了自定义词库的创建（exdict.dic，每个词占一行）以及项目依赖（IKAnalyzer2012_u6.jar和pom.xml配置）。

java 中文文本分词

本文使用 classifier4J 以及 IKAnalyzer2012_u6 实现中文分词。可以增加自定义词库，词库保存为 “exdict.dic” 文件，一个词一行。

// MyTokenizer.java 文件

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.Collection;
import java.util.List;

import net.sf.classifier4J.ITokenizer;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.wltea.analyzer.cfg.Configuration;
import org.wltea.analyzer.cfg.DefaultConfig;
import org.wltea.analyzer.dic.Dictionary;
import org.wltea.analyzer.lucene.IKTokenizer;

import org.apache.log4j.LogManager;
import org.apache.log4j.Logger;

/**
 * 中文分词器类
 * 
 * @author CSD
 *
 */
@SuppressWarnings("deprecation")
public class MyTokenizer implements ITokenizer {
   
   

    private static final Logger logger = LogManager.getLogger(MyTokenizer.class);

    private List<String> list;
    p

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

XnCSD

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于Java实现的中文分词NLP

ZksProlog的博客

09-20

1200

通过基于词典的中文分词算法，我们可以将连续的中文文本切分成有意义的词语，为后续文本处理和分析提供基础。当然，中文分词是一个复杂的问题，还有其他更高级的算法和工具可供选择，例如基于统计的分词方法和开源工具库（如HanLP、jieba等）。算法通过遍历文本字符串，从起始位置开始逐步增加结束位置，将子串与词典中的词语进行匹配，如果匹配成功，则将匹配的词语添加到分词结果中，并更新起始位置和结束位置；有多种中文分词算法可供选择，其中最常用的是基于词典的方法和基于统计的方法。三、基于词典的中文分词算法。

JAVA实现的中文分词程序

07-14

用JAVA实现的中文分词程序，包含词典文件，可以直接用Eclipse运行。在导入词典这个功能上有点小问题。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

weixin_44085356 2020.02.06
MyTokenizer.java 76行 TermAttribute termAtt = (TermAttribute) tokenizer.getAttribute(TermAttribute.class); 运行时会发现 IKtokenizer 未定义 getAttribute(TermAttribute.class)