中文分词(mmseg4j)

本文展示了如何使用mmseg4j库对给定文本进行分词处理,包括初始化分词器、读取文本以及遍历分词结果。重点介绍了分词过程及其在实际应用中的意义。
package com.leixinhui.test;

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;

import com.chenlb.mmseg4j.ComplexSeg;
import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.MMSeg;
import com.chenlb.mmseg4j.Seg;
import com.chenlb.mmseg4j.Word;

public class Test {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		Reader reader = null;
		Dictionary dic = null;
		Seg seg = null;
		MMSeg mmSeg = null;
		Word word = null;
		
		reader = new StringReader("我不做C语言程序已经有一段时间了。三聚氰胺、量规等词汇都是专业术语。");
		dic = Dictionary.getInstance();
		seg = new ComplexSeg(dic);
		mmSeg = new MMSeg(reader, seg);
		
		try {
			while(null != (word=mmSeg.next())){
				System.out.println(word.getString());
			}
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			try {
				if(null != reader) reader.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
	}

}

备注:使用mmseg4j-1.8.5


转载于:https://my.oschina.net/u/1757446/blog/289966

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值