中文分词


//词典
private Map<String, String> map = new HashMap<String, String>();

//最大词组
private final static int MAX_PHRASE = 5;

public static void main(String[] args) throws Exception
{
StrUtil su = new StrUtil();
su.initWordMap();
su.cent("“标准”输出流。此流已打开并准备接受输出数据。通常,此流对应于显示器输出或者由主机环境或用户指定的另一个输出目标。");
}

/**
* 分词
* @param msg
*/
public void cent(String msg)
{
String ret = "";
char[] c = msg.toCharArray();
int length = c.length;
go : for(int i = 0; i < length; i++)
{
//组成词组,并查看字典中是否包含该词组(词组最大值为MAX_PHRASE)
String tmp = "";
for(int j = 0; j < MAX_PHRASE; j++)
{
int ij = i + j;
tmp += c[ij < length ? ij : length - 1];

//查看字典中是否包含该词组
if(map.containsKey(tmp))
{
ret += tmp + " ";
i = i + j;
continue go;
}
}

ret += c[i] + " ";
}

System.out.println(ret);
}

/**
* 初始化字典
* @throws IOException
* @throws Exception
*/
private void initWordMap() throws IOException
{
File file = new File("c:/a.txt");
FileInputStream in = new FileInputStream(file);
byte[] b = new byte[in.available()];
in.read(b);
String str = new String(b);
String[] word = str.split("\r\n");
for(int i = 0; i < word.length; i++)
{
map.put(word[i], null);
}
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值