【Java】关于中文分词的一些设想

本文档记录了一位大学生在毕业之际尝试编写中文分词算法的过程。首先,通过List和Map进行文本信息存储和去重;接着,使用正则表达式去除标点和数字;然后,借助结巴分词库进行初步分词;之后,利用Map实现去重功能;最后,将收集到的分词数据封装成实体对象并返回。这是一个简单的分词系统设计和实现的起点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于中文分词的一些设想

引言

大学到尾声了,准备写个分词算法,记录一些设想

- 分词前期准备

//            list集合以存储文本信息
            List<String> strings = new ArrayList<>();
//            map集合以去重
            Map<String, Integer> objectObjectMap = new HashMap<>();
//            chance集合以中转数据
            ArrayList<String> chance = new ArrayList<>();
//            list集合以存储实体信息
            ArrayList<KwEntity> list=new ArrayList<>();

- 去除标点和数字

正则表达式

replaceAll("[\\pP‘’“”]", "").replaceAll("[\\dD‘’“”]", ""));

- 结巴分词

这里需要改成自己的分词算法

for (String date:strings){
   List<String> strings1 = new JiebaSegmenter().sentenceProcess(date);
      for (String s:strings1){
           chance.add(s);
      }
}

- 去重

采用map词典去重是不经意间想出来的
不过后期再回望当时,觉得这绝对是点睛之笔-----------因为之前都没有听说过Java分词

//去重

for (String date:chance){
//  去除单个字符
	if(date.length()!=1){
//      如果字符串不存在,加入map词典
		if (!objectObjectMap.containsKey(date)) 
			objectObjectMap.put(date,1);
//      如果字符串存在,加入map词典value加一
		else 
			objectObjectMap.put(date, (objectObjectMap.get(date)+1));
	}

}

- 收集分词数据

//	封装成实体对象
	Set<String> strings1 = objectObjectMap.keySet();
		for (String key:strings1){
//		添加到list集合
		list.add(new KwEntity(1,key,objectObjectMap.get(key)));
	}

- 发送收集到的数据

return list;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

君问归期魏有期

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值