- 博客(3)
- 收藏
- 关注
原创 【Java学习笔记三】使用自定义词典进行Hanlp分词
如果使用maven直接配置Hanlp的话,没找到可以使用自定义词典的方法,所以导入hanlp-1.7.2.jar包进行配置。1.下载jar、data、hanlp.properties。下载地址2.在hanlp.properties中修改root地址,为data包的上一级目录。3.按照java提示将hanlp.properties放到项目相应位置。4.在\data\dictionary\cu...
2019-04-23 17:51:44
3475
原创 【Java学习笔记二】读写中文文件,包含乱码问题
因为Windows系统默认编码模式为gbk,而程序直接去读文件的话默认是utf-8模式,所以会出现乱码问题,所以在读文件的时候要指定编码格式。解决方法:采用 java.io.FileInputStream 和 java.io.InputStreamReader代码如下,读取txt文件,按行存入列表中,返回列表做后续分析。public static List<String> rea...
2019-04-22 16:52:04
200
原创 【Java学习笔记一】使用Hanlp的自然语言处理:繁简体转换、拼音转换
Hanlp网址:Github地址Java中配置Hanlp:Maven方式配置,在对应project的pom.xml中加入<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portabl...
2019-04-22 11:15:14
1264
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅