【Java】Java中文分词器Ansj的使用

本文介绍使用Java的Ansj库进行中文分词的方法。通过一个具体实例展示了如何下载Ansj的jar包并编写简单的Java代码实现中文分词。同时分享了分词结果,为读者提供了实践指导。

以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。

下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。


1.下载Ansj的相关jar包

要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg


2.程序代码

用Ansj进行中文分词的简单代码如下所示:

[java] view plain copy 在CODE上查看代码片 派生到我的代码片
  1. importorg.ansj.splitWord.analysis.ToAnalysis;
  2. publicclassSplitWordsByAnsj{
  3. publicstaticvoidmain(String[]args){
  4. Stringwords="中国是世界四大文明古国之一,有着悠久的历史,距今约5000年前,以中原地区为中心开始出现聚落组织进而成国家和朝代,后历经多次演变和朝代更迭,持续时间较长的朝代有夏、商、周、汉、晋、唐、宋、元、明、清等。中原王朝历史上不断与北方游牧民族交往、征战,众多民族融合成为中华民族。20世纪初辛亥革命后,中国的君主政体退出历史舞台,取而代之的是共和政体。1949年中华人民共和国成立后,在中国大陆建立了人民代表大会制度的政体。中国有着多彩的民俗文化,传统艺术形式有诗词、戏曲、书法和国画等,春节、元宵、清明、端午、中秋、重阳等是中国重要的传统节日。";
  5. System.out.println(ToAnalysis.parse(words));
  6. }
  7. }

3.分词结果

例子中对那一段中文的分词结果如下所示:


[plain] view plain copy 在CODE上查看代码片 派生到我的代码片
  1. [中国,是,世界,四,大,文明,古,国,之一,,,有着,悠久,的,历史,,,距,今,约,5000,年前,,,以,中原,地区,为,中心,开始,出现,聚落,组织,进而,成,国家,和,朝代,,,后,历经,多次,演变,和,朝代,更迭,,,持续,时间,较,长,的,朝代,有,夏,、,商,、,周,、,汉,、,晋,、,唐,、,宋,、,元,、,明,、,清,等,。,中原,王朝,历史,上,不断,与,北方,游牧,民族,交往,、,征战,,,众多,民族,融合,成为,中华民族,。,20,世纪,初,辛亥革命,后,,,中国,的,君主,政体,退出,历史,舞台,,,取而代之,的,是,共和,政体,。,1949年,中华人民共和国,成立,后,,,在,中国,大陆,建立,了,人民,代表大会,制度,的,政体,。,中国,有着,多,彩,的,民俗,文化,,,传统,艺术,形式,有,诗词,、,戏曲,、,书法,和,国画,等,,,春节,、,元宵,、,清明,、,端午,、,中秋,、,重阳,等,是,中国,重要,的,传统,节日,。]

这个例子非常简单,希望对大家有所帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值