ansjSeg分词工具简介

本文探讨了如何利用ansjSeg进行文本分类,包括价格类与周边环境类的划分,通过词性概念实现精准分类,并展示了词性识别、用户自定义词典管理和词语删除等功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

应用背景:

        编辑想对用户提出的问题进行分类,如包含价格,价钱,月供、首付等等的划分为“价格”类,包含商场、银行、学校等划分为“周边环境”类。

        技术选型:ansjSeg

        ansjSeg中词性的概念便于将词分门别类,使用如下:

        UserDefineLibrary.insertWord("ansj中文分词", "词性1", 1000);
        UserDefineLibrary.insertWord("不错的系统", "词性1", 1000);
        List<Term> terms = IndexAnalysis.parse("我觉得Ansj中文分词是一个不错的系统!我是王婆/!");

        //修正词性,用户自定义词典的词性优先
        new NatureRecognition(terms).recognition() ;
        FilterModifWord.modifResult(terms) ;
        System.out.println("增加新词例子:" + terms);

        //增加新词例子:[我/r, 觉得/v, ansj/en, ansj中文分词/词性1, 中文/nz, 分词/v, 是/v, 一个/m, 不错/a, 不错的系统/词性1, 的/uj, 系统/n, !, 我/r, 是/v, 王/nr, 王婆/nr, 婆/ng, //nw, !]
        // 删除词语,只能删除.用户自定义的词典.
        UserDefineLibrary.removeWord("ansj中文分词");
        terms = ToAnalysis.parse("我觉得ansj中文分词是一个不错的系统!我是王婆!");
        System.out.println("删除用户自定义词典例子:" + terms);

        //删除用户自定义词典例子:[我/r, 觉得/v, ansj/en, 中文/nz, 分词/v, 是/v, 一个/m, 不错的系统/词性1, !, 我/r, 是/v, 王婆/nr, !]


使用简介:请参照http://ansjsun.github.io/ansj_seg/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值