
01 引言
前两天预研了中文分词器相关的工具包,原本打算使用IK分词器的,但是面对产品的需求IK已经不能满足了,最终选型HanLP 1.x。
HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
而HanLP 2.x是基于深度学习的,提供轻量级的RESTful API,需要接入https://www.hanlp.com/api或者自己部署。海量级native API更适合专业的NLP工程师。部署成本相对较高,所以本文仍然以HanLP 1.x为例,介绍使用时可能遇到的问题。
文档地址:https://github.com/hankcs/HanLP/tree/1.x
02 最佳实践

Maven依赖
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.8.6</version>
</dependency>
HanLP中有一系列“开箱即用”的静态分词器,以Tokenizer结尾。
2.1 标准分词
标准分词已经可以应用到通用的场景,主要的静态类:
com.hankcs.hanlp.tokenizer.StandardTokenizer
案例:
@Test
void test01() {
String text = "小米su7特斯拉modelY比亚042025款";

最低0.47元/天 解锁文章
1926

被折叠的 条评论
为什么被折叠?



