深入理解HanLP1.x，填平可能遇到的坑

最新推荐文章于 2025-10-24 11:01:31 发布

原创

最新推荐文章于 2025-10-24 11:01:31 发布 · 820 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#hanlp #nlp #分词

01 引言

前两天预研了中文分词器相关的工具包，原本打算使用IK分词器的，但是面对产品的需求IK已经不能满足了，最终选型HanLP 1.x。

HanLP是一系列模型与算法组成的NLP工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

而HanLP 2.x是基于深度学习的，提供轻量级的RESTful API，需要接入https://www.hanlp.com/api或者自己部署。海量级native API更适合专业的NLP工程师。部署成本相对较高，所以本文仍然以HanLP 1.x为例，介绍使用时可能遇到的问题。

文档地址：https://github.com/hankcs/HanLP/tree/1.x

02 最佳实践

Maven依赖

<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.8.6</version>
</dependency>

HanLP中有一系列“开箱即用”的静态分词器，以Tokenizer结尾。

2.1 标准分词

标准分词已经可以应用到通用的场景，主要的静态类：

com.hankcs.hanlp.tokenizer.StandardTokenizer

案例：

@Test
void test01() {
   
   
    String text = "小米su7特斯拉modelY比亚042025款";

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

智_永无止境

关注关注

33
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Hanlp分词器(通过spark)

li1579026891的博客

01-10

1926

这里主要是对内容数据进行标签处理这里我们是用分词器是HanLP HanLP是哈工大提供的一种中文分词的工具，因为他支持Java API 这里我们使用spark + hanlp进行中文分词 1、准备工作 ##1. 在hdfs创建目录用于存放hanlp的数据 [root@hadoop ~]# hdfs dfs -mkdir -p /common/nlp/data ##2. 将hanlp的工具上传到服务器的指定位置 ##3. 解压到当前目录 [root@hadoop soft]# tar -zxvf ha.

Python 实战 | 进阶中文分词之 HanLP 词典分词（上）

weixin_55633225的博客

10-30

1971

HanLP 分词器，一个实用且高效的自然语言处理助手，不妨试一试。

参与评论您还未登录，请先登录后发表或查看评论

HanLP 1.x 终极上手指南：从 Maven 坐标到自定义词典，一篇就够！

最新发布

JIANqiao19931029的博客

10-24

968

本文介绍了HanLP在中文自然语言处理中的应用，重点针对生产环境中的常见问题进行优化。内容包括：极速入门指南、功能全景图（分词、词性标注、NER等）、5种自定义词典方法、性能调优checklist、10个常见问题解决方案、1.x与2.x版本对比，以及Docker部署方案。文章强调1.x版本在工业场景下的优势，提供从基础使用到生产调优的完整指导，帮助开发者将Demo代码升级为稳定可靠的工业级实现。

分词Hanlp的介绍和在Java中基本使用

qq_57509618的博客

12-26

2993

在java中使用hanlp进行分词。

hanlp的使用

zh515858237的专栏

03-29

549

hanlp最流行的是java的1.*版本（代码支持python和java），但是后来研发了2.0版本（代码仅支持python），2.0的版本是深度学习版本，功能也很多，但是貌似没有1.*那么流行。本文重点介绍1.*版本的使用（以v1.8.4为例）

hanlp分词器使用-java-maven项目

yanSans的博客

03-31

872

*** 自定义词库对象* @author* @date*/@Data/** 自定义词汇 */@Excel(name = "自定义词汇")//。。。/*** 服务层实现* @author* @date*/@Service/*** 查询列表* @param customDictionaryMy 信息* @return 集合*//*** 分词处理器* @author* @date*/@Service@Autowired/**

【包教包会】CocosCreator3.x——拖尾（支持3.x、支持原生、可合批、高性能）

CocosCreator水煮肉片饭的博客

09-11

1438

3.x的Assembler有几个大坑都已填平，看懂这个组件就基本可以玩转Assembler了。2、新建一个节点，将MotionTrail挂上去，然后拖一张图片作为拖尾图片，搞定！保留原版功能（拖尾会跟随节点位移、缩放、受节点透明度影响，但不会跟随节点旋转）1、将Demo中MotionTrail.ts复制到自己项目assets目录下。EMail地址：27185709@qq.com。完美适配Web、原生平台（其余平台没测过）。将去年写的2.x拖尾升级到3.x。其余不明白的留言沟通~

前端精度问题全解析：用“挖掘机”快速“填平精度坑”的完美解决方案

老猿阿浪的博客

05-16

1093

"为什么我的计算在 React Native 中总是出现奇怪的精度问题？" —— 这可能是许多开发者在作前端程序猿的朋友们都会遇到的第一个头疼问题。本文将深入探讨前端精度问题的根源，我将以RN为例，并提供一系列实用解决方案，让你的应用告别计算误差。

填平3D CAD产品文档鸿沟.pdf

08-04

技术插图是技术文档中的重要组成部分，它能够将复杂的产品信息以视觉形式表达出来，帮助用户更容易理解和掌握。在2D向3D转变的趋势下，技术插图可以从3D CAD模型中直接提取，从而更好地展现产品的结构和功能。技术...

PCB微盲孔电镀铜填平影响因素研究.pdf

07-25

本文探讨了微盲孔电镀铜填平技术的工艺影响因素，特别是电镀添加剂的影响。以下详细知识点的介绍将围绕电镀铜填平的互连工艺技术和其影响因素。首先，微盲孔电镀铜填平技术是高密度互连印制电路板（HDIPCB）的一种...

hanlp-portable-1.5.0.jar

11-08

Java分词工具HanLP

hanlp-portable-1.3.2.jar

02-23

用于solr的中文分词，很好用，下载速度块

HanLP-data.zip

12-12

HanLP-data.zip

HanLP Android 示例

adnb34g的博客

04-17

581

portable版 portable版零配置，仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖： dependencies { compile 'com.hankcs:hanlp:portable-1.6.8' } 自定义版 HanLP的全部功能（分词、简繁、拼音、文本分类、句法分析）都兼容安卓，具体配置方法如下...

hanlp提高自定义词典优先级

fall_hat的博客

11-15

2180

Segment shortestSegment = new NShortSegment().enableCustomDictionary(true).enableCustomDictionaryForcing(true).enablePlaceRecognize(true).enableOrganizationRecognize(true); List<Term> termList =...

《pyhanlp 实用指南：安装、迁移与 HanLP 1.x 和 2.x 应用解析》

craybb的博客

01-02

1638

本文深入解析 pyhanlp，全面介绍 HanLP 1.x 和 2.x 的功能与使用场景，详细讲解 pyhanlp 在 Python 3.9+ 环境下的安装方法、迁移步骤，以及 HanLP 2.x 的安装与使用技巧，帮助读者高效掌握自然语言处理工具的强大功能。

Elasticsearch：hanlp 中文分词器

Elastic 中国社区官方博客

12-06

6546

HanLP 中文分词器是一个开源的分词器，是专为Elasticsearch而设计的。它是基于HanLP，并提供了HanLP中大部分的分词方式。它的源码位于： https://github.com/KennFalcon/elasticsearch-analysis-hanl 从Elasticsearch 5.2.2开始，一直有跟随Elasticsearch的不同发行版而更新。安装 1...

开源Hanlp自然语言处理Java实现（词法分析、关键词）