hanlp添加词典不起作用

最新推荐文章于 2021-02-23 18:19:13 发布

转载

最新推荐文章于 2021-02-23 18:19:13 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/51python/p/11087204.html

文章标签：

#java #python

本文介绍了在使用hanlp时遇到自定义词典无法生效的问题，分析了可能的原因，包括未删除custom文件夹下的bin文件、hanlp.properties配置错误、字典文件编码非utf-8、未正确设置CustomDictionaryPath以及词典内存在空格等，并提供了解决方案和测试程序的参考链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

不起作用的原因很多，这里列举几个

这里的hanlp我虽然用的maven建立的但是要添加自定义词典，所以没有用maven引入的方式，而是下载了data+hanlp.jar文件 data下载地址https://pan.baidu.com/s/1o8Rri0y

1、没有删除custom文件夹下的所有bin文件

　　当添加新词典后，没有删除原来自动生成的缓存词典，直接运行不成功。所以要删除这个文件

2、hanlp.properties中配置不对（注意这个文件的位置）

·　　root=D:/Project/public_sentiment_monitor/plugin/项目名字（hanlp2）/

3、字典文本类型utf-8

4、添加的词典还要添加到CustomDictionaryPath中如：

CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns;data/dictionary/pers

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

1361976860

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

java使用hanlp出现的问题_Hanlp配置自定义词典遇到的问题与解决方法

weixin_33733806的博客

03-03

1592

本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题，同时针对这些问题，也提供另外一些解决的方案以及思路。这里分享给你们学习参考。java要使用hanlp加载自定义词典能够经过修改配置文件hanlp.properties来实现。学习要注意的点是:编码1.root根路径的配置:ormhanlp.properties中配置以下:input#本配置文件中的路径的根目录，根目录+其余路径=完...

elasticsearch hanlp插件自定义词典配置

csdn565973850的博客

06-06

1607

讲述elasticsearch hanlp 插件自定义词典配置以及生效测试

参与评论您还未登录，请先登录后发表或查看评论

Hanlp配置自定义词典遇到的问题与解决方法

adnb34g的博客

06-17

2099

本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题，同时针对这些问题，也提供另一些解决的方案以及思路。这里分享给大家学习参考。要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。要注意的点是: 1.root根路径的配置: hanlp.properties中配置如下: #本配置文件中的路径的根目录，根目录+其他路径=完整路径（支持相...

/common/nlp/data/dictionary/CoreNatureDictionary.mini.txt加载失败

鸭梨的博客

01-15

1429

核心词典/common/nlp/data/dictionary/CoreNatureDictionary.mini.txt加载失败

在使用Hanlp配置自定义词典时遇到的问题

JavaPub

02-23

1189

文章目录前言正事前言 Hanlp是很好用的分词，下文描述了的比较好（是转载）文末BAT面试题正事要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。要注意的点是: 　　1. root根路径的配置: 　　　　hanlp.properties中配置如下: 　　　　　　#本配置文件中的路径的根目录，根目录+其他路径=完整路径（支持相对路径，请参考：https://github.com/hankcs/HanLP/pull/254）　　　　　　#Windows用户请注

hanlp用户自定义词典添加

judyqing的博客

12-19

9704

1、在字典路径下添加自定义的词典：CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt，用户可以在此增加自己的词语（不推荐）；也可以单独新建一个文本文件，通过配置文件；CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;...

HanLP分词+用户自定义词典

热门推荐

GreatXiang888的博客

01-14

1万+

文章目录1. 分词重要性2. 词典说明2.1 CustomDictionary2.2 追加词典前面谈到分词： HanLP安装与使用-python版和java版 pynlpir中文分词+加载用户自定义词典我比较喜欢用HanLP，它的粒度刚刚好。 pynlpir太细了，词全切开了。 1. 分词重要性分错了可不好搞。资料： demo_custom_dictionary.py - github...

Hanlp自然语言处理中的词典格式说明

adnb34g的博客

03-15

1496

使用过hanlp的都知道hanlp中有许多词典，它们的格式都是非常相似的，形式都是文本文档，随时可以修改。本篇文章详细介绍了hanlp中的词典格式，以满足用户自定义的需要。基本格式词典分为词频词性词典和词频词典。 1、词频词性词典（如CoreNatureDictionary.txt）（1）每一行代表一个单词，格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ......

基于Spring Boot+hanLP、neo4j、spark-mllib电影知识图谱的简易问答系统源码+项目说明.zip

01-15

【资源说明】 1、该资源包括项目的全部源码，下载可以直接使用！ 2、本项目适合作为计算机、数学、电子信息等专业的课程设计...基于Spring Boot+hanLP、neo4j、spark-mllib电影知识图谱的简易问答系统源码+项目说明.zip

Hanlp中自定义词典的配置、引用以及问题解决

BATP2516的博客

09-21

4261

文章目录如何阅读本文？Hanlp用户自定义词典引用简介环境配置如何阅读本文？首先我们对Hanlp用户词典进行简介，推荐首先阅读链接文章，它是本文的第一来源；环境配置方面分为几个步骤，每个需要动手操作的步骤都用黑体加粗显示，依据这些步骤你完全可以将用户自定义词典创建完成，但是我们建议将分析部分仔细看一看，加深理解；对每一个步骤出现的问题我们都进行了解释并提供了解决方案，如果你是为了解决问题来到的本文，可以使用Ctrl+F查找你想解决的问题，很有可能就在文章中；仅供参考，感谢来到这里─=≡Σ(((つ

自然语言处理工具hanlp定制用户词条

weixin_34281477的博客

05-20

119

作者：baiziyu关于hanlp的文章已经分享过很多，似乎好像大部分以理论性的居多。最近有在整理一些hanlp应用项目中的文章，待整理完成后会陆续分享出来。本篇分享的依然是由baiziyu 分享的一篇文章，感兴趣的可以在知乎上关注下他的专栏，写的还是挺好的！以下为文章的主要内容：自定义词表的修改自定义词表在“pyhanlp\static\data\dictionary\cu...

自然语言处理工具hanlp自定义词汇添加图解

adnb34g的博客

01-27

1277

过程分析 1.添加新词需要确定无缓存文件，否则无法使用成功，因为词典会优先加载缓存文件 2.再确认缓存文件不在时，打开本地词典按照格式添加自定义词汇。 3.调用分词函数重新生成缓存文件，这时会报一个找不到缓存文件的异常，不用管，因为加载词典进入内存是会优先加载缓存，缓存不在当然会报异常，然后加载词典生成缓存文件，最后处理字符进行分词就会发现新添加的词汇可以进行分词了。操作过程图解： 1...

hanlp自定义词典进行分词、关键词提取和摘要提取

ouening的博客

10-20

5461

系统：Windows10 64 Python版本：3.7.2 hanlp版本：0.1.50 本博文主要介绍使用使用中文自然语言处理库hanlp自定义词典进行分词、关键词提取和摘要提取，运行环境为Windows。 1. Hanlp安装 Linux Linux系统下安装需要注意使用管理员权限，同时要安装java： $ sudo apt install openjdk-11-jdk $ sudo p...

HanLP自定义词典注意事项

01-12

513

对于词典，直接加载文本会很慢，所以HanLP对于文本文件做了一些预处理，生成了后缀名为.txt.bin的二进制文件。这些二进制文件相当于缓存，避免了每次加载去读取多个文件。通过这种txt和bin结合的方式，HanLP一方面方便用户编辑查看词典，另一方面bin方便加载，这种方式可谓是兼二者之长，设计上堪称典范。打开hanlp的data目录data\dictionary\custom，...

HanLP的自定义词典使用方式与注意事项介绍

adnb34g的博客

01-02

1824

【环境】python 2.7 方法一：使用pyhanlp，具体方法如下： pip install pyhanlp # 安装pyhanlp 进入python安装包路径，如 /usr/lib/python2.7/site-packages/pyhanlp/static/ 将http://hanlp.properties.in改名为备份文件。 mv hanlp.properties....

hanlp不是读取pdf分词嘛

最新发布

07-19

<think>好的，我现在需要回答用户的问题：“hanlp不是读取pdf分词嘛”。用户可能误解了HanLP的功能，认为它可以直接读取PDF文件进行分词。首先，我需要澄清HanLP的主要功能，它是一个自然语言处理工具包，擅长中文分词、词性标注、命名实体识别等，但本身并不直接处理PDF文件。接下来，我需要解释如何将PDF内容转换为文本，然后再使用HanLP进行分词。首先，用户可能已经知道OCR处理图片中的文本，但转到PDF时可能不清楚步骤。需要分步骤说明：PDF处理分为提取文本和分词两部分。HanLP负责分词，而PDF的文本提取需要其他工具，比如Apache PDFBox或iText。然后，我需要提供具体的Java代码示例，展示如何用PDFBox提取PDF文本，再用HanLP进行分词。代码需要包括读取PDF文件、提取文本、处理可能的乱码，以及调用HanLP的API进行分词的完整流程。同时，要注意异常处理和编码问题，确保文本正确读取。另外，用户可能对处理中文PDF时的编码问题感兴趣，需要提到如何处理乱码，比如指定正确的字符编码，或者处理某些特殊字符。此外，还可以提到优化分词效果的方法，比如自定义词典和去除空白字符。最后，总结整个流程，强调HanLP不处理PDF读取，但可以与其他库结合使用，并提出相关问题供用户进一步思考。</think>### ✅ HanLP 本身不直接读取 PDF，但可对 PDF 提取的文本进行分词 #### 1. **核心流程** 1. **PDF文本提取**：使用工具（如 Apache PDFBox、iText）从 PDF 中提取原始字符串 2. **分词处理**：将提取的文本传给 HanLP 进行中文分词 3. **后处理优化**：清理乱码、拼接分词结果、提取结构化信息 --- ### 🧩 Java 示例代码（PDF 提取 + HanLP 分词） #### 1. **添加依赖**（Maven） ```xml  <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.27</version> </dependency>  <dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.8.9</version> </dependency> ``` #### 2. **完整代码** ```java import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import com.hankcs.hanlp.HanLP; import com.hankcs.hanlp.seg.common.Term; import java.io.File; import java.io.IOException; import java.util.List; public class PdfSegmenter { public static void main(String[] args) { try { // 1. 读取 PDF 文件 File file = new File("example.pdf"); PDDocument document = PDDocument.load(file); // 2. 提取 PDF 文本 PDFTextStripper stripper = new PDFTextStripper(); String rawText = stripper.getText(document); document.close(); // 3. 清理乱码（可选） rawText = rawText.replaceAll("[\\s\\u3000]+", " ").trim(); // 替换全角空格等 // 4. HanLP 分词 List<Term> terms = HanLP.segment(rawText); // 5. 输出分词结果 System.out.println("分词结果："); for (Term term : terms) { System.out.print(term.word + " "); } } catch (IOException e) { e.printStackTrace(); } } } ``` --- ### 🧠 分词优化技巧（针对 PDF 场景） #### 1. **处理 PDF 乱码** ```java // 替换 PDF 提取的异常字符（如乱码、多余空格） String cleanText = rawText .replaceAll("[\\s\\u3000\\u00A0]+", " ") // 替换全角空格、不换行空格 .replaceAll("[^\\u4e00-\\u9fa5\\w\\s\\p{P}]", ""); // 移除非中文/字母/标点 ``` #### 2. **自定义词典（提升专有名词识别）** ```java // 加载自定义词典（需提前准备 custom_dict.txt） HanLP.Config.CustomDictionaryPath = new String[]{"custom_dict.txt"}; List<Term> terms = HanLP.segment(cleanText); ``` #### 3. **结合正则提取结构化信息** ```java // 示例：从 PDF 分词结果中提取金额 Pattern amountPattern = Pattern.compile("¥[\\d,]+\\.?\\d*"); Matcher matcher = amountPattern.matcher(cleanText); if (matcher.find()) { System.out.println("发票金额：" + matcher.group()); } ``` --- ### 🛠️ PDF 提取工具对比 | 工具 | 优势 | 劣势 | |---------------|-------------------------------|-----------------------| | **PDFBox** | 开源、轻量、支持文本提取 | 复杂排版处理较差 | | **iText** | 精准提取文本（需商业授权） | 免费版功能受限 | | **Apache Tika** | 支持多格式（PDF/Word/Excel） | 依赖外部库 | --- ### 📌 实际应用示例 #### 场景：发票 PDF 提取关键字段 ```java // 提取发票代码 Pattern invoiceCodePattern = Pattern.compile("发票代码[:：]\\s*(\\d+)"); Matcher matcher = invoiceCodePattern.matcher(cleanText); if (matcher.find()) { System.out.println("发票代码：" + matcher.group(1)); } ``` --- ###