AttributeError: module ‘hanlp.utils.rules‘ has no attribute ‘tokenize_english‘

最新推荐文章于 2024-09-20 10:35:13 发布

原创最新推荐文章于 2024-09-20 10:35:13 发布 · 2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能 #nlp

博主分享了在学习《Python人工智能20小时玩转NLP》时遇到的hanlp英文分词问题，通过找到hanlp库中实际的tokenizer模块解决了`tokenize_english`缺失的问题。教程中推荐的import方式需要调整，正确引入了lang.en.english_tokenizer中的tokenizer函数。

最近在看Python人工智能20个小时玩转NLP自然语言处理【黑马程序员】_哔哩哔哩_bilibili

在p37文本处理的基本方法中提到了hanlp的使用

其中有这么一段代码，其目的是使用hanlp进行英文分词

import hanlp
tokenizer = hanlp.utils.rules.tokenize_english 
tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.')

正确执行结果应该为：

['Mr.', 'Hankcs', 'bought', 'hankcs.com', 'for', '1.5', 'thousand', 'dollars', '.']

但，我的环境报错AttributeError: module 'hanlp.utils.rules' has no attribute 'tokenize_english'

我看视频评论很多也报这个错误，但网上的解决方案不仅少，而且我试了好多个都没用。主要原因是：hanlp.utils.rules中没有tokenize_english。但视频有条评论提到“from hanlp.utils.english_tokenize import tokenize_english
在https://github.com/hankcs/HanLP/blob/doc-zh/README.md 查看文件结构”虽然试过但也没效果，想着是不是时间太久，hanlp版本（不知道叫版本还是什么！！！！）不一样。而且看连接中的文件结构也找不到相关的tokenize_english，但给了我个启发，直接去hanlp文件里面找，想着会不会是换的位置不一样，果然在C:\ProgramData\Anaconda3\Lib\site-packages\hanlp\utils\lang中发现有个en的文件，其中的english_tokenizer.py里面就有一个tokenize_english。

于是：

from hanlp.utils.lang.en.english_tokenizer import tokenize_english
tokenizer = tokenize_english
tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.')

可行（结果一样，不知道和视频中hanlp.utils.rules.tokenize_english是不是一个东西，应该是！！！）

当然后面直接用这串代码也行，不过想方便一点与视频里面代码同步，可以在hanlp.utils.rules里面加上

import hanlp.utils.lang.en.english_tokenizer

def tokenize_english(text):
    return hanlp.utils.lang.en.english_tokenizer.tokenize_english(text)

本人python小白，import导入总感觉有问题，有一点乱，请各位不要笑，大家可以改的简短一点（其实我试了好多自认为没问题的导入方式，结果出现莫名其妙的错误，完全没有规律可言，算了，虽然这个不顺眼，但是符合预期结果就行）！！！！

即可用视频中的代码：

import hanlp
tokenizer = hanlp.utils.rules.tokenize_english 
tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.')

AttributeError: module ‘hanlp.utils.rules‘ has no attribute ‘tokenize_english‘

5 条评论