Python:调用NLTK报错LookupError: Recource 'tokenizers/punkt/english.pickle' not found(基于Anaconda)

在敲《Python机器学习及实践》上自然语言处理包(NLTK)上code的时候,导入nltk之后,运行出现LookupError: Recource 'tokenizers/punkt/english.pickle' not found的错误信息。(注:本错误基于Anaconda)


代码如下:

# 将上述两个句子以字符串的数据类型分别存储在变量sent1与sent2中
sent1 = 'The cat is walking in the bedroom.'
sent2 = 'A dog was running across the kitchen.'

# 从sklearn.feature_extraction.text中导入CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
count_vec = CountVectorizer()

sentences = [sent1, sent2]

# 输出特征向量化后的表示
print(count_vec.fit_transform(sentences).toarray())

# 输出向量各个维度的特征含义
print(count_vec.get_feature_names())

# 导入NLTK
import nltk

# 对句子进行词汇分割和正规化,有些情况如aren't需要分割为are和n't;或者I'm要分割为I和'm
tokens_1 = nltk.word_tokenize(sent1)
print(tokens_1)

tokens_2 = nltk.word_tokenize(sent2)
print(tokens_2)

错误提示信息:



解决方案:

(1)在import nltk之后,调用之前,添加下面一句代码:

nltk.download()

(2)然后在弹出的“NLTK Downloader”中设置路径,如下图:


(3)配置环境变量(如果采用默认路径,不需要配置)

打开系统 --> 高级系统设置 --> 高级 --> 环境变量中,先新建一个用户变量,如下图:

然后将此用户变量添加到系统变量CLASSPATH中:



即完整代码为:
# 将上述两个句子以字符串的数据类型分别存储在变量sent1与sent2中
sent1 = 'The cat is walking in the bedroom.'
sent2 = 'A dog was running across the kitchen.'

# 从sklearn.feature_extraction.text中导入CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
count_vec = CountVectorizer()

sentences = [sent1, sent2]

# 输出特征向量化后的表示
print(count_vec.fit_transform(sentences).toarray())

# 输出向量各个维度的特征含义
print(count_vec.get_feature_names())

# 导入NLTK
import nltk

nltk.download()

# 对句子进行词汇分割和正规化,有些情况如aren't需要分割为are和n't;或者I'm要分割为I和'm
tokens_1 = nltk.word_tokenize(sent1)
print(tokens_1)

tokens_2 = nltk.word_tokenize(sent2)
print(tokens_2)

注意:

1、可能要等一会,因为需要下载一些文件。

2、下载完成之后,可以把加入的那句代码删除,因为不需要再次下载,下次直接运行即可



### 关于 `punkt-1.0.pickle` 和 `punkt-finalized.pickle` 的差异与用途 在自然语言处理领域,NLTK 是一个非常流行的 Python 库,用于文本数据的预处理和分析。其中,`punkt` 是 NLTK 提供的一种无监督机器学习算法,主要用于句子分割(sentence tokenization)。它通过训练模型来识别英语中的句号、问号和其他标点符号作为句子边界。 #### 文件说明 `punkt-1.0.pickle` 和 `punkt-finalized.pickle` 都是 NLTK 中使用的序列化模型文件,它们存储了经过训练后的 Punkt 句子分割器的状态信息。以下是两者的具体区别: 1. **`punkt-1.0.pickle`** - 这是一个较旧版本的 Punkt 模型文件[^1]。 - 它可能基于早期的数据集或参数设置进行训练。 - 对某些特定语料库的效果可能会不如更新版本的理想。 2. **`punkt-finalized.pickle`** - 这是改进版的 Punkt 模型文件[^4]。 - 经过更广泛的测试和优化,适用于更多样化的现代文本环境。 - 推荐优先使用此文件以获得更好的性能表现。 #### 解决找不到 `.pickle` 文件的方法 当遇到 `'tokenizers/punkt/PY3/english.pickle' not found` 错误时,可以采取以下措施解决问题: - 使用命令 `nltk.download('punkt')` 自动下载所需资源[^2]。 - 如果自动下载失败,则手动获取最新版的 `nltk_data` 并按指定路径安装。 #### 示例代码展示如何加载这些资源 下面是一段简单的脚本,演示如何利用上述两个 `.pickle` 文件完成基本功能实现: ```python import nltk from nltk.tokenize import sent_tokenize # 下载必要资源 try: nltk.data.find('tokenizers/punkt') except LookupError: nltk.download('punkt') text = """Natural language processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human languages.""" sentences = sent_tokenize(text) print(sentences) ``` 该程序首先尝试定位本地是否存在已缓存的 `punkt` 数据;如果不存在,则触发在线下载流程。最终输出由输入字符串分解而成的一系列独立句子列表。 --- ###
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值