win10上用Python2.7处理文本,出错IOError: [Errno 2] No such file or directory:如何解决???

该博客讲述了在Windows 10 64位系统中,使用Python2.7进行文本处理时遇到`IOError: [Errno 2] No such file or directory`错误的情况。作者使用jieba库进行分词处理,并尝试加载自定义词典,但在执行时找不到`dict.txt`文件。博客提供了分词、词性标注和停用词处理的代码示例,并给出了批量处理文本文件的方法,但最终因文件路径问题导致程序出错。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# coding=utf-8
import os
import jieba
import sys
import re
import time
import jieba.posseg as pseg

sys.path.append("../")
jieba.load_userdict("../Python27/fenci/dict.txt")  # 加载自定义分词词典

'''
title:利用结巴分词进行文本语料处理:单文本处理器、批量文件处理器
    1 首先对文本进行遍历查找
    2 创建原始文本的保存结构
    3 对原文本进行结巴分词和停用词处理
    4 对预处理结果进行标准化格式,并保存原文件结构路径
author:白宁超
myblog:http://www.cnblogs.com/baiboy/
time:2017年4月28日10:03:09
'''

'''
分词.词性标注以及去停用词
stopwordspath: 停用词路径
dealpath:中文数据预处理文件的路径
savepath:中文数据预处理结果的保存路径
'''

"""
def cutTxtWord(dealpath, savepath, stopwordspath):
    stopwords = {}.fromkeys([line.rstrip() for line in open(stopwordspath, "r", encoding='utf-8')])  # 停用词表
    with open(dealpath, "r", encoding='utf-8') as f:
        txtlist = f.read()  # 读取待处理的文本
    words = pseg.cut(txtlist)  # 带词性标注的分词结果
    cutresult = ""  # 获取去除停用词后的分词结果
    for word, flag in words:
        if word not in stopwords:
            cutresult += word + "/" + flag + " "  # 去停用词
            getFlag(cutre
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值