python中open遇见的乱码问题

最新推荐文章于 2022-08-14 14:22:17 发布

原创最新推荐文章于 2022-08-14 14:22:17 发布 · 951 阅读

0 ·

CC 4.0 BY-SA版权

python类问题专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何在读取Windows-1252编码的垃圾邮件时，正确使用'encoding'参数并解析文本。通过实例展示了如何将25个txt文件中的垃圾邮件转换为词列表，并标记为1。

open(file, mode,encoding)

if __name__ == '__main__':
    docList=[]; classList=[]

    for i in range(1,26):
        #遍历25个txt文件
        #读取每个垃圾邮件，并字符串转化成字符串列表
        wordList=textParse(open('email/spam/%d.txt' % i, 'r').read())
        docList.append(wordList)
        #标记垃圾邮件，1表示垃圾邮件
        classList.append(1)
    print(docList)

在这里插入图片描述

正确的是在open里面加个encoding参数，表示要打开文件的编码格式

因为读取的文件编码格式是windows-1252

wordList=textParse(open('email/spam/%d.txt' % i, 'r',encoding='windows-1252').read())

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

csding11

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解

杨秀璋的专栏

08-10

1万+

前一篇文章讲述了数据预处理、Jieba分词和文本聚类知识，这篇文章可以说是文本挖掘和自然语言处理的入门文章。本文将详细讲解文本挖掘领域的词云热点分析和LDA主题分布分析。两万字基础文章，希望对您有所帮助。欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家。

解决python使用open打开文件中文乱码的问题

09-20

下面小编就为大家分享一篇解决python使用open打开文件中文乱码的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

参与评论您还未登录，请先登录后发表或查看评论

python 文件读写乱码

02-16

python 文件读写和编码的处理。。。。。。

Python读写文件乱码问题

weixin_30653097的博客

03-23

459

对开发者来说，最恼人的问题之一莫过于读写文件的时候，由于编码千差万别，出现乱码问题。好难快速解决啊。。。最近我也遇到了这样的问题，经研究，把大致的解决思路拿出来共享。 1. python中习惯首先声明编码类型 #!/usr/bin/python # -*- coding: <encoding name> -*- import sys reload(sys) sy...

python 乱码问题

Alf的专栏

03-30

556

请看这篇文章基本就能搞定了： PYTHON-进阶-编码处理小结python中程序内部使用unicode编码， tpye(s) 可以查看字符串s的类型，可能有两种情况： 1 str ， 2 unicode。当定义字符串 s = u"中国" 时， s 是 unicode 类型。 unicode类型可以使用s.encode('uft-8') 转变成uft-8类型的str。当定义字符串 s = "...

python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题

阿优乐扬的博客

08-04

5410

我上次也分享过关于爬取豆瓣电影top250的实战：BeautifulSoup爬取豆瓣电影top250信息和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格，豆瓣网没有反爬虫机制，对于学习爬虫的小白是一个不错的学习对象，python xpath我是初步学习，对豆瓣图书 Top 250 进行实战学习，xpath的优点之一就是可以直接复制获取信息的节点，如图...

python3.x 中批量处理不同编码的混合中英文字符文件

u013148608的博客

02-25

2363

前言：这是之前处理一批老旧文件遇见的坑，在这批文件里面，有个记录更新历史的text文件，需要在场景文件做更新的同时记录下更新的内容，一顿操作之后发现在其中某些txt文件中新录入的中文是乱码，一番查证之下发现，这批文件里的编码并不相同，有些是默认的gbk，有些的utf-8…还有一些是全英文的ASCII…在python里面要处理字符串编码确实挺让人头疼的，以下细细说道。一般读取文件方式在pytho...

proxyai 中文乱码

最新发布

06-10

### 解决 ProxyAI 中文乱码问题的方案在处理 `proxyai` 中文乱码问题时，通常需要从以下几个方面进行排查和解决。以下是一些可能的原因及对应的解决方案： #### 1. 编码设置问题如果 `proxyai` 的输入或输出未...

pyhton 中文显示乱码

05-12

### Python 中文乱码解决方案 #### 编码背景计算机内部存储数据采用二进制形式，而字符编码则是将字符映射到这些二进制数值的标准。早期的 ASCII 编码仅支持英文字符，无法满足多语言需求。因此出现了多种区域特定...

python with open方式写入文件出现乱码问题解决

执子手吹散苍茫茫烟波

07-09

4201

一.问题描述 postman调用flask post接口，接口返回成功，成功修改数据，但是出现乱码代码如下： server.py: mock接口实现接收url和data参数，再写入到csdn_mock.json中 import os import sys import json #解决无法导入包的问题 basePath = os.getcwd() sys.path.append(basePath) from flask import Flask from flask import request imp

Python中通过open()操作文件时的文件中文名乱码问题

weixin_30471065的博客

05-19

1006

　　最近在用Python进行文件操作的时候，遇到创建中文文件名的乱码问题。　　Python默认是不支持中文的，一般我们在程序的开头加上#-*-coding:utf-8-*-来解决这个问题，但是在我用open()方法打开文件时，中文名字却显示成了乱码。　　我先给大家说说Python中的编码问题，Python中的字符串的大概分为为str和Unicode两种形式，其中str常用的编码类型为utf...

python使用open过程中出现编码问题

博客

05-31

2610

该博主的文章很好的解决了我的问题感谢错误的截图： https://blog.youkuaiyun.com/lqzdreamer/article/details/76549256

python文件操作读取乱码问题（自用）

qq_45960092的博客

08-14

393

python文件读取乱码问题

python 乱码问题(编码url地址，python中open中文图片)

JUST CODE IT

01-06

629

首先是解析url地址 url地址形如下面的格式，%E4%B8...... 通过urllib.unquote()解析我这串乱码的意思是：%E4%B8%AD%E6%96%87 = 中文 i_path = urllib.unquote(self.path) # self.path = 'http://xx.xx.xx.xx:8809/image_UAV/v1.0/UAV...

python urlopen 乱码

saraul的专栏

06-28

1346

1 2 3 4 5 6 7 import urllib2 import sys content=urllib2.urlopen('http://xxx.com').read()#the webpage is encoded by uft-8 type=sys.getfilesystemencodin

linux open出现乱码,OpenStack 数据库中文乱码问题

weixin_34536193的博客

05-09

296

openstack的sql connection 需要配置成utf-8才不会中文乱码sql_connection = mysql://nova:xxx@qa-mysql1:3306/nova?charset='utf-8'但是如果之前就没有设置utf-8，数据库又不能随便清空，想要更新openstack数据库某个字段，就不能直接采用utf-8的数据库连接，否则会出现插入到数据库中的是中文，但是op...

javaweb window.open 打开中文文件乱码问题解决

Architect_优快云的博客

04-12

3216

标题翻译成英文是这样的：Load a pdf with a chinese filename from url，在使用itext生成pdf之后，在后台将生成的中文名称的pdf放在webroot下的download文件夹内，使用ajax返回，在success方法内，写上打开改路径文件的方法，如下： <script type="text/javascript"> ...

Python中文乱码问题完全解析

此外，文件《Python中文乱码详解.pdf》还探讨了数据库与Web框架中的中文乱码问题。在进行数据库操作时，如未正确设置数据库和连接的字符集，就可能出现中文乱码。而在Web开发中，服务器、模板引擎、浏览器三者的编码...