Python中读取与写入文件时的编码方式

最新推荐文章于 2024-08-12 10:14:05 发布

原创最新推荐文章于 2024-08-12 10:14:05 发布 · 5.3k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Python #编码方式 #GBK #UTF-8 #读写文件

文章讲述了在Python中进行文件读写时，特别是涉及中文内容时，需要关注编码方式。未指定编码读取文件会导致乱码问题，而读写文件时应确保编码方式一致，如UTF-8用于英文和多字节中文，GBK则用于双字节编码。不匹配的编码会导致内容无法正确显示。

部署运行你感兴趣的模型镜像

在《Python中文件的读取》与《Python中文件的写入》中提到通过文件对象调用read()函数和write()函数实现文件的读写。以上方法能够正确地取或写入英文时，当要读写的内容是中文时，则需要考虑编码方式。

1 读取已经存在的数据

1.1 创建文件

创建一个txt文件，在该文件中输入中文内容“你好世界”，可以看到该文件的编码方式是“UTF-8”，如图1所示。

图1 新建txt文件

相关链接1 UTF-8编码，是Unicode Transformation Format即可变长字符编码的简称，使用UTF-8编码，英文字母用一个字节表示，中文汉字用三个字节表示。“你好世界”这四个中文汉字的UTF-8编码如图2所示。

图2 “你好世界”的UTF-8编码

1.2 读取文件

1.2.1 未指定编码方式

使用图3所示的代码读取文件。

图3 未指定编码方式读取文件的代码

此时，open()函数没有指定使用何种编码方式读取文件，因此打印出来的内容是乱码。

1.2.2 指定编码方式

open()函数的encoding参数指定了以何种编码方式读取文件，代码图4所示。

图4 指定编码方式读取文件的代码

以上代码中，使用了“UTF-8”编码方式读取文件内容，此时的输出是“你好世界”。

2 读取Python代码写入的数据

在读取Python代码写入的数据时，应使用与写入时使用的相同编码方式。例如，在写入时使用“gbk”方式，那么在读取时必须也要使用“gbk”方式，而不能使用“UTF-8”的方式。

相关链接2 GBK编码，Chinese Internal Code Specification即汉字内码扩展规范的简称，其中K是汉语“扩展”的拼音“KuoZhan”的简写。无论英文字母还是中文汉字，都是用两个字节表示，如图5所示。

图5 “你好世界”的GBK编码

2.1 使用指定方式写入数据

使用“GBK”编码方式向data.txt文件中写入“你好世界”，代码如图6所示。

图6 指定编码方式向文件中写入数据的代码

打开data.txt，此时可以看到该文件的编码方式是“ANSI”，如图7所示。

图7 使用Python代码写入的txt文件

相关链接3 ANSI编码，是American National Standards Institute即美国国家学会标准的简写，在简体中文的操作系统中，ANSI编码代表的就是GBK编码。

2.2 使用相同的编码方式读取文件

读取文件的代码如图8所示。

图8 使用相同的编码方式读取文件

如果读取时使用的编码方式与写入时不同，则无法正确读取数据，如图9所示。

图9 使用不同的编码方式读取文件

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。