开篇
当我们刚刚开始学习处理大量的文本数据的时候,总是会在读取数据这一块出现卡壳,尤其是像我这种根本没有任何指导的小白,千里之行刚刚迈出第一步就宣告结束了,这种情况往往出现在我们自己爬取的一些网络文本,一般是TXT文件。下面就让我们看看具体怎么解决这样的问题。
读取文本数据
这边我们主要讲关于文本的读取,涉及到二进制文件的读取就不多提了。首先让我们看看,正常的情况下,我们是怎么样去读取一个文本数据的。
# Read the entire file as a single string
with open('somefile.txt', 'rt') as f:
data = f.read()
# Iterate over the lines of the file
with open('somefile.txt', 'rt') as f:
for line in f:
# process line
...
我想这是大部分人开始接触文本处理的时候,最先想到的处理方法,但是事实上我们读取的文本其实还有很多种形式的编码的,比如 ASCII, UTF-8,GBK 或 UTF-16 编码等。上面的代码我们是默认调用系统的编码来读取你需要读取的文本数据的

本文介绍了Python在处理文本数据时常见的编码问题,特别是对于GBK和UTF-8编码的处理。建议在Linux或Mac环境下工作以避免编码问题,或在Windows上指定编码方式如UTF-8。还讨论了当不确定文本编码时,如何选择默认使用UTF-8或采用latin-1编码以避免解码错误。
最低0.47元/天 解锁文章
1318

被折叠的 条评论
为什么被折叠?



