Python中文文本分析时遇到的编码问题小结

最新推荐文章于 2025-03-12 13:29:28 发布

原创

最新推荐文章于 2025-03-12 13:29:28 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #编码 #中文文本分析

最近在做python的中文文本分析，万事开头难，最开始就发现了很多中文编码问题，以下对问题进行了汇总。

问题1：中文文本读取时遇到的编码问题

在读取文件后，直接print就会产生问题，如下：

这里写图片描述
解决方案
将字符串进行解码，使用decode()方法，如下：

这里写图片描述
分析与对策
这个问题的根源要说到python2及其以前的版本中的string问题。在python中，有三大类string类型，一种是unicode(text string)，一种是str(byte string)，第三种是前两者的父类base string。其实，关于一串字节(sequences of bytes)是否应该被当做字符串（string）来处理一直存在着争议，其中java，c#认为不该被当做字符串处理，而python则认为应该当做字符串处理。python认为字节也是字符，所以他们俩的操作集合是一致的，所以在必要的时候，需要对字节进行自动类型转换，例如字节和文本拼接时，于是python就需要一个默认编码来支持两个不同类型之间的自动转换。在python2诞生的年代，ASCII是比较流行的，所以python2的默认编码选择了ASCII。（如今python3已经改成了Unicode，这就意味着做所有的需要转换的场合，都能正确并成功的转换）在不想换版本的情况下，如何解决编码问题呢？首先，尽量保证所有的text string都是unicode类型，如果是str，则可能产生问题；其次，在需要转换的时候，显式转换，从字节解码成文本用decode()，从文本编码成字节用encode()；特别低，从外部读取数据时，默认它是字节，需要decode()成需要的文本，就像上例中一样；而当需要向外部