python解析文件的编码格式

最新推荐文章于 2025-05-08 11:15:00 发布

doGM

最新推荐文章于 2025-05-08 11:15:00 发布

阅读量933

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python

本文链接：https://blog.youkuaiyun.com/wangym307/article/details/125074499

python 专栏收录该内容

1 篇文章

订阅专栏

当尝试用Python读取非UTF-8编码的文件时，可能会遇到UnicodeDecodeError。该错误表明文件不是用UTF-8编码的。为了解决这个问题，可以使用`chardet`库来检测文件的实际编码。方法一是分析整个文件内容，而方法二是仅读取文件开头的几行来推测编码。这种方法在大文件中更有效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

python直接打开非utf-8编码格式的文件，并使用readline()读取内容，会出现字节解析失败。

with open(file, 'r') as f:
	str = f.readline()

报错信息如下：
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 0: invalid start byte

解决办法

使用chardet库可以分析字节流的编码格式。
方法一：

import chardet
def predict_encoding(file_path):
    with open(file_path, 'rb') as f:
        d = chardet.detect(f.read())
        print(d)
        file_encoding = d['encoding']
    return file_encoding

方法一会将文件中所有内容进行编码解析，遇到文件内容较大时，执行时间较长。
我们也可以只读取文件的开头一定行数的字节，再解析其编码，如方法二只读取文件的前1000行：
方法二：

import chardet
def predict_encoding(file_path, n_lines=1000):
    with open(file_path, 'rb') as f:
        rawdata = b''.join([f.readline() for _ in range(n_lines)])
        d = chardet.detect(rawdata)
        print(d)
        file_encoding = d['encoding']
    return file_encoding