【python3】快速识别文件编码

dmc436

已于 2023-02-11 15:31:38 修改

阅读量2.3k

点赞数

分类专栏： python 文章标签： python

于 2022-07-19 10:46:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/dmc436/article/details/125867183

版权

import cchardet

def get_file_encoding(filepath):
    with open(filepath, 'rb') as f:
        encoding = cchardet.detect(f.read())['encoding']
        if encoding in ["ISO-8859-1", "ASCII"]:
            return "GB2312"
        if encoding == "EUC-TW":
            return "GBK"
        return encoding

C语言编写的cchardet 效率比python编写的chardet 效率高60倍

编码关系：

当使用GBK编码写入含有部分UTF-8编码字符串提示\xa0等字符无法识别时，可以使用unicodedata处理异常空白符转成可见空格

import unicodedata  # python原生库
content = unicodedata.normalize('NFKC', content)
with open(target_file, "w", encoding="gbk") as o:

最低0.47元/天解锁文章

博客等级

码龄8年

30
原创

23
点赞

98
收藏

107
粉丝

关注

私信

分类专栏

netconf 1篇
python 16篇
restconf 2篇
java 2篇
ruby 2篇
windows 3篇
数学 1篇

最新评论

【sublime text】设置tcl编译
2401_89119889: 怎么保存呀，不太会
【python】netconf协议对接管理设备
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)增加除了各种控件外，文章正文的字数。
【sublime text】设置tcl编译
塞北江南之阿华: 建议安装ActiveTcl.安装完Tcl之后按照帖子里的内容设置编译命令，就可以执行Tcl脚本。
【sublime text】设置tcl编译
塞北江南之阿华: 收藏了，非常有用。我参照这个在sublime中实现了tcl脚本的运行。
【python3】Restconf协议管理设备
dmc436: 如果delete 操作报失败，需要将header中的Accept字段和Content-type改成一致即可。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。