python编码格式问题

今天由于用python写脚本时,读取txt文件出现问题,查了半天,由此出这贴

注意:windows里的Unicode不是指Unicode字符集,而是指文件编码格式utf-16, 关于字符集,请自行百度

总结涉及兼容性考量时,不要用记事本,用专业的文本编辑器保存为不带 BOM 的 UTF-8。 

ANSI编码:

    即当前操作系统使用的编码, 可在cmd下用chcp命令查看,活动页936为gbk编码, 简体中文
    GBK 等遗留编码最麻烦,所以除非你知道自己在干什么否则不要再用了。
    
UTF-8编码:
UTF-8 本来是兼容性最好的编码但 Windows 偏要加 BOM 于是经常出问题。
读取有BOM的UTF-8编码文件,open方法传入参数:encoding = 'utf-8-sig'


UTF-16
windows所谓的「Unicode」指的是带有 BOM 的小端序 UTF-16。而不是说字符集Unicode,搞清字符集与编码格式的区别
UTF-16 理论上其实很好,字节序也标明了,但 UTF-16 毕竟不常用


python3读取TXT文件:


try:
    with open(fileName, 'r', encoding = 'utf-8') as fr:
        fr.read()
except Exception:
    with open(fileName, 'r', encoding = 'gbk') as fr:
         fr.read()

可用文本文件打开txt文件,然后另存为, 来选择格式,第一个显示的即当前文件编码格式


顺便提一下,python自带转换编码的两个函数

encode():unicode→→→其他编码的字符串

decode():其他→→→unicode


参考资料:

https://www.zhihu.com/question/20650946

Python的字符编码格式与系统字符编码息息相关。在了解Python编码前,我们先看一下系统字符编码相关的知识。 Python的字符编码问题,特别是涉及到中文的显示时,乱码、报错一直是让新手头疼的事情。 Python中常见的编码格式有ASCII、UTF-8、GBK等。ASCII编码是最基本的字符编码,只能表示英文字母、数字和一些特殊符号。而UTF-8是一种可变长度的编码格式,它可以表示世界上所有的字符。在Python 3中,默认使用的字符编码是UTF-8。 在Python中,字符编码的转换是通过str和bytes类型来实现的。str类型是Unicode编码的字符序列,而bytes类型是字节序列。str与bytes可以相互转换,通过str.encode()方法可以将str转换为bytes,而通过bytes.decode()方法可以将bytes转换为str。 总结起来,Python中的字符编码格式主要包括ASCII、UTF-8、GBK等,而在Python 3中,默认使用的是UTF-8编码格式。字符编码的转换可以通过str和bytes类型之间的相互转换来实现。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [一篇文章彻底搞懂Python字符编码方式(中文编码,UTF-8,unicode,gb,gbk,中文乱码,爬虫中文乱码)](https://blog.youkuaiyun.com/m0_58859743/article/details/124679850)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值