Python入门系列之字符编码

最新推荐文章于 2024-03-15 14:44:23 发布

原创

最新推荐文章于 2024-03-15 14:44:23 发布 · 289 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #python #数据挖掘

本文介绍了Python中的字符编码，包括Unicode、GB码的概念，如何判断字符串的编码类型，以及编码转换的方法。同时讲解了Python命令行编码和代码中的编码处理，强调了Unicode在Python解释器中的重要角色。

1.字符编码

**【**所谓unicode】

unicode是一种类似于符号集的抽象编码，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。也就是它只是一种内部表示，不能直接保存。所以存储时需要规定一种存储形式，比如utf-8和utf-16等。理论上unicode是一种能够容纳全世界所有语言文字的编码方案。（其他编码格式不再多说）

【所谓GB码】

GB就是“国标”的意思，即：中华人民共和国国家标准。GB码是面向汉字的编码，包括GB2312（GB2312-80），GBK，GB18030，表示范围从小到大递增，而且基本是向下兼容的。此外经常遇到一种叫做CP936的编码，实际上可以大概看做是GBK。

【判断编码】

1、使用isinstance(s, str)来判断一个字符串是否为一般字符串（str为ascii类型的字符串，utf-8、utf-16、GB2312、GBK等都是ascii类型的字符串）；

使用isinstance(s, unicode)来判断一个字符串是否为unicode编码形式的字符串（unicode编码的字符串才是unicode类型的字符串）。

2、使用type()或者.class

在编码正确的情况下：

例如：stra = “中”, 则使用type(stra)的结果是<type ‘str’>，表明为ascii类型字符串；

例如：strb = u"中", 则使用type(strb)的结果是<type ‘unicode’>，表明为unicode类型字符串。

3、最好的办法是使用chardet判断，特别是在web相关的操作中，例如抓取html页面内容时，页面的charset标签只是标示编码，有时候不对，而且页面内容中一些中文可能超出了标示编码的范围，此时用charset检测最为方便准确。

（1）安装办法：下载chardet后，将解压得到的char

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。