python中文处理

最新推荐文章于 2021-11-26 17:17:52 发布

冬日暖阳_1992

最新推荐文章于 2021-11-26 17:17:52 发布

阅读量338

点赞数

分类专栏： Python 文章标签： python 编码 unicode chardet

Python 专栏收录该内容

20 篇文章

订阅专栏

本文介绍了Python2中如何使用decode()和encode()进行编码转换，并通过Unicode作为中间类型完成str与不同编码之间的转换。此外，还介绍了如何利用chardet库来检测字符串或文件的编码类型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、encode和decode

python2中，使用decode()和encode()来进行解码和编码，以Unicode类型作为中间类型。即
     decode              encode
str ---------> unicode --------->str

u = u'中文'    #Unicode对象u
gb2312_str = u.encode('gb2312')    #gb2312编码字符串
gbk_str = u.encode('gbk')    #gbk编码字符串

utf8_str = u.encode('utf-8') #utf-8编码字符串

gb2312_u = gb2312_str.decode('gb2312') #gb2312编码的字符串的Unicode解码

gbk_u = gbk_str.encode('gbk') #gbk编码字符串的Unicode解码

utf8_u = utf8_str.encode('utf-8') #utf-8编码字符串Unicod解码

2、chardet

另外，使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文，有的使用GBK/GB2312，有的使用UTF8，如果你需要读取或者写入中文，知道文件的编码很重要

>>> import urllib
>>> import chardet
>>> html = urllib.urlopen('http://www.chinaunix.net').read()
>>> chardet.detect(html)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
函数返回值为字典，有2个元素，一个是检测的可信度，另外一个就是检测到的编码。也就是表示检测出来的编码方式也许不准确

冬日暖阳_1992

博客等级

码龄14年

14
原创

74
点赞

265
收藏

38
粉丝

关注

私信

热门文章

分类专栏

Linux 9篇
Python 20篇
TCP/IP 6篇
IPv6 3篇
测试 3篇
数据库 2篇
无线 2篇
GPON
XGPON

展开全部收起

上一篇：: Python调用命令行的几种方法

下一篇：: python中string库的相关函数的使用

最新评论

如何通过adb控制安卓手机wifi
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Win32中调用其他应用程序的方法（函数）winexec，shellexecute ，createprocess
lwei2: 楼主，请教一下，在MFC中调用shellexecute去执行diskpart命令，即如下： ShellExecute(NULL, _T("open"), _T("cmd.exe"), _T(" /c diskpart /select disk 2"), NULL, SW_SHOWNORMAL); ShellExecute(NULL, _T("open"), _T("cmd.exe"), _T(" /c diskpart /clean"), NULL, SW_SHOWNORMAL); 为什么以上代码运行后并没有成功呢？
Ubuntu20安装后开在log界面问题解决方法
金焱111: 没有附图看着真的难受
使用msl-loadlib实现Python64位调用32位dll
qq_28918509: 我这是无论如何都连不上服务端 Traceback (most recent call last): File "D:\pythonWork\python32-3.9\quant\testdll.py", line 3, in <module> c = MyClient() File "D:\pythonWork\python32-3.9\quant\my_client.py", line 8, in __init__ super(MyClient, self).__init__(module32='my_server') File "D:\ProgramData\anaconda\envs\qihuo\lib\site-packages\msl\loadlib\client64.py", line 199, in __init__ utils.wait_for_server(host, port, timeout) File "D:\ProgramData\anaconda\envs\qihuo\lib\site-packages\msl\loadlib\utils.py", line 282, in wait_for_server raise ConnectionTimeoutError( msl.loadlib.exceptions.ConnectionTimeoutError: Timeout after 10.0 seconds. Could not connect to 127.0.0.1:58830 Instantiating the 32-bit server raised the following exception: ValueError: Procedure called with not enough arguments (8 bytes missing) or wrong calling convention Cannot start the 32-bit server.
python selenium模块使用出错解决，Message: 'geckodriver' executable needs to be in PATH
m0_63793769: 下载解压后放到自己运行python代码的路径里

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。