python3 UnicodeEncodeError: 'gbk' codec can't encode character '\uff70' in position 75267: illegal m...

最新推荐文章于 2023-06-20 04:12:34 发布

weixin_30918415

最新推荐文章于 2023-06-20 04:12:34 发布

阅读量190

点赞数

CC 4.0 BY-SA版权

文章标签： python

原文链接：http://www.cnblogs.com/wuxiexy/p/6386400.html

本文提供了一段Python3代码示例，用于解决爬虫抓取网页数据时出现的中文乱码问题，并展示了如何设置正确的编码方式。

当你爬出想要的数据了，却发现中文是乱码的时候？请你计算下你内心的阴影面积！

菊个栗子：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import io
import sys
import urllib.request

def getHtml(url):
    sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')  # 改变标准输出的默认编码 这个 gb18030 支持 cmd
    res = urllib.request.urlopen(url)
    html = urllib.request.urlopen(url).read()
    res.close()
    return html.decode('utf-8')

html = getHtml("https://tieba.baidu.com/index.html")
print(html)

需要的朋友 copy 代码跑跑看，小哥也是刚接触 python3 不久，存在不合理的地方还望大牛们指正！
希望可以帮助到你。
喜欢的朋友可以收藏，以便日后的不便之需！不要说你可以记得，万一有妹子问到，你想百度找我有那么快吗？
好了，牛逼就吹到这里了，为了150字小哥也是蛮拼的！！
详细的说明可以看下：这篇博文

转载于:https://www.cnblogs.com/wuxiexy/p/6386400.html