爬取内容到本地为乱码格式解决方案

SLASH_W1

于 2021-03-16 00:00:26 发布

阅读量290

点赞数

分类专栏： bug 文章标签：乱码 python

本文链接：https://blog.youkuaiyun.com/qq_45086757/article/details/114858241

版权

bug 专栏收录该内容

3 篇文章

订阅专栏

爬取四大名著：

学习其他博主爬取四大名著下载到本地时发现是乱码格式，找到解决办法与大家分享

问题描述：

错误代码

 # 获取html
    def get_html(self, url):
        result = requests.get(url=url,headers=self.headers)
        return BeautifulSoup(result.text, 'lxml')

错误代码运行结果
正确代码

 # 获取html
    def get_html(self, url):
        result = requests.get(url=url,headers=self.headers)
        # 注意，一定要加下面这一句，否则下载下来的内容会出现乱码，根据网页源码查看属于utf-8，所以要将其转化成和网页源码一样，下面就是一个转化方式
        result.encoding = "utf-8"
        return BeautifulSoup(result.text, 'lxml')