python爬虫写文件编码

解决网页爬取与文件写入乱码问题

最新推荐文章于 2024-07-06 02:57:28 发布

richlaji

最新推荐文章于 2024-07-06 02:57:28 发布

阅读量622

点赞数

CC 4.0 BY-SA版权

分类专栏：其他

本文链接：https://blog.youkuaiyun.com/richlaji/article/details/50458554

其他专栏收录该内容

9 篇文章

订阅专栏

本文详细介绍了使用Python进行网页内容爬取并处理乱码问题的方法，包括获取网页编码、统一编码写入文件的过程。适用于在面对不同编码格式的网页时，确保数据准确无误地被收集和保存。

情况介绍

　　最近需要爬取网页上的内容，并且保存下来，在把抓取到的信息写入文件的时候，会出现乱码，需要做转码等处理，用的是python

　　解决的思路大概是这样的：

　　1.　requests.get()获取网页的内容
　　2.　根据网页，获取编码方式
　　3.　解码后，统一用utf-8的编码写入文件内，因为gbk编码的时候，查看文件均是乱码

代码

import requests
from bs4 import BeautifulSoup
import codecs

#get content
def getContent(url):
    r = requests.get(url)
    return r.content

#get code set
def getCodeSet(content):
    soup = BeautifulSoup(content,'html.parser')
    return soup.original_encoding

#write
def writeToFile(content,path,codeSet):
    f = codecs.open(path,'w',codeSet)
    f.write(content.decode(codeSet).encode('utf-8').decode('utf-8'))
    f.close()

if __name__ == '__main__':
    content = getContent('http://item.jd.com/1076647290.html')
    codeSet = getCodeSet(content)
    writeToHtml(content,'test.html',codeSet)