Python爬虫遇到的问题(一)—关于utf-8,gbk
遇到的问题
最初,在爬取浙江工商大学信息网时,使用了以下代码:
from bs4 import BeautifulSoup
import urllib.request
def get_html(url):
page = urllib.request.urlopen(url)
htmlcode = page.read() #这里没有进行任何操作
return htmlcode
url = 'http://www.zjgsu.edu.cn/news/'
html = get_html(url)
soup = BeautifulSoup(html,'lxml') #使用lxml
print(soup)
发现BeautifulSoup解析html后内容缺失,而后做了如下更改:
from bs4 import BeautifulSoup
import urllib.request
def get_html(url):
page = urllib.request.urlopen(url)
htmlcode = page.read() #这里没有进行任何更改
return htmlcode
url = 'http://www.zjgsu.edu.cn/news/'
html = get_html(url)
soup = BeautifulSoup(html,'html.parser') #使用html.parser
print(soup)
发现解析后的html内容出现中文乱码问题,紧接着又做出了一下修改:
from bs4 import BeautifulSoup
import urllib.request
def get_html

本文讲述了在Python爬虫中遇到的编码问题,主要讨论了在处理浙江工商大学信息网时,utf-8与gbk编码导致的内容缺失、乱码及UnicodeDecodeError。通过尝试不同解析库和解码方式,最终确定gbk编码配合lxml库可以成功解决爬取过程中遇到的问题。
最低0.47元/天 解锁文章
3万+





