问题描述
在写爬虫爬取网页信息时,发生了以下错误:
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0'
意思大致是Unicode编码错误,gbk编解码器不能编码\xa0
字符。
爬虫程序爬取的是课程信息,包含中文。使用requests库访问网页,使用BeautifulSoup库解析网页,用get_text()
方法获取标签内的文本信息。
python版本为3.5,在cmd控制台中运行python脚本。
代码大致如下:
import requests
from bs4 import BeautifulSoup
r = requests.get(url,cookies=cookies,headers=headers)
soup = BeautifulSoup(r.text,"lxml")
lesson_data_list = soup.find_all(id="xjs_table")[0].find_all("tr")[1:]
for lesson_data in lesson_data_list:
td