Python爬虫学习遇到的小问题
1.如何处理当遇到url里面有需要动态更新的内容(如页码变动)?
需要使用url格式化拼接:
#page_num写在for循环里面,每次需要更新
page_num +=1
url = “https://www.baidu.com/%d”
new_url = format(url % page_num)
2.使用fp.write()写入内容时,返回空文件?
原因:写入文件后未关闭文件!需要在结尾处加上fp.close()
#这是爬取58二手房源的那个例子
fp = open('58二手房源xa.txt','w',encoding='utf-8')
for li in li_list:
title = li.xpath(".//h2[@class='title']/a/text()")[0]
house_num +=1
fp.write(str(house_num)+'.'+title+'\n'')
fp.close()
其中,有两点需要注意:
(1)fp.close()跟for循环在同一级!
(2)由于house_num是int类型,不能进行字符串拼接,所以要使用str(house_num)转换类型!
博客围绕Python爬虫学习中的小问题展开。一是遇到URL中有动态更新内容(如页码变动),需用URL格式化拼接;二是使用fp.write()写入内容返回空文件,原因是写入后未关闭文件,要在结尾加fp.close(),且注意其与for循环同级,对int类型要转换为字符串拼接。
1782





