#encoding=utf-8
模块导入
import requests
from lxml import etree
import xlwt
import urllib.request
主程序
def main():
baseurl = 'https://www.douban.com/group/beijingzufang/discussion?start={0}' #URL地址,{}中间数字可以跟随for循环一直更改
datalists=getdata(baseurl)
savedata(datalists)
网页解析
def getdata(baseurl): #爬取网页
datalist = [] #新建空列表,方便存储爬取到的数据
for i in range(0,226,25): #豆瓣每一次翻页,数字增加25,故步长设置为25,左闭右开,226结束
url = baseurl.format(i)#生成每一页的url
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400',

该博客介绍了如何使用Python进行网页抓取,通过Xpath方法从豆瓣租房小组获取前10页的数据,并详细讲解了网页解析及数据导出到Excel的实现过程。
最低0.47元/天 解锁文章
22万+

被折叠的 条评论
为什么被折叠?



