python一键获取豆瓣租房小组前十页信息，并导入EXCEL（Xpath法）

最新推荐文章于 2022-01-20 15:27:43 发布

原创

最新推荐文章于 2022-01-20 15:27:43 发布 · 1.1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #html

该博客介绍了如何使用Python进行网页抓取，通过Xpath方法从豆瓣租房小组获取前10页的数据，并详细讲解了网页解析及数据导出到Excel的实现过程。

#encoding=utf-8
模块导入
import requests
from lxml import etree
import xlwt
import urllib.request

主程序

def main():
    baseurl = 'https://www.douban.com/group/beijingzufang/discussion?start={0}' #URL地址，{}中间数字可以跟随for循环一直更改
    datalists=getdata(baseurl)
    savedata(datalists)

网页解析

def getdata(baseurl): #爬取网页
    datalist = [] #新建空列表，方便存储爬取到的数据
    for i in range(0,226,25): #豆瓣每一次翻页，数字增加25，故步长设置为25，左闭右开，226结束
        url = baseurl.format(i)#生成每一页的url
        headers={
   
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400',