前言:
随着人们生活方式的的提高,房子成为了我们必不可少的一部分。而网上的信息太过于复杂,为了了解最近房价的变化趋势。小编以链家这个网站为例,抓取房价的信息。

一、项目目标
实现将获取到的房子的名字、价格、房子的关注度,导入Word模板,并生成独立的Word文档。
二、涉及的库和网站
先列出网址,如下所示。
网址:https://bj.lianjia.com/ershoufang/pg1/("bj"北京的缩写)
库:requests、time 、lxml
三、具体分析
如何对下一页的网址进行请求?
点击下一页的按钮,观察到网站的变化分别如下:
https://bj.lianjia.com/ershoufang/pg1/
https://bj.lianjia.com/ershoufang/pg2/
https://bj.lianjia.com/ershoufang/pg3/
观察到只有pg()变化,变化的部分用{}格式化代替,再用for循环遍历这网址,实现多个网址请求。
四、实现步骤
1. 我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。准备url地址和请求头headers。
import requests
from lxml import etree
import time
class LianJia(object):

本文介绍了如何使用Python网络爬虫从链家网抓取房价信息,包括房子的名字、价格和关注度,最终将数据导出至Word文档。通过详细步骤解析,帮助读者理解爬虫工作原理,强调实践与动手的重要性。
最低0.47元/天 解锁文章
1471

被折叠的 条评论
为什么被折叠?



