day1:python学习爬虫抓取与解析:链家网案例

最新推荐文章于 2025-07-14 20:20:10 发布

程子的爱_

最新推荐文章于 2025-07-14 20:20:10 发布

阅读量3.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：学习python语言文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/chengzideai_/article/details/78266475

本文介绍了使用Python的requests和BeautifulSoup库爬取链家网二手房信息的过程，包括抓取杭州二手房列表页，解析房源总价、信息和关注度，最后清洗数据并生成数据表以备分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里写图片描述

编写爬虫前的准备工作，我们需要导入用到的库，这里主要使用的是requests和BeautifulSoup两个。还有一个Time库，负责设置每次抓取的休息时间。

import requests
import time
from bs4 import BeautifulSoup

首先，抓取前需要了解一下目标网站URL结构，链家网的二手房列表页面共有100个。

这里写图片描述

URL结构为https://hz.lianjia.com/ershoufang/pg2/ 其中
- hz表示城市
- /ershoufang/是频道名称
- pg2是页面码。

举个例子，我们现在要抓取的是杭州的二手房频道，所以前面的部分不会变，属于固定部分，后面的页面码需要在1-100间变化，属于可变部分。将URL分为两部分，前面的固定部分赋值给url，后面的可变部分使用for循环遍历页面。

#设置列表页URL的固定部分
url='http://bj.lianjia.com/ershoufang/'
#设置页面页的可变部分
page=('pg')

这里，我们最好在http请求中设置一个头部信息，否则很容易被封

200万优质内容无限畅学