day1:python学习爬虫抓取与解析:链家网案例

本文介绍了使用Python的requests和BeautifulSoup库爬取链家网二手房信息的过程,包括抓取杭州二手房列表页,解析房源总价、信息和关注度,最后清洗数据并生成数据表以备分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

day1:python学习爬虫抓取与解析:链家网案例

  • 实验目的:爬取链家网的一些内容
  • 工具:requests和BeautifulSoup

这里写图片描述

1.准备工作

编写爬虫前的准备工作,我们需要导入用到的库,这里主要使用的是requests和BeautifulSoup两个。还有一个Time库,负责设置每次抓取的休息时间。

import requests
import time
from bs4 import BeautifulSoup

2.抓取列表页

首先,抓取前需要了解一下目标网站URL结构,链家网的二手房列表页面共有100个。

这里写图片描述

URL结构为https://hz.lianjia.com/ershoufang/pg2/ 其中
- hz表示城市
- /ershoufang/是频道名称
- pg2是页面码。

举个例子,我们现在要抓取的是杭州的二手房频道,所以前面的部分不会变,属于固定部分,后面的页面码需要在1-100间变化,属于可变部分。将URL分为两部分,前面的固定部分赋值给url,后面的可变部分使用for循环遍历页面。

#设置列表页URL的固定部分
url='http://bj.lianjia.com/ershoufang/'
#设置页面页的可变部分
page=('pg')

这里,我们最好在http请求中设置一个头部信息,否则很容易被封

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值