day15爬虫(二手房数据)

本文介绍了一个Python爬虫项目,用于抓取二手房数据。通过导入requests和bs4模块,设置User-Agent来避免反爬机制,批量获取100页的房源网址。遍历网页数据,提取房源名称、地理位置、价格、补充信息等关键信息,并处理可能的缺失值。最后,提到了使用代理IP以降低被封IP的风险。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫(二手房数据)

先导入requests模块以及bs4模块。

导入bs4模块(在安装插件的时候最好还是安装beautifulsoup4的插件,只有这个是官方的,要不其他民间的可能有病毒。)

import requests
import bs4
from bs4 import BeautifulSoup

先写个变量存放爬取对象(习惯用URL),这里用格式化字符串的方法批量获取100页的数据的网址

for a in range(1,101):
	URL = f'https://cd.lia**njia.com/ershoufang/pg{
     a}/'

由于有些网站有反爬机制,这里把爬虫伪装成浏览器。User-Agent以及后面的数据在你需要爬取的网站中右键检查,然后点网络(Network),点击All,点击刷新或者f5刷新出数据,随便单击一个在右边的Headers里面的最下面有User-Agent:右键复制值(value)

Header = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}

请求地址获取响应结果,如果获取的状态码是200,表示可以继续:

resp = requests.get(url=URL, headers=Header)
if resp.status_code == 200:

将网页源代码转换成bs4数据类型:

soup1 = BeautifulSoup(resp.text, 'html.parser')

所需要的网页数据,右键查看目标具体路径,然后批量爬取,装到一个列表里面,元素还是bs4数据类型

li_list = soup1.select('body>div.content>div.leftContent>ul>li')

对li_list进行遍历(这里的attrs是获取标签的属性(href属性))得到每一个房源的网址:

for i in li_list:
    house_href = i.select_one('li>a').attrs
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值