""" 1. 首先去分析网页数据结构 >>> 想要数据内容是在哪里 如果你想要采集多个房源详情页数据内容, 需要发送2次请求 第一次请求为了获取房源详情页的url地址 第二次请求为了获取房源基本信息数据 代码实现步骤: 第一次请求 获取数据 解析数据 1. 发送请求, 对于列表页面发送请求 2. 获取数据, 获取网页源代码 3. 解析数据, 提取我们想要数据内容 房源详情页的url地址 第二请求 获取数据 解析数据 4. 发送请求, 对于房源详情页的url地址发送请求 5. 获取数据, 获取网页源代码 6. 解析数据, 提取我们想要房源信息 7. 保存数据, 把房源信息保存表格里面 """ # 导入数据请求模块 import requests # 导入数据解析模块 import parsel # 导入格式化输出模块 import pprint # 导入csv模块 import csv #打开一个csv文件,将数据保存在里面 # f = open('data.csv', mode='a', encoding='utf-8', newline='') #表头 csv_writer = csv.DictWriter(f, fieldnames=[ '区域', '租赁方式', '价格', '面积', '朝向', '楼层', '电梯', '车位', '燃气', '用水', '用电', '采暖', '详情页', ]) csv_writer.writeheader()# 写入表头 # 1. 发送
python爬取链家网页数据
最新推荐文章于 2024-12-25 21:51:25 发布