前言
嗨喽~大家好呀,这里是魔王呐 !
思路
一.分析数据来源
链家二手房数据:多页《—一页
二.案例代码实现
-
发送请求,向目标网址发送数据请求
-
获取网页源代码<响应文本信息>
-
解析数据
-
保存数据
采集代码
from lxml import etree
import csv
import requests
因优快云不能出现网站链接,所以我把下图代码删了,大家可以按照下图片把它添加一下
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
html = requests.get(url=url, headers=headers)
# print(html.text)
# 解析 转换数据类型
soup = etree.HTML(html.text)