【Python学习】使用urllib爬取网站信息

本文介绍如何使用Python和LXML库从链家网站抓取租房信息,包括分析网页结构、请求包,以及利用Chrome开发者工具获取User-Agent。通过XPath解析HTML,提取房屋名称和地址。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

需求:1、分析网页结构

           2、分析请求包

1、使用Chrom的开发者模式,获取User-Agent,如:

2、获取信息的路径:

代码如下:

# -*- coding: utf-8 -*-  
import tensorflow as tf
from urllib import request
from lxml import etree

url="https://sz.lianjia.com/zufang/"
head={
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}
#定义请求
Request=request.Request(url=url,headers=head)
#发起请求
response=request.urlopen(Request)
#返回结果
result=response.read().decode()
#print(result)
#进行数据过滤

html=etree.HTML(result)

house_list=html.xpath('//ul[@id="house-lst"]/li/div[@class="info-panel"]/h2/a')

for house in house_list:
    print(house.attrib["title"])

house_list2=html.xpath('//ul[@id="house-lst"]/li/div[@class="info-panel"]')
for house in house_list2:
    house_name=house.xpath('h2/a')[0].attrib["title"]
    house_address=house.xpath('div[@class="col-1"]/div[@class="other"]/div[@class="con"]/a')[0].text
    print("#####################")
    print("%s : %s"%(house_name,house_address))
    print("#####################")

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值