python爬虫--xpath的学习

本文介绍了处理HTML数据的基本工具,包括requests库和BeautifulSoup,以及正则表达式的应用。重点讲解了XPath在解析HTML时的功能,如获取节点、属性、文本信息等,并通过实例展示了如何从58同城租房页面抓取房源信息。此外,还提供了XPath选择器的多种用法,如按顺序选取、属性匹配等。

前言回顾:

基本的处理html数据的工具

  1. requests:可以发送数据和一些基本数据的处理方式
    参考文献:https://editor.youkuaiyun.com/md/?articleId=118095431
  2. BeautifulSoup
  3. 正则表达式的使用
    参考文献;https://editor.youkuaiyun.com/md/?articleId=117717623

Xpath处理数据

# 导入模块
from lxml import etree

html = etree.parse('./test.html'(可以换成requests得到的数据包), etree.HTMLParser())
# 获取整个html代码
result = etree.tostring(html)
# 获取当前目录的所有节点
# html.xpath('//*')
# 获取子孙节点
# html.xpath("//")
# 获取子节点
# html.xpath("/")
result = html.xpath('/html//li/a')
for item in result:
    print(item)
# 通过属性来获取值
result2 = html.xpath('//li[@class="item-3"]')
print(result2)
# 获取父节点
result1 = html.xpath('//a[@href="https://hao.360.cn/?a1004"]/../@class')
print(result1)
# 获取文本信息
result3 = html.xpath('//li/a[@href="https://hao.360.cn/?a1004"]/text()')
print(result3)
# 属性多个值匹配
result4 = html.xpath('//li[contains(@class,"sp")]/a/text()')
print(result4)
# 多个属性共同匹配
result5 = html.xpath('//li[contains(@class,"sp" and @name="123")]/a/text()')
# 根据顺序来选择
result6 = html.xpath("//li[2]")
# last()表示最后一个,last()-1表示倒数第二个,position()<=3,表示前三个,第一个是1不是0

实例分析


import requests
from lxml import etree

# 获取数据跟URL
url = 'https://bj.58.com/chuzu/?PGTID=0d100000-0000-12c6-fb47-a49a0f7be1ee&ClickID=2'
headers ={
    'user-agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0"
}
page_text = requests.get(url=url, headers=headers).text
# etree数据解析
tree = etree.HTML(page_text)
# 存储的li对象
li_list = tree.xpath("//ul[@class='house-list']/li")
# 存储到文件中
fp = open("58.txt", "w", encoding="utf-8")
for lst in li_list:
# ./表示从当前开始进行解析,/直接从首标签开始解析
    title = lst.xpath("./div[2]/h2/a/text()")[0]
    print(title)
    fp.write(title+"\n")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值