Python爬虫之lxml解析页面元素

本文介绍了如何使用Python的lxml库解析HTML,包括通过etree.HTML()处理网页源码字符串和etree.parse()解析HTML文件。重点讨论了XPath在lxml中的应用,如从Chrome复制XPath路径,处理定位为空的结果,以及获取元素属性如href等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 用lxml.etree 解析string为html格式

1、如果是用webdriver获取的页面源码,直接将源码字符串解析成html, 用etree.HTML()
from selenium import webdriver
from lxml import etree

url = "https://appexchange.salesforce.com/appxStore"
browser = webdriver.Chorme()
browser.get(url)
page_code = browser.page_source

html_code = etree.HTML(page_code) # 将page_code 字符串解析成html

app_names_xpath = '//*[@id="appx-table-results"]/li[*]/a/span[2]/span[2]/span[1]/span[2]/span[1]'
app_names = html_code.xpath(app_names_xpath)
# 这里返回的app_names 是一个列表, 里面存储着所有匹配的选项,如果没有的话列表就为空
print(app_names[0].text)

2、如果是直接解析一个html文件: 使用etree.parse()
html_code = etree.parse("demo.html", etree.HTMLParser())

二. etree 与 Xpath

1、在chrome中在页面选择元素可以直接以xpath复制地址
2、html_code.xpath(xpath) 定位后返回的是一个列表,元素定位为空的时候列表返回为空
app_names_xpath = '//*[@id="appx-table-results"]/li[*]/a/span[2]/span[2]/span[1]/span[2]/span[1]'
app_names = html_code.xpath(app_names_xpath)
# 这里返回的app_names 是一个列表, 里面存储着所有匹配的选项,如果没有的话列表就为空
# text返回的是定位元素的文本内容
print(app_names[0].text)

定位有两种形式:
① 一种就是上面的定位元素,然后调用元素文本内容;
② 还有一种就是直接在定位元素的时候, 带上具体内容如:

# 第一种形式: 
app_names_xpath = '//*[@id="appx-table-results"]/li[*]/a/span[2]/span[2]/span[1]/span[2]/span[1]'
app_names = html_code.xpath(app_names_xpath)
print(app_names[0].text)

第二种形式:
app_names_xpath = '//*[@id="appx-table-results"]/li[*]/a/span[2]/span[2]/span[1]/span[2]/span[1]/text()'
app_names = html_code.xpath(app_names_xpath)
print(app_names[0])
3、如果需要元素内的标签内容,如href等:
# 沿用上面的第二种形式:获取class属性的内容
ratings_path = '/html/body/div[1]/div[1]/div[1]/div/div/span[2]/div/ul/li[1]/a/span[1]/span[3]/span[2]/span[1]/span/span/@class'
rating = html_code.xpath(ratings_path)
print(rating[0])
4、获取网站某个元素的xpath路径

选取对应的元素, 右键copy -》copy xpath

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值