【python爬虫】python3.7+selenum 3.7 获取网页标签的属性值和文本

本文介绍了使用Python3.7和Selenium库来获取网页元素的属性值和文本内容,特别是通过XPath选择器。以www.hao123.com网站的'七日天气'链接为例,详细阐述了定位元素、提取属性和文本的方法,包括XPath的使用和Firefox的XPath插件辅助。文章提供了相关XPath教程链接以及Python代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【工具安装】
https://blog.youkuaiyun.com/qq_39295735/article/details/84558545

【xpath用法】
http://www.cnblogs.com/hhh5460/p/5079465.html
https://www.cnblogs.com/hanmk/p/8997786.html

xpath获取同级元素 http://www.cnblogs.com/VseYoung/p/8686383.html

【测试步骤】
1、用www.hao123.com这个门户网站进行测试,如何用xpath方便提起标签中的属性值和标签的文本内容。测试对象是首页上方的“七日天气”这个链接地址和文字。
首先通过firefox的xpath插件先定位到该标签的相关信息,操作顺序见截图标注。

2、提取跳转链接的xpath表达式是:
<1> 定位到这个标签:xpath = '//a[text()="七日天气"]'
<2> 获取标签中的属性值和文本:content.get_attribute('href') 和 content.text

【python代码】

#!/usr/bin/python3
#-*- coding: utf-8 -*-

from lxml import etree
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Firefox()
driver.get("https://www.hao123.com/")
content = WebDriverWait(driver, 30).until(lambda x:x.find_element_by_xpath('//a[text()="七日天气"]'))

print(content.get_attribute('href'))
print(content.text)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值