使用lxml提取网页元素中的文本(可解决网页内容无法复制的问题)

 

使用前需安装lxml库,打开CMD管理员命令,输入

pip install lxml
from lxml import etree

html = '''
按F12或右键点审查元素,在需要获取的文本内容上一个标签右键复制-复制元素,粘贴到此处


'''

# 将HTML字符串转换为Element对象
root = etree.HTML(html)

# 使用XPATH获取文本内容
text = root.xpath('//div[@id="timucontent"]/h2/text()')[0]   #[0]表示只获取第一个标签内的元素
print(text) # 输出:这是一段文本内容

# 使用XPATH获取选项文本
sl_text = root.xpath('//label')
for p in sl_text:   #循环输出多个标签内容
    print(p.text)

 # 输出:这是一个选项

 下面看一个实际的案例,在网上查找资料复制内容出现下面的情况,找了半天也没找到好的办法,最终试着写个程序,问题顺利解决。

当遇到以上情况时,你是不是束手无策,其实只要用6行python代码就可以搞定,而且可以重复使用,是不是很方便 .注意:html里面的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值