使用lxml提取网页元素中的文本（可解决网页内容无法复制的问题）

本文链接：https://blog.youkuaiyun.com/weixin_51424938/article/details/134514854

使用前需安装lxml库，打开CMD管理员命令，输入

pip install lxml

from lxml import etree

html = '''
按F12或右键点审查元素，在需要获取的文本内容上一个标签右键复制-复制元素，粘贴到此处


'''

# 将HTML字符串转换为Element对象
root = etree.HTML(html)

# 使用XPATH获取文本内容
text = root.xpath('//div[@id="timucontent"]/h2/text()')[0]   #[0]表示只获取第一个标签内的元素
print(text) # 输出：这是一段文本内容

# 使用XPATH获取选项文本
sl_text = root.xpath('//label')
for p in sl_text:   #循环输出多个标签内容
    print(p.text)

 # 输出：这是一个选项

下面看一个实际的案例，在网上查找资料复制内容出现下面的情况，找了半天也没找到好的办法，最终试着写个程序，问题顺利解决。