python 爬虫（lxml与jsonpath）使用示例

最新推荐文章于 2025-12-01 21:40:14 发布

原创

最新推荐文章于 2025-12-01 21:40:14 发布 · 444 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节 #爬虫 #python

一、lxml主要是用来爬取html数据

from lxml import etree

html = '''
<html>
  <body>
    <div>
      <h1>Hello World</h1>
      <p>This is a paragraph.</p>
      <ul>
        <li class="item-0"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
    </div>
  </body>
</html>
'''

selector = etree.HTML(html)

# 选择所有带有class属性的li标签
items = selector.xpath('//li[@class]/a/text()')
print(items)

# 选择所有带有class属性为item-0的li标签
items = selector.xpath('//li[@class="item-0"]')
print(items)

# 选择所有带有class属性为item-0的li标签，并获取其文本
texts = selector