Xpath教程

本文介绍如何利用Python的requests库和lxml模块中的XPath语法来解析并抓取起点中文网免费区的所有小说信息。文章详细展示了各种XPath选择器的应用场景,包括获取指定标签及其属性、根据标签内容或属性进行模糊匹配等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from lxml import etree
import requests # urllib urllib2 urllib3

url = "https://www.qidian.com/free/all"
response = requests.get(url=url)
response.encoding = response.apparent_encoding

root = etree.HTML(response.content)
  • 查找网页内某个标签,例如  title 

    root.xpath('//title')

  • 获取某个标签 的内容, 例如<title>网页标题 </tit le>

    root.xpath('// title/text()')

  • 获取某个标签 及子标签下的内容, 例如<title>网页标题 </tit le>

    root.xpath('// title//text()')

  • 获取img标签的src属性 例如<img sr c="1. jpg" />

    ro ot.xpath('//img/@src')

  • 根据id精确查找标签内容 <img src="1.jpg" id="img1"/>

    root.xpath(' //img[@id="img1"]/@src')

  • 根据class查找标签内容 <a c la ss="a1">标签</a>

    root. xpath('//a[@class="a1"]/text()')

  • 根据其它属性查找标签内容 <a data="cate" title="a" name="a">分类1</a>

    root.xpath('//a[@data="cate"]/text()')

    root.xpath('//a[@title="a"]/text()')

    root.xpath('//a[@name="a"]/text()')

  • 根据标签内容查找标签   <a>下一页</a>

    root.xpath('//a[text()="下一页"]') 

  • 使用string('.') <a c la ss="a1">标签</a>

    root.xpath('//a[@class="a1"]').xpath('string(.)')

  • 属性模糊定位 <a class="a1">123</a>

    root.xpath('//a[contains,(@class,"a")]')

  • 文本模糊定位 <a href="http://www.baidu.com">百度搜索</a>

    root.xpath('//a[contains,(text(),"百度")]')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值