XPath部分总结

博客围绕网络爬虫中数据筛选和提取展开,介绍了正则表达式和XPath两种方式,着重讲解XPath。XPath是XML路径语言,可在XML文档中快速查询信息,文中通过示例展示了用XPath提取网页特定内容,如标题、标签属性等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关键词:网络采集数据,网页特定内容提取
在网络爬虫中,对爬取到的数据进行筛选和提取的方式主要有两种:正则表达式XPath,后者常用于scrapy框架中。
定义:
XPath是一种XML路径语言,通过该语言可以在XML文档中迅速地查询到相应的信息,XPath表达式通常叫做XPath selector。

1."/" 表示从顶端开始寻找某个标签(多层标签的查找)

以提取title标题为例:

例如:/html ,意思是从顶端开始查找html标签,此时表示<html ,,class=ddaddd>,html标签及其里面的内容

/html/head:提取HTML下的标签下的head标签下的所有内容/html/head/title:可得到对应标题中的内容

2.使用text()提取标签里面的文本内容

/html/head/title/text():可提取得到标题

案例:

3.”=”之前的属于标签属性,如果要提前标签里面的属性信息用”@”提取
4.“//”介绍:寻找所有的标签
herf 属于class类标签下的
//li (寻找所有的li标签)
//li(寻找所有的li标签)/[@(定位到某个属性)]
//li[@class=”,,,,,”]/a/@herf
即可得到某个herf下面的” ”的内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值