XPath部分总结

最新推荐文章于 2019-04-09 22:14:50 发布

原创最新推荐文章于 2019-04-09 22:14:50 发布 · 368 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Python #爬虫

Python语言同时被 2 个专栏收录

19 篇文章

订阅专栏

5 篇文章

订阅专栏

博客围绕网络爬虫中数据筛选和提取展开，介绍了正则表达式和XPath两种方式，着重讲解XPath。XPath是XML路径语言，可在XML文档中快速查询信息，文中通过示例展示了用XPath提取网页特定内容，如标题、标签属性等。

关键词：网络采集数据,网页特定内容提取
在网络爬虫中,对爬取到的数据进行筛选和提取的方式主要有两种：正则表达式和XPath,后者常用于scrapy框架中。
定义：
XPath是一种XML路径语言,通过该语言可以在XML文档中迅速地查询到相应的信息,XPath表达式通常叫做XPath selector。

1."/" 表示从顶端开始寻找某个标签(多层标签的查找)

以提取title标题为例:

例如:/html ,意思是从顶端开始查找html标签,此时表示<html ,,class=ddaddd>,html标签及其里面的内容

/html/head：提取HTML下的标签下的head标签下的所有内容/html/head/title:可得到对应标题中的内容

2.使用text()提取标签里面的文本内容

/html/head/title/text():可提取得到标题

案例：

3.”=”之前的属于标签属性,如果要提前标签里面的属性信息用”@”提取
4.“//”介绍：寻找所有的标签
herf 属于class类标签下的
//li (寻找所有的li标签)
//li(寻找所有的li标签)/[@(定位到某个属性)]
//li[@class=”,,,,,”]/a/@herf
即可得到某个herf下面的” ”的内容

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。