7.xpath表达式

最新推荐文章于 2024-07-16 09:56:52 发布

原创最新推荐文章于 2024-07-16 09:56:52 发布 · 161 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #xpath #正则

python 同时被 2 个专栏收录

56 篇文章

订阅专栏

爬虫

18 篇文章

订阅专栏

XPath与正则表达式对比：

xpath表达式效率会高一点
正则表达式功能会强大一点
优先使用xpath表达式，xpath解决不了用正则表达式

/ 逐层提取
- /html/head/title 这样就提取到title的标签
text() 提取标签下面的文本
- /html/head/title/text()
//标签名表示提取名为“标签名”所有的标签
- //div
//div [@属性=’属性值’] [ ]表示约束
- @属性名代表某个属性.
- //div[@class=’tools’]

//ul[@class=”xxx”]/li/a/text()
//a[@name=’itemlist-title’]/@title
//a[@name=’itemlist-review’]/text()

如何在URLLIB中应用xpath

from lxml import etree
data = urllib.request.urlopen('http://www.baidu.com').read().decode('utf-8','ignore')
treedata = etree.HTML(data)
title = treedata.xpath('//title/text()')
返回的是list

如果不是list
if (str(type(title))) == "<class 'list'>":
	pass
else:
	title = [ i for i in title ]
print(title[0])