1. xpath
---- 是一门从html中提取数据的语言
2. xpath语法
---- 介绍语法之前,推荐一款google浏览器的插件 (xpath helper),这款插件可以定位html中的数据
(1)选择节点(标签)
---- '/html/body/div’ : 能够选中html下的body下的所有div标签(此语法只能选中body下第一级的div标签)
(2)从任意节点开始选择 :‘//’
---- '//span' : 当前页面上的所有span标签会被选中
---- '/html/body//div' : 当前页面上body标签下的所有div会被选中(此语法能选中body下所有级别div标签)
(3) @符号的用途 :‘@’
---- ①: '//div[@class='user']/ul/li' : 选择具体某个元素 (此处是选中当前页面下class=user的div标签)
---- ②: '//span/a/@herf' : 选择某个标签某个属性的值 (此处是选择span标签下a标签的herf属性的值)
(4)获取文本:‘text()’
---- '/a/text()' : 获取a标签下的文本 (此语法只能获取a标签下第一级的文本,如果a标签中包含其他标签,则无法获取到)
---- 'a//text()' : 获取a标签下的所有文本 (此语法能获取a标签下所有级别的文本,不论a标签下嵌套多少层标签,其文本都可以获取到)
这种语法可以配合xpath helper插件很好的使用,如果想要使用python程序获取html中的数据呢,当然也是可以的:
目前,个人了解的简单易学的第三包有两个,第一:bs4,第二:lxml(使用lxml这个包获取数据的语法和直接使用xpath helper插件语法相同),如果想使用这两个第三方包,首要要安装,这两个第三方包的语法几乎是没有什么相同点的,但是使用起来都很方便,如果感兴趣,可以try一下,因为之前也很少提取html中的数据,所以对这两个包也不是特别熟悉,如果你在使用过程中发现什么好的方法,还望留言,共同进步,谢谢