xpath基本用法(掌握这几点基本可以应对80%的从html获取数据的问题)

1. xpath

        ---- 是一门从html中提取数据的语言

2. xpath语法

        ---- 介绍语法之前,推荐一款google浏览器的插件 (xpath helper),这款插件可以定位html中的数据

        (1)选择节点(标签)

                 ----   '/html/body/div’  : 能够选中html下的body下的所有div标签(此语法只能选中body下第一级的div标签)

         (2)从任意节点开始选择 :‘//’

                 ----   '//span' :  当前页面上的所有span标签会被选中

                 ----   '/html/body//div' :  当前页面上body标签下的所有div会被选中(此语法能选中body下所有级别div标签)

          (3) @符号的用途  :‘@’

                 ----  ①: '//div[@class='user']/ul/li'  :  选择具体某个元素 (此处是选中当前页面下class=user的div标签)

                 ----  ②: '//span/a/@herf'  :  选择某个标签某个属性的值   (此处是选择span标签下a标签的herf属性的值)

            (4)获取文本:‘text()’

                  ----  '/a/text()'  :  获取a标签下的文本 (此语法只能获取a标签下第一级的文本,如果a标签中包含其他标签,则无法获取到)

                  ----  'a//text()'  :  获取a标签下的所有文本 (此语法能获取a标签下所有级别的文本,不论a标签下嵌套多少层标签,其文本都可以获取到)

 

   这种语法可以配合xpath helper插件很好的使用,如果想要使用python程序获取html中的数据呢,当然也是可以的:

          目前,个人了解的简单易学的第三包有两个,第一:bs4,第二:lxml(使用lxml这个包获取数据的语法和直接使用xpath helper插件语法相同),如果想使用这两个第三方包,首要要安装,这两个第三方包的语法几乎是没有什么相同点的,但是使用起来都很方便,如果感兴趣,可以try一下,因为之前也很少提取html中的数据,所以对这两个包也不是特别熟悉,如果你在使用过程中发现什么好的方法,还望留言,共同进步,谢谢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值