【0基础】教你使用Xpath方式提取网页信息

目录

一、Xpath介绍

二、检查Xpath有无错误的方法

三、扩展程序使用方法


一、Xpath介绍

xpath是一套用于解析XML/HTML的语法,它使用路径表达式来选取XML/HTML中的节点或节点集。Xpath常用语法和实例如下表所示

xpath使用的第三方库为lxml

使用lxml提取网页内容的方法:

#1.导入etree类
from lxml import etree

#2.使用html生成etree类对象
etree.HTML()

#3.提取页面目标元素
xpath()

XPATH语法如下所示

路径表达式:

谓语

什么是谓语?

谓语用来查找某个特定节点或者包含某个指定节点,位于被镶嵌在方括号中

二、检查Xpath有无错误的方法

下面教大家一个简单的方法来探究你写的xpath语法有无错误的方法 

1.打开浏览器(这里使用的是google chrome)

2.选择右上角的竖状三点——更多工具——扩展程序

3.点击——加载已解压的扩展程序 

链接:https://pan.baidu.com/s/1WaIn2MTqzimyxLFijqst5Q 
提取码:phvs

压缩包程序链接我放这,下载后解压即可,添加到扩展程序就可以使用了

三、扩展程序使用方法

以www.baidu.com网站为例,提取“百度一下”四个字

1.快捷键Ctrl+Shift+X,打开xpath黑色下拉框

2.F12打开网页,输入xpath语法查看是否能打出“百度一下”,能则证明xpath正确

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值