网络爬虫——CSS选择器和XPath语法

文章介绍了CSS选择器和XPath在处理HTML和XML文档时的作用,它们分别用于定位和选取文档中的特定元素。CSS选择器如.class,#id,element等用于匹配和选择元素,而XPath则提供路径表达式来选取不同位置的节点。两者在网页抓取和数据提取中具有重要地位。

1、CSS选择器

CSS(Cascading Style Sheets),即层叠样式表,主要用于 HTML 文档的样式化与 布局,具体涉及字体、颜色、编辑和高级定位等。CSS Selector,即 CSS 选择器,是用于 匹配元素(Elements)的一种模式。在网络爬虫中,常使用 CSS 选择器,定位 HTML 文 档中的元素,进而抽取 HTML 文档中的相应字段。

选择器示例示例说明CSS
.class.intro选择所有class="intro"的元素1
#id#firstname选择所有id="firstname"的元素1
**选择所有元素2
elementp选择所有<p>元素1
element,elementdiv,p选择所有<div>元素和<p>元素1
element elementdiv p选择<div>元素内的所有<p>元素1
element>elementdiv>p选择所有父级是 <div> 元素的 <p> 元素2
element+elementdiv+p选择所有紧接着<div>元素之后的<p>元素2
[attribute][target]选择所有带有target属性元素2
[attribute=value][target=-blank]选择所有使用target="-blank"的元素2
[attribute~=value][title~=flower]选择标题属性包含单词"flower"的所有元素2
[attribute|=language][lang|=en]选择 lang 属性以 en 为开头的所有元素2
:linka:link选择所有未访问链接1
:visiteda:visited选择所有访问过的链接1
:activea:active选择活动链接1
:hovera:hover选择鼠标在链接上面时1
:focusinput:focus选择具有焦点的输入元素2
:first-letterp:first-letter选择每一个<p>元素的第一个字母1
:first-linep:first-line选择每一个<p>元素的第一行1
:first-childp:first-child指定只有当<p>元素是其父级的第一个子级的样式。2
:beforep:before在每个<p>元素之前插入内容2
:afterp:after在每个<p>元素之后插入内容2
:lang(language)p:lang(it)选择一个lang属性的起始值="it"的所有<p>元素2
element1~element2p~ul选择p元素之后的每一个ul元素3
[attribute^=value]a[src^=“https”]选择每一个src属性的值以"https"开头的元素3
[attribute$=value]a[src$=“.pdf”]选择每一个src属性的值以".pdf"结尾的元素3
[attribute*=value]a[src*=“runoob”]选择每一个src属性的值包含子字符串"runoob"的元素3
:first-of-typep:first-of-type选择每个p元素是其父级的第一个p元素3
:last-of-typep:last-of-type选择每个p元素是其父级的最后一个p元素3
:only-of-typep:only-of-type选择每个p元素是其父级的唯一p元素3
:only-childp:only-child选择每个p元素是其父级的唯一子元素3
:nth-child(n)p:nth-child(2)选择每个p元素是其父级的第二个子元素3
:nth-last-child(n)p:nth-last-child(2)选择每个p元素的是其父级的第二个子元素,从最后一个子项计数3
:nth-of-type(n)p:nth-of-type(2)选择每个p元素是其父级的第二个p元素3
:nth-last-of-type(n)p:nth-last-of-type(2)选择每个p元素的是其父级的第二个p元素,从最后一个子项计数3
:last-childp:last-child选择每个p元素是其父级的最后一个子级。3
:root:root选择文档的根元素3
:emptyp:empty选择每个没有任何子级的p元素(包括文本节点)3
:target#news:target选择当前活动的#news元素(包含该锚名称的点击的URL)3
:enabledinput:enabled选择每一个已启用的输入元素3
:disabledinput:disabled选择每一个禁用的输入元素3
:checkedinput:checked选择每个选中的输入元素3
:not(selector):not§选择每个并非p元素的元素3
::selection::selection匹配元素中被用户选中或处于高亮状态的部分3
:out-of-range:out-of-range匹配值在指定区间之外的input元素3
:in-range:in-range匹配值在指定区间之内的input元素3
:read-write:read-write用于匹配可读及可写的元素3
:read-only:read-only用于匹配设置 “readonly”(只读) 属性的元素3
:optional:optional用于匹配可选的输入元素3
:required:required用于匹配设置了 “required” 属性的元素3
:valid:valid用于匹配输入值为合法的元素3
:invalid:invalid用于匹配输入值为非法的元素3

2、XPath语法

在网络爬虫中,常用 Xpath 语法定位所要解析的内容。Xpath 语法使用路径表达 式来选取 HTML 或 XML 文档中的节点或节点集合。其中,节点可以是元素、属性、 注释和文本等内容。

表达式描述案例案例含义
nodename选取此节点的所有子节点body选取<body>元素的所有子节点
/从根节点选取/html选取根节点<html>
//从选择的当前节点选择文档中的节点,而不考虑它们的位置//div选取所有<div>节点,而不管它们在文档的位置
.选取当前节点./p选取当前的<p>节点
@选取属性//a[@href]选取所有拥有属性href的<a>节点
//div[@id=‘course’]选取所有id属性为course的<div>节点

组合使用:

案例案例含义
//div[@id=‘w3school’]/h1选取所有 id 属性为 w3school 的<div>节点下的<h1>节点
//body/a[1]选取<body>下的第一个<a>节点
//body//a[last()]选取<body>下的最后一个<a>节点
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值