Python爬虫——4-2.数据筛选之XPath

最新推荐文章于 2025-02-14 17:17:16 发布

一杯海风

最新推荐文章于 2025-02-14 17:17:16 发布

阅读量3.6k

点赞数 1

分类专栏：基础篇

本文链接：https://blog.youkuaiyun.com/liyahui_3163/article/details/79048459

版权

基础篇专栏收录该内容

47 篇文章

订阅专栏

本文介绍XPath在爬虫中的应用，包括环境搭建、基本概念、语法及实战案例。通过XPath可高效筛选结构化数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫数据筛选——XPath

在使用爬虫爬取的数据可以分为两种，非结构化数据：数据的内容没有固定的格式和规范，如用户名、邮箱、账号、电话号码、地址、电影名称、评分、评论、商品名称等等，对此类数据的筛选我们一般使用正则表达式，效率较高且非常精准，而对于一些有特定规范的数据如HTML网页文档、XML网页文档、JSON等等，由于数据本身存在一定的规律性，可以通过针对这些规律的分析工具进行数据的提取：**正则表达式、Xpath、BeautifulSoup4、select、css等等，本篇我们主要学习XPath，做个笔记，方便以后学习吧~

Xpath原本是在可扩展标记语言XML中进行数据查询的一种描述语言，可以很方便的在XML文档中查询到具体的数据；后续再发展过程中，对于标记语言都有非常友好的支持，如超文本标记语言HTML。

一、认识Xpath

1.Xpath应用环境的搭建——lxml的安装

正如在python中有一个内置的re模块用来支持正则表达式语法一样，python中有一个第三方的lxml模块，可以方便的支持Xpath的各种操作，可以友好的解析Xpath语法，使其用于在程序中进行结构化数据筛选。

安装命令如下:

pip install lxml

python2 -m pip install lxml

pip2 install lxml

2.在操作Xpath之前，首先需要了解一些基础的技术术语

二、python操作Xpath

python第三方模块lxml可以对Xpath有友好的支持，lxml是C实现的一种高性能python用于HTML/XML的解析模块，可以通过Xpath语法在html文档数据中进行指定表达式数据的索引查询

* 简单etree操作
```
# -*- coding:utf-8 -*-
from lxml import etree
# 模拟得到爬虫数据
content = """
<html>
<head>
<title>大牧</title>
</head>
<body>
<h1>个人简介</h1>
<div>
<p>姓名：某某某</p>
<p>住址：中国乡下</p>
<p>座右铭：岂能尽如人意，但求无愧于心</p>
</div>
</body>
</html>
"""
# 转换成html数据
# html = etree.parse("index.html")# 从文件中直接加载html数据
html = etree.HTML(content)# 通过etree.HTML()函数将字符串转换成HTML文档对象
print dir(html)# 查看文档对象的所有函数
print html.getchildren()# 查看文档对象根节点的所有子节点

# 转换成字符数据
str_html = etree.tostring(html)# 将HTML文档对象转换成字符串
print type(str_html)# 查看输出类型
print str_html# 查看输出数据

* xpath操作
```
# -*- coding:utf-8 -*-
from lxml import etree
# 模拟得到爬虫数据
content = u"""
<html>
<head>
<title>大牧</title>
</head>
<body>
<h1 name="title">个人简介</h1>
<div name="desc">
<p name="name">姓名：<span>某某某</span></p>
<p name="addr">住址：中国乡下</p>
<p name="info">座右铭：岂能尽如人意，但求无愧于心</p>
</div>
</body>
</html>
"""
# 将爬取到的数据转换成HTML文档
html = etree.HTML(content)
# 查询所有的p标签
p_x = html.xpath("//p")
print(p_x)

# 查询所有Name属性的值
v_attr_name= html.xpath("//@name")
print(v_attr_name)

# 查询所有包含name属性的标签
e_attr_name = html.xpath("//*[@name]")
print(e_attr_name)

# 查询所有包含name属性，并且name属性值为desc的标签
e_v_attr_name = html.xpath("//*[@name='desc']")
print(e_v_attr_name)

# 查询所有p标签的文本内容,不包含子标签
p_t = html.xpath("//p")
for p in p_t:
print (p.text)

# 查询多个p标签下的所有文本内容，包含子标签中的文本内容
p_m_t = html.xpath("//p")
for p2 in p_m_t:
print(p2.xpath("string(.)"))
```
案例操作：爬虫智联招聘中前10页的某个工作岗位名称、薪水、公司信息

# coding:utf-8
'''
使用xpath爬取智联招聘职位信息
'''
import requests
from lxml import etree

# 访问路由
url='http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC%2B%E4%B8%8A%E6%B5%B7%2B%E5%B9%BF%E5%B7%9E%2B%E6%B7%B1%E5%9C%B3&kw=python%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88&p=1&isadv=0'
# 设置访问头
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
# 发送请求
response=requests.get(url,headers=headers)

# 根据网页数据，转换为html
html=etree.HTML(response.text)

# 使用xpath语法进行匹配
# 获取职位名称
job_names=html.xpath("//table[@class='newlist']/tr[1]/td[@class='zwmc']/div")
#job_names=html.xpath("//div[@id='newlist_list_content_table']/table[@class='newlist']/tr[1]/td[@class='zwmc']/div/a")
# 定义职位名称列表
name_list=[]
for job_name in job_names:
    job_name2=job_name.xpath('string(.)').strip()
    name_list.append(job_name2)


# 获取职位月薪
month_nums=html.xpath("//table[@class='newlist']/tr[1]/td[@class='zwyx']")
#定义保存月薪的列表
num_list=[]
for num in month_nums:
    num2=num.xpath('string(.)').strip()
    num_list.append(num2)

# 获取公司名称
company_names=html.xpath("//table[@class='newlist']/tr[1]/td[@class='gsmc']")
#定义保存月薪的列表
company_list=[]
for company_name in company_names:
    company_name2=company_name.xpath('string(.)').strip()
    company_list.append(company_name2)

max_list=[]
max_list.append(name_list)
max_list.append(num_list)
max_list.append(company_list)

f = open('zl.txt', 'w')
i=0
for i in range(0,len(company_list)):
    info= max_list[0][i]+'|'+max_list[1][i]+'|'+max_list[2][i]+"\r\n"
    print info
    f.write(info.encode('utf-8'))
f.close()


# 打开zl.txt文件，保存内容格式如下
'''
python开发工程师|10001-15000|乐飞天下信息技术(北京)有限公司

Python开发工程师|15001-20000|乐飞天下信息技术(北京)有限公司

python开发工程师|6001-8000|北京红枣科技有限公司
......
'''