pyquery
-
pyquery库是 jQuery 的 Python 实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好
-
安装
pip3 install pyquery
-
1、导包
from pyquery import PyQuery
-
初始化pyquery对象
pq = PyQuery(response)
-
属性和方法
.find():查找嵌套元素 .filter(selector):根据 class、id 筛选指定元素 .eq(index):根据索引号获取指定元素(index 从 0 开始) pq_html(selector):通过css选择器来获取目标内容 .text() 获取标签的文本 .attr('属性值'):获取标签属性
-
使用实例
def parse_page_data(self,response):
#使用pyquery解析数据
pq = PyQuery(response)
#find():根据css语法获取标签
#filter():根据id或者class过滤标签
ranks = pq.find('div.scores_List dl')
ranks = pq.find('div').filter('.scores_List').find('dl')
print(type(ranks.items()))
for dl in ranks.items():
print('==========')
# print(dl)
#.eq(index):根据索引号获取指定标签(index 从 0 开始)
#.attr('src'):获取标签的属性值
#.text():获取标签的文本
school_info = {}
school_info['url'] = dl('dt a').eq(0).attr('href')
school_info['icon'] = dl('dt a img').eq(0).attr('src')
school_info['adress'] = dl('dd > ul li').eq(0).text()
print(school_info)