Python分析网页神器pyquery

本文介绍了一个模仿 jQuery 的 Python 库 pyquery。通过示例代码展示了如何使用 pyquery 分析网页内容,提取链接等信息。同时提供了 jQuery 遍历函数的详细列表,帮助读者更好地理解和运用 pyquery。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于pyquery

相信做web的没有不知道jQuery的。它是那么的方便,功能强大。 它的一大特点就是它的选择器。
pyquery是一个模仿jquery的python编写的分析网页的类库。它的接口完全模仿了jquery。

pyquery的文档

pyquery文档

测试

import urllib
from pyquery import PyQuery as pq
import codecs


# fetch page
print 'fetch page...'
url = 'http://www.7dsw.com/toplastupdate/1.html'
resp = urllib.urlopen(url)
page = resp.read()
page = page.decode('gbk')
fetch page...
doc = pq(page)
doc
[<html>]
wanted = doc('a')
wanted
[<a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.first>, <a.pgroup>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.next>, <a.ngroup>, <a.last>]
d = [i.attr('href') for i in wanted.items()]
d
['#',
 u"javascript:window.external.addFavorite('http://www.7dsw.com','7\u5ea6\u4e66\u5c4b_\u4e66\u53cb\u6700\u503c\u5f97\u6536\u85cf\u7684\u7f51\u7edc\u5c0f\u8bf4\u9605\u8bfb\u7f51')",
 'http://www.7dsw.com',
 '/newmessage.php?tosys=1',
 '/jifen.html',
 'http://www.7dsw.com/',
 '/modules/article/bookcase.php',
 'http://www.7dsw.com/sort1/1.html',
 'http://www.7dsw.com/sort2/1.html',
 'http://www.7dsw.com/sort3/1.html',
 'http://www.7dsw.com/sort4/1.html',
 'http://www.7dsw.com/sort5/1.html',
 'http://www.7dsw.com/sort6/1.html',
 '/quanben/',
 '/toplastupdate/1.html',
 'http://www.7dsw.com/book/17/17870/',
 'http://www.7dsw.com/book/17/17870/11409157.html',
 'http://www.7dsw.com/book/2/2827/',
 'http://www.7dsw.com/book/2/2827/11409156.html',
 'http://www.7dsw.com/book/18/18732/',
 'http://www.7dsw.com/book/18/18732/11409155.html',
 'http://www.7dsw.com/book/33/33268/',
 'http://www.7dsw.com/book/33/33268/11409154.html',
 'http://www.7dsw.com/book/27/27876/',
 'http://www.7dsw.com/book/27/27876/11409150.html',
 'http://www.7dsw.com/book/4/4876/',
 'http://www.7dsw.com/book/4/4876/11409145.html',
 'http://www.7dsw.com/book/33/33261/',
 'http://www.7dsw.com/book/33/33261/11409144.html',
 'http://www.7dsw.com/book/29/29849/',
 'http://www.7dsw.com/book/29/29849/11409133.html',
 'http://www.7dsw.com/book/32/32541/',
 'http://www.7dsw.com/book/32/32541/11409132.html',
 'http://www.7dsw.com/book/30/30083/',
 'http://www.7dsw.com/book/30/30083/11409130.html',
 'http://www.7dsw.com/book/15/15156/',
 'http://www.7dsw.com/book/15/15156/11409124.html',
 'http://www.7dsw.com/book/33/33518/',
 'http://www.7dsw.com/book/33/33518/11409123.html',
 'http://www.7dsw.com/book/31/31904/',
 'http://www.7dsw.com/book/31/31904/11409115.html',
 'http://www.7dsw.com/book/6/6807/',
 'http://www.7dsw.com/book/6/6807/11409112.html',
 'http://www.7dsw.com/book/30/30605/',
 'http://www.7dsw.com/book/30/30605/11409109.html',
 'http://www.7dsw.com/book/33/33169/',
 'http://www.7dsw.com/book/33/33169/11409107.html',
 'http://www.7dsw.com/book/6/6415/',
 'http://www.7dsw.com/book/6/6415/11409101.html',
 'http://www.7dsw.com/book/30/30440/',
 'http://www.7dsw.com/book/30/30440/11409099.html',
 'http://www.7dsw.com/book/28/28703/',
 'http://www.7dsw.com/book/28/28703/11409096.html',
 'http://www.7dsw.com/book/28/28849/',
 'http://www.7dsw.com/book/28/28849/11409095.html',
 'http://www.7dsw.com/book/29/29668/',
 'http://www.7dsw.com/book/29/29668/11409093.html',
 'http://www.7dsw.com/book/33/33460/',
 'http://www.7dsw.com/book/33/33460/11409091.html',
 'http://www.7dsw.com/book/33/33683/',
 'http://www.7dsw.com/book/33/33683/11409090.html',
 'http://www.7dsw.com/book/28/28865/',
 'http://www.7dsw.com/book/28/28865/11409086.html',
 'http://www.7dsw.com/book/22/22913/',
 'http://www.7dsw.com/book/22/22913/11409085.html',
 'http://www.7dsw.com/book/32/32568/',
 'http://www.7dsw.com/book/32/32568/11409084.html',
 'http://www.7dsw.com/book/26/26175/',
 'http://www.7dsw.com/book/26/26175/11409082.html',
 'http://www.7dsw.com/book/12/12455/',
 'http://www.7dsw.com/book/12/12455/11409081.html',
 'http://www.7dsw.com/book/28/28760/',
 'http://www.7dsw.com/book/28/28760/11409079.html',
 'http://www.7dsw.com/book/29/29305/',
 'http://www.7dsw.com/book/29/29305/11409078.html',
 'http://www.7dsw.com/toplastupdate/1.html',
 'http://www.7dsw.com/toplastupdate/1.html',
 'http://www.7dsw.com/toplastupdate/2.html',
 'http://www.7dsw.com/toplastupdate/3.html',
 'http://www.7dsw.com/toplastupdate/4.html',
 'http://www.7dsw.com/toplastupdate/5.html',
 'http://www.7dsw.com/toplastupdate/6.html',
 'http://www.7dsw.com/toplastupdate/7.html',
 'http://www.7dsw.com/toplastupdate/8.html',
 'http://www.7dsw.com/toplastupdate/9.html',
 'http://www.7dsw.com/toplastupdate/10.html',
 'http://www.7dsw.com/toplastupdate/2.html',
 'http://www.7dsw.com/toplastupdate/16.html',
 'http://www.7dsw.com/toplastupdate/1056.html']

jQuery的文档

可以参考query的文档来明白pyquery的使用方式

jQuery 遍历函数
jQuery 遍历函数包括了用于筛选、查找和串联元素的方法。
函数 描述
.add() 将元素添加到匹配元素的集合中。
.andSelf() 把堆栈中之前的元素集添加到当前集合中。
.children() 获得匹配元素集合中每个元素的所有子元素。
.closest() 从元素本身开始,逐级向上级元素匹配,并返回最先匹配的祖先元素。
.contents() 获得匹配元素集合中每个元素的子元素,包括文本和注释节点。
.each() 对 jQuery 对象进行迭代,为每个匹配元素执行函数。
.end() 结束当前链中最近的一次筛选操作,并将匹配元素集合返回到前一次的状态。
.eq() 将匹配元素集合缩减为位于指定索引的新元素。
.filter() 将匹配元素集合缩减为匹配选择器或匹配函数返回值的新元素。
.find() 获得当前匹配元素集合中每个元素的后代,由选择器进行筛选。
.first() 将匹配元素集合缩减为集合中的第一个元素。
.has() 将匹配元素集合缩减为包含特定元素的后代的集合。
.is() 根据选择器检查当前匹配元素集合,如果存在至少一个匹配元素,则返回 true。
.last() 将匹配元素集合缩减为集合中的最后一个元素。
.map() 把当前匹配集合中的每个元素传递给函数,产生包含返回值的新 jQuery 对象。
.next() 获得匹配元素集合中每个元素紧邻的同辈元素。
.nextAll() 获得匹配元素集合中每个元素之后的所有同辈元素,由选择器进行筛选(可选)。
.nextUntil() 获得每个元素之后所有的同辈元素,直到遇到匹配选择器的元素为止。
.not() 从匹配元素集合中删除元素。
.offsetParent() 获得用于定位的第一个父元素。
.parent() 获得当前匹配元素集合中每个元素的父元素,由选择器筛选(可选)。
.parents() 获得当前匹配元素集合中每个元素的祖先元素,由选择器筛选(可选)。
.parentsUntil() 获得当前匹配元素集合中每个元素的祖先元素,直到遇到匹配选择器的元素为止。
.prev() 获得匹配元素集合中每个元素紧邻的前一个同辈元素,由选择器筛选(可选)。
.prevAll() 获得匹配元素集合中每个元素之前的所有同辈元素,由选择器进行筛选(可选)。
.prevUntil() 获得每个元素之前所有的同辈元素,直到遇到匹配选择器的元素为止。
.siblings() 获得匹配元素集合中所有元素的同辈元素,由选择器筛选(可选)。
.slice() 将匹配元素集合缩减为指定范围的子集。

### 使用 PyQuery 提取网页内容 PyQuery 是一个类似于 jQueryPython 库,它能够方便地通过 CSS 选择器提取网页中的内容。以下是使用 PyQuery 提取网页内容的详细方法。 #### 安装依赖 在使用 PyQuery 之前,需要确保安装了相关依赖库: ```bash pip install pyquery requests ``` #### 示例代码:提取网页内容 以下是一个完整的示例代码,展示如何使用 PyQuery 和 `requests` 提取网页内容[^2]: ```python from pyquery import PyQuery as pq import requests # 设置请求头以模拟浏览器访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } # 请求目标网页 url = "https://example.com" response = requests.get(url, headers=headers) # 检查请求是否成功 if response.status_code == 200: # 将响应内容传递给 PyQuery doc = pq(response.text) # 提取标题(假设标题位于 <h1> 标签中) title = doc('h1').text() print(f"标题: {title}") # 提取所有链接 links = doc('a') for link in links.items(): href = link.attr('href') # 获取链接地址 text = link.text() # 获取链接文本 print(f"链接: {text} -> {href}") else: print(f"请求失败,状态码: {response.status_code}") ``` #### 解析与提取逻辑 1. **获取网页内容**:使用 `requests` 发起 HTTP 请求并获取网页的 HTML 内容。 2. **创建 PyQuery 对象**:将网页内容传递给 PyQuery,生成可操作的对象 `doc`。 3. **使用 CSS 选择器提取数据**: - 提取特定标签的内容,例如 `doc('h1').text()` 表示提取 `<h1>` 标签的文本内容[^2]。 - 提取属性值,例如 `doc('#aaa a').attr('href')` 表示提取 `<a>` 标签的 `href` 属性值[^1]。 4. **遍历多个元素**:如果需要处理多个匹配的元素,可以使用 `.items()` 方法进行迭代[^1]。 #### 性能比较 根据性能测试结果,PyQuery 在处理简单任务速度较快,但在复杂任务中可能不如正则表达式高效[^2]。因此,在选择工具需根据具体需求权衡性能和易用性。 #### 注意事项 - 确保目标网站允许爬取其内容,遵守相关法律法规和网站的 `robots.txt` 文件规定。 - 如果目标网页内容由 JavaScript 动态加载,可能需要使用 Selenium 或 Playwright 等工具模拟浏览器行为[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值