Python爬虫-PyQuery

本文介绍了Python爬虫中PyQuery库的使用,包括初始化、选择标签、遍历、对标签的操作等,并提供了实例代码。强调了理解正则表达式的重要性,以及在不同场景下选择合适的解析方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python爬虫-PyQuery

一些看法

关于数据提取的四个主流方法就回顾完了,当然不用也不必全会。我个人认为正则是一定要OK的,其余三个拣一个上手即可。剩下部分,总得达到“开书了然”的境界吧。毕竟说不定什么时候就需要阅览别人的代码,你怎么管得找人家用xpath呢还是用PyQuery呢?
这是最后一次在句子迷实战,此次目标书籍:《年华是无效信》——是我钟爱!

使用

from pyquery import PyQuery as pq
doc = pq(html)

语法

初始化

  1. 除了直接初始化拿到的网页,还可以有以下两种方法
    a. pq(url="")直接获取网页(不建议,没有隐藏爬虫信息吧)
    b. pq(filename="")针对本地文件
<html><head><title>The Dormouse's story</title>title></head>head>                                                         
   <body>
         <p class="title"><b>The Dormouse's story</b>b></p>p>

         <p class="story">Once upon a time there were three little sisters; and their names were
         <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值