Python request 模块

本文深入探讨了网络爬虫的核心技术,包括使用urllib库进行网页请求与解析,掌握urlencode与parse_qs进行数据编码与解码,利用xpath精确选取网页元素,以及使用lxml与beautifulsoup库高效解析HTML/xml数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

request下
urlopen 和 get 一样的应用
获取一个页面信息

urlretrieve(path,保存路径)
下载一个文件

urllib parse 下
urlencode
转换字节码

parse.parse_qs
将编码后的信息还原

urlparse
解析请求属性信息

urlsplit
和urlparse一样,只是没有params,基本用不到

cookielib
http.cookiejar

xpath插件 谷歌火狐
xpath语法
nodename 选取此节点的所有子节点

/html 找到html节点
只能查找直接子节点

//查找所有子孙节点

/bookstore/book[1] 选取bookstore下的第一个子

元素

/bookstore/book[last()] 倒数第二个book元素

/bookstore/book[position()❤️] 选取bookstore下

前面两个子元素

//book[@price] 选取拥有price属性的book远元素

//book[@price=10] 选取所有属性price等于10的

book元素

//book[contains(@class,“fl”)] 模糊查询class为

fl的book属性

  • 匹配任意节点

@* 匹配节点中的任意属性

运算符

| 或者连接符

      • div(除)

= 等于

!= < > <= >= or and mod(计算除法的余数)

lxml库
是一个HTML/xml的解析器,主要功能是如何解析

HTML/xml数据。
和正则一样,也是用c语言实现的

beautifulsoup

find
find_all(‘tr’,limit=2)[1]获取第二个tr

.string获取非标签性字符串
.string获取所有的非标签性字符串
.stripped_strings获取所有非空白字符串

select
通过标签名查找
通过类名查找
通过id查找
组合查找
通过属性查找
获取内容name

contens返回一个列表 直接子元素
children返回 子元素

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值