request下
urlopen 和 get 一样的应用
获取一个页面信息
urlretrieve(path,保存路径)
下载一个文件
urllib parse 下
urlencode
转换字节码
parse.parse_qs
将编码后的信息还原
urlparse
解析请求属性信息
urlsplit
和urlparse一样,只是没有params,基本用不到
cookielib
http.cookiejar
xpath插件 谷歌火狐
xpath语法
nodename 选取此节点的所有子节点
/html 找到html节点
只能查找直接子节点
//查找所有子孙节点
/bookstore/book[1] 选取bookstore下的第一个子
元素
/bookstore/book[last()] 倒数第二个book元素
/bookstore/book[position()❤️] 选取bookstore下
前面两个子元素
//book[@price] 选取拥有price属性的book远元素
//book[@price=10] 选取所有属性price等于10的
book元素
//book[contains(@class,“fl”)] 模糊查询class为
fl的book属性
- 匹配任意节点
@* 匹配节点中的任意属性
运算符
| 或者连接符
-
-
- div(除)
-
= 等于
!= < > <= >= or and mod(计算除法的余数)
lxml库
是一个HTML/xml的解析器,主要功能是如何解析
HTML/xml数据。
和正则一样,也是用c语言实现的
beautifulsoup
find
find_all(‘tr’,limit=2)[1]获取第二个tr
.string获取非标签性字符串
.string获取所有的非标签性字符串
.stripped_strings获取所有非空白字符串
select
通过标签名查找
通过类名查找
通过id查找
组合查找
通过属性查找
获取内容name
contens返回一个列表 直接子元素
children返回 子元素