
爬虫
路过的风666
https://github.com/ThePassedWind
展开
-
lxml解析器的使用
lxmllxml是一个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据。lxml和正则一样,用C实现的,是一种高性能的python HTML/XML解析器,我们可以利用之前学习的XPath语法,快速定位特定元素以及节点信息。基本使用1、导入相应的库:from lxml import etree2、解析html字符串,可以直接使用 lxml.etree.HTML 进行解析:# 解析已有html字符串def parse_text(): # 默认为HTML解析器原创 2020-05-31 23:49:08 · 2270 阅读 · 0 评论 -
requests库的基本函数使用
requests库发送GET请求1、最简单的发送 get 请求:import requestsresponse = requests.get("https://www.baidu.com/")# 查看响应内容,按猜测的方式解码后的数据print(type(response.text)) # <class 'str'>print(response.text) # 出现乱码# 查看响应内容,对utf-8编码的字符串,即显示中文print(type(response.cont原创 2020-05-24 21:38:09 · 1405 阅读 · 0 评论 -
HTTP的基本认识
HTTP什么是HTTP?超文本传输协议,专门用于Web通信安全、加密http: 普通http协议,不安全,已在逐步替代https: 安全(security)http协议,RSA非对称加密,理论上无可接受的破解方案版本http1.0:早期的版本,已废弃http1.1:现行http版本,具有持久连接特性http2.0:最新的http版本,尚未普及,具有多路复用、优先级、推送等高级特性理解HTTP通信过程注:消息(HTTP Message),其他叫法——报文、实体、数据、帧原创 2020-05-24 21:12:01 · 299 阅读 · 0 评论 -
urllib库的基本函数使用及cookie的基本概念
urllib库最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。在python3的urllib库中,所有和网络请求相关的方法,都被集成到urllib.request模块下面了。urlopen函数:from urllib import requestresp = request.urlopen('http://www.baidu.com')print(resp.read(10))print(resp.readline())print(resp原创 2020-05-24 20:53:15 · 830 阅读 · 0 评论