
Python3爬虫笔记
文章平均质量分 95
甲寅Emore
只因我们一无所有,所以我们有无限可能!
展开
-
Python3爬虫——用Xpath提取网页信息
本文概述了Python3利用Xpath获得网页信息并返回的方法,内容有 Xpath的梗概和安装 Xpath常用规则 使用Xpath 接入HTML文本 从内存中读取 从文件中读取 查找节点 所有节点 指定节点 属性多值匹配 多属性匹配 选择顺序 查找子孙节点 查找父节点 获得属性和文本 节点轴选择原创 2023-02-04 18:59:23 · 3672 阅读 · 0 评论 -
Python3爬虫学习——requests库笔记
简略记录python3库的一些知识: requests安装 requests对象 补充说明 字节类型(byte类型) 文件上传 cookies设置 超时设置 SSL证书验证 Session对象 Response对象属性 响应状态码 状态码查询对象 PreparedRequest对象原创 2023-01-25 16:21:28 · 731 阅读 · 0 评论 -
Python3爬虫学习——urlib库笔记
urllib库是python内置库,利用它就可以实现HTTP请求发送,而不需要关心HTTP链接是如何实现的,我们只需要给定指定的URL、请求头和请求体等信息即可。urllib库包含四个模块: - request:基本的HTTP请求模块,可以模拟浏览器发送请求。 - error:异常处理模块,可以被我们用于捕获异常。 - parse:工具模块,提供了众多URL处理方法。 - robotparser:用于识别网站的robots.txt文件,并判断哪些网站可以爬,哪些网站不能爬。原创 2023-01-23 21:22:11 · 479 阅读 · 0 评论