爬虫相关
爬虫有关学习笔记
Atanft
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
requests.text与requests.content的区别
requests.txt返回的是unicode型数据requsets.content返回的是bytes(二进制)型数据原创 2022-04-04 11:01:08 · 665 阅读 · 0 评论 -
request巩固深入案例
requests巩固深入案例介绍实战巩固:——需求:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)——需求:破解百度翻译——需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详细数据——需求:爬取肯德基餐厅查询 https://www.kfc.com.cn/kfccda/index.aspx中指定地方的餐厅数——需求:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据...原创 2022-03-22 23:41:50 · 199 阅读 · 0 评论 -
request模块
涉及到网络请求的两个模块:——urllib模块(古老不说)——request模块request模块:python中原生的一款基于网络请求的模块〔特点:功能强大,简单便捷,效率极高〕 ——作用:模拟浏览器发请求request模块的编码流程:(模拟浏览器)——指定url(与浏览器操作对应步骤,下同:向浏览器输入网址)——发起请求(按回车键发起请求)——获取响应的页面数据(出现页面)——持久化存储环境安装:—— pip install requests实战编码:原创 2022-03-22 00:30:16 · 455 阅读 · 0 评论 -
http&https超文本传输协议
http协议—概念:是用于从万维网(www)服务器传输超文本到本地浏览器的传送协议〔理解:就是服务器和客户端进行数据交互(相互传输数据)的一种形式。类似于“黑话”,当服务器和客户端遵循http协议即可进行数据交互〕常用请求头信息(Request Headers)—User-Agent:请求载体的身份标识〔理解:在网站搜索框中录入网址按下回车即为发起一个请求,请求载体即为当前浏览器,身份标识一般是一串包含当前电脑操作系统版本、当前浏览器的版本等的字符串。拓:使用编写代码的形式进行请求,当编写的爬虫原创 2022-03-20 01:51:47 · 2524 阅读 · 0 评论 -
浏览器F12(开发者调试工具)功能介绍(转载图片,学习自用)
原址https://www.cnblogs.com/uniquesnail/p/10761887.html学习自用,侵删转载 2022-03-19 14:31:17 · 977 阅读 · 0 评论 -
F12调试界面改语言
右上角点击设置选择语言原创 2022-03-19 14:18:14 · 955 阅读 · 0 评论 -
robots.txt协议
robots.txt协议:君子协议,主要用于规定网站可爬取和不可爬取的数据查看某网站的robots.txt协议,即在该网站后加/robots.txt例如,淘宝:https://www.taobao.com/robots.txt原创 2022-03-19 00:44:08 · 741 阅读 · 0 评论
分享