anaconda下自带 jupyter notebook ,安装及环境变量设置参考:
https://blog.youkuaiyun.com/Light__1024/article/details/88655333
简介:
爬虫,模拟浏览器浏览网页,抓取页面数据(抓取全部数据或指定数据)。
robots.txt协议,口头协议,约定爬虫数据的获取要遵循的协议。


NEW
点击Folder新建一个文件夹
点击Python 3 新建一个ipynb为后缀的文件
点击Text File 默认生成一个文本文件 可以修改文件名和后缀




本文介绍了基于urllib的简单Python爬虫,包括使用流程、快捷键操作,以及反爬机制。在反爬机制中提到了网站通过检查User-Agent来识别爬虫,并给出了如何伪装UA进行反反爬的思路。最后,文章提到了post请求在爬虫中的应用。
最低0.47元/天 解锁文章
10万+

被折叠的 条评论
为什么被折叠?



