
爬虫
文章平均质量分 91
大骨熬汤
身体和灵魂,总有一个在路上
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫—微博博主动态及相册的请求构造规律
1. 查找的博主u_id1.1 请求通过https://s.weibo.com/ajax/topsuggest.php?key=博主名称&_k=1636439925298&_t=1&outjson=1&uid=自己账号的uid查找到他的u_id,后面的操作需要用到。1.2 参数参数描述key待查找的博主的名称_k我没有找到是什么东西,但是我估计是时间戳,因为我发现这个值跟我当前的时间是就差了几毫秒,并且只要传入的是一个时间戳,返回的结果都原创 2021-11-09 15:55:22 · 10666 阅读 · 0 评论 -
怎样简单的搭建一个免费的IP代理池
之前写过一篇python实战项目二:获取IP代理的文章,不过说实话,这个程序有几点不足,以至于不能愉快玩耍之后,我就重新整理了思路,又写了一个关于获取免费IP代理的代码。在这儿我想写反思一下之前这个代码的主要不足:第一点,由于数据很杂,所以在提取信息时频繁的使用了循环,但是循环使用的太频繁会使得程序执行的速度效率降低,而字典的索引效率就高效的多,所以这一次不必使用循环的地方就不使用循环,改用字...原创 2018-09-15 10:52:38 · 6830 阅读 · 0 评论 -
selenium爬取Ajax加载的网页(以微博为例)
我们在浏览一些网页的时候,鼠标滚到底,就又会加载出一些新的内容,但是请求的网址是没有变的,这就是Ajax加载的效果。一般去爬取这种网站的时候,往往只能得到一开始加载出来的那些内容,而要利用鼠标滚到底才能继续加载出来的内容是得不到的,所以今天利用selenium来模拟用户登录微博,并模拟鼠标下拉抓取某博主的相册。准备工作:安装并配置好Python的环境,安装了selenium和浏览器驱动,因为我...原创 2018-08-24 20:18:50 · 13577 阅读 · 4 评论 -
python实战之selenium自动爬虫
今天用selenium爬取了我关注的某个博主的所有文章,并保存到本地文件。思路:自动打开浏览器并搜索网址,找到文章的标题,评论数,阅读量以及链接和下一页的节点,爬取完一页后就自动点击下一页继续爬取,直到爬完,最后关闭浏览器。过程中遇到的问题:一,关于找节点:如果节点比较简单的,可以直接copy xpath得到,然后利用find_element_by_xpath()得到相应的节点,进而得...原创 2019-05-21 09:01:39 · 4859 阅读 · 0 评论 -
python实战项目二:获取IP代理
之前做了一个爬取淘宝图片的爬虫,当然爬取少量信息肯定没问题,但是一旦爬取的信息量增加,就一定要注意反爬了。我一度以为我是一个好公民,我也不会贪心,每次就只会爬几页的东西,可是就在今天,我被淘宝和新浪封IP了,一脸无辜啊,好吧,还是得做点东西来防止被封了。目前我就学到要模拟浏览器、控制爬取数量和速度、代理IP这几招了,今天就想解决IP代理这事儿。先说说思路吧:先去有免费代理的网站,将上面的IP代...原创 2018-07-16 22:02:10 · 851 阅读 · 0 评论 -
python实战项目一:requests爬取淘宝图片
按关键词爬取淘宝的图片●实验过程遇到的问题:1. 一开始我没注意,将文件名写为requests.py,但是运行时却出现了这个错误:module 'requests' has no attribute 'get',代码检查了好几次,才想起来,python调用模块会优先从当前路径下搜索该模块,找不到再去环境变量里找,这个如果用requests命名,那问题就是,程序一运行,当前目录下...原创 2018-07-13 15:29:45 · 5114 阅读 · 6 评论