- 博客(5)
- 收藏
- 关注
原创 Appium+Charles抓取今日头条APP数据
appium+charles抓取今日头条app标题,博主,博主介绍,分享链接,多线程快速抓取图片。
2023-12-23 23:07:48
1239
1
原创 爬取人民网新闻数据
由于使用的是免费代理,该代理性能不稳定,所以有很多代理是失效的,可以使用付费代理,但是本人经费紧张,用不起付费代理,只能提供方案,不能保证代码能运行成功。如果有付费代理的,只需修改获取模块中的爬取代理逻辑,即在crawlers文件夹中加一个爬取付费代理的代码文件,在processors->getter.py文件中修改导入模块,指定crawlers中添加的爬取付费代理代码文件即可。负责存储爬取的免费代理IP,并初始化代理分数为10,分数表示代理的可用状态,分值范围为0~100。
2023-12-18 14:52:00
1365
原创 Scrapy框架爬取网易新闻数据
process_request函数负责加载request的页面源代码,以‘国内’模块为例,网易新闻是通过JavaScript渲染的动态页面,所以需要使用selenium工具滑动竖向滑块,点击‘加载更多’,在页面源代码处显示加载好的数据,最后返回响应体。如果直接迭代返回节点元素的URL,那么在迭代过程中会因为超过过期时间,出现节点元素不存在的异常。抓取的数据中,新闻模块包含了国内、国际、军事、航空、传媒科技研究院、政务、公益、媒体,还需要按照模块分别写入多个sheet。设置项目管道优先级,启用该项目。
2023-12-15 20:25:27
675
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人