
爬虫异步
DongXun_Lord
欲买桂花同载酒
展开
-
aiohttp以及asyncio提取腾讯招聘数据
今天闲来无事, 又用刚学的异步库练了练手, 这次提取的是腾讯招聘的招聘数据, 这里面的数据是ajax加载的, 所以需要抓包获取, 总体的思路是从列表页通过抓包获取一个可以进入详情页的id, 然后接受这个id在详情页中提取数据, 用的异步以及aiohtto库, 时间比同步快了不少, 但还是有些地方不完美, session请求构造一个其实就可以了,但是在我这个程序里只能构造两次。没办法了。以下是代码,...原创 2019-08-18 16:29:14 · 438 阅读 · 0 评论 -
采用aiohttp以及asyncio库提取学校官网数据
这几天学习了异步,协程asyncio的原理, 今天用这种方法爬了一下以前爬过的网站 真的头痛, 爬取的结果显示同步和异步时间差不多, 让我怀疑是不是我哪里写错了, 还有实现并发的方式也容易错。百度了一下直到了requests请求依然是同步的,所以这里使用aiohttp异步请求 """ 本次二次爬取 主要目的是熟悉post请求抓包参数携带 熟悉消除警告提示的方法 以及使用异步请求实现并发,快速抓取数...原创 2019-08-17 22:10:06 · 483 阅读 · 0 评论 -
aiohttp与asyncio库爬取汽车销量排行榜
本次爬取是采用异步方法,异步请求来爬取http://db.auto.sohu.com/cxdata/的数据, 数据要求是提取每个车辆品牌每个车型的每个月份的销量, 数据是ajax加载的, 还是需要抓包获取,难点在于数据的对应以及整体思路是怎么实现爬取的。代码放在了https://github.com/dongxun1/The-Cars-Sales-Nums,里面包含了自定义的mysql储存, 以及...原创 2019-08-19 19:26:51 · 427 阅读 · 0 评论