
爬虫
都不是宝贝
这个作者很懒,什么都没留下…
展开
-
多线程爬取王者荣耀皮肤壁纸
今天写了个小demo,多线程爬取王者荣耀全皮肤,话不多说,直入主题。https://pvp.qq.com/web201605/herolist.shtml这个是玩王者荣耀官网上的英雄列表,这个时候一共是100个英雄整。小生这边先是用xpath获取所有<li>标签,再获取里边<a>标签的href属性,可是最后只能收集到93个英雄,不全,于是重新试了一个方法,可以获取全部100个英雄了。一 观察站点,找方法因为不直接使用xpath获取,所以小生这边观察了一下各个英雄页面的url,很原创 2020-07-09 16:41:57 · 597 阅读 · 0 评论 -
京东图书爬取案例
对于京东图书的爬取https://book.jd.com/booksort.html步骤:访问主页地址,获取大分类列表循环大分类,获取小分类列表循环小分类,分别访问url,获取图书列表获取所需信息,构建next_page,生成一个新的请求步骤很简单,中间有一些需要注意的地方:① element和获取的请求有些许不同,如果不成功,多半是这边的问题② url记得加上 https:③ 再循环小分类列表的时候,需要共享item[“big_cate”],所以在构造新请求的时候,记得使用deep原创 2020-07-05 20:06:42 · 1173 阅读 · 4 评论 -
腾讯招聘信息 爬取案例
前段时间看了了scrapy,有一个案例是爬取腾讯招聘信息的,当时看了腾讯网站,已经更新换代了,于是自己看了看,写下一个实际可行的demo首先是观察腾讯招聘首页不在页面element内,但是依旧很容易就可以发现你要的信息观察url,可以提取出 https://careers.tencent.com/tencentcareer/api/post/Query?pageIndex=1&pageSize=10pageIndex是页码,pageSize是当页容量接下来练练手scrapy框架impor原创 2020-07-02 10:13:43 · 517 阅读 · 0 评论