- 博客(3)
- 收藏
- 关注
原创 5大联赛1400+球员详细信息
挖了个坑,总是要填上比较好。刚开始做时的思路是:(1)获取排名页球员列表,遍历列表selenium模拟点击进入球员链接(2)获取球员详细信息(3)浏览器后退返回排名页,翻页回到上一次抓取的页数(4)继续进入下一个球员链接或者翻页继续执行相同操作这种方法缺点是进到球员页面获取完信息后浏览器后退会返回第一页,所以需要记录下当前爬取到第几页,然后翻到那一页继续进行爬取,效率相当慢并且还要确保浏览器不出问...
2018-05-01 18:15:53
415
原创 京东大规模爬虫
参考:https://zhuanlan.zhihu.com/p/263795151、获取商品分类用scrapy进行爬取,mongodb进行存储,开始爬取的网址为https://www.jd.com/allSort.aspx首先要获取的是21个大类的信息(如图片所示,图书,音像,电子书刊),然后在每个大类下面还有细分的类别(例如电子书,网络原创,数字杂志等),这些细分类别的url会含有不同的关键字,...
2018-05-01 17:57:26
1639
原创 权力的游戏中文字幕词云图
1.提取文件字幕内容在字幕网站下载完整字幕,这里发现一个1-7季的合集,网址在此:http://subhd.com/ar0/347588下载后先来看看原始文件,一共67个文件,字幕均是在含有subtitle的行,那要做的就是遍历文件列表,打开文件后用正则表达式提取这里遇到两个问题:(1)文件的编码问题,字幕文件没有编码规范,用chardet.detect可以获取文件编码,然后正确打开;(2)提取字...
2018-05-01 16:29:04
1118
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人