
爬虫
南晨Inc
这个作者很懒,什么都没留下…
展开
-
利用selenium爬取淘宝商品信息
在淘宝上买东西的时候常常要比较商品的价格,付款的人数等等,若如一个个查看是十分费时的。所以这次就利用爬虫爬取淘宝商品的信息。首先介绍下selenium,selenium本是用于web自动化的工具。但是其在浏览器上直接运行,就像真正的用户在操作一样。所以也常常用于爬虫。selenium课可直接寻找到web页面中的元素,如页码输入框,确认按钮等等,并且可以对这些元素进行操作,比如点击,清除。搜...原创 2020-02-29 21:22:47 · 1226 阅读 · 0 评论 -
对华农兄弟b站视频播放量,弹幕数,评论数进行排序
首先需要使用之前抓取的数据首先读取文件,由于只需要标题,弹幕数,播放量和评论数,而且要找到标题和弹幕数、播放量、评论数排名的对应关系,所以新建字典,以标题作为key,播放量为value(以播放量为例,其他两个也是以标题作为key值)。import csvplay_dict = {}comment_dict = {}rcount_dict = {}new_play_top_l...原创 2020-02-09 21:36:03 · 916 阅读 · 0 评论 -
爬取华农兄弟哔哩哔哩所有视频信息
页面如下通过网络流分析,找到了我们需要找的文件而通过下图能够得到对应的json格式的页面然后就可以进行爬取了import requestsimport jsonimport timeimport csvdef parse_url(html): try: #加载json字符串 reply_data = json.load...原创 2020-02-08 22:47:35 · 411 阅读 · 0 评论 -
爬取华农兄弟b站评论
竹鼠的N种si法在前段时间十分的火,中暑了,打架受伤了,吃太多了都成为了华农兄弟吃竹鼠的理由,所以今年就来看看华农兄弟b站的评论是什么样的首先要知道b站的评论是有一个单独的文件的,所以我们要找到这个文件,那么在chorme浏览器中打开开发者选项的network,如果是空白的,那么刷新一下就有了,如图前面为reply的这个文件就是我们要寻找的文件,如果找不到那么可能是页面未完全刷新或是b站改...原创 2020-02-07 23:48:58 · 362 阅读 · 0 评论 -
利用pyquery以及requests库爬取携程酒店(上海)部分信息
爬取内容为:酒店名,位置,评分,推荐用户的比例,点评数以及推荐理由 图1首先要对页面元素进行分析 ...原创 2020-02-04 20:57:03 · 682 阅读 · 0 评论