
爬虫项目
一个回和
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
通过session实现通用爬虫--爬取到开心网账户的首页界面
目录1.点开开心网的登录界面2.获取login_url 以及 账号和密码第一种方法 :F12 找到form表单第二种方法:Network3.开始写代码开心网的网址是http://www.kaixin001.com/我们接下来的操作是为了直接用session登录开心网,爬取账户主页的代码1.点开开心网的登录界面我们发现这是用form表单实现账号登录的2.获...原创 2019-04-26 12:52:02 · 1531 阅读 · 0 评论 -
反爬虫的简单实现-有道翻译
有道翻译的网址:http://fanyi.youdao.com/因为有道翻译在不断的做反爬,我今天可以这样做,或许明天就不可以了,所以大家了解思路就可以了,对以后出来的东西有一个解决的思路就可以了!很多时候我们在做爬虫的时候,要自己去摸索规则。1.打开有道翻译的网址输入j,此时的http请求的方法是postF12 打开 Network要提交的数据是 Form Data里面的内...原创 2019-04-26 19:02:45 · 896 阅读 · 1 评论 -
爬取豆瓣上的电影--获取ajax的加载内容
目录一.那么问题来了,有622条数据,有没有必要一次加载到页面中?二.解决方案:使用ajax做局部刷新1.爬取整个界面2.通过ajax做局部刷新(1)导入模块(2)分析接口,总结规律(3)代码3.优化代码豆瓣网址:https://www.douban.com/我们想要爬取豆瓣网上分类是剧情的电影进入官网---->电影----->排行榜----...原创 2019-04-26 19:22:54 · 1050 阅读 · 0 评论 -
网易云音乐的所有歌手列表
目录1.首页访问2.解析各类歌手url3.访问刚刚获取到的五大分类里面的链接,进入到每类歌手的界面4.请求每个字母的链接,获取到对应的歌手列表,获取歌手信息网易云音乐的网址:https://music.163.com/1.首页访问我们的需求是要爬取网易云音乐的所有歌手,点击歌手,得到接口:https://music.163.com/discover/artist...原创 2019-05-05 11:55:22 · 5134 阅读 · 0 评论 -
网易云音乐项目代码的优化-----封装成类
我们把之前写的代码都封装成类import requestsfrom lxml import etreeclass Wangyiyun(object): def __init__(self, base_url): self.content = self.request_url(base_url) self.parse_url() def...原创 2019-05-05 13:45:33 · 424 阅读 · 0 评论 -
爬取斗鱼直播所有房间的翻页功能的实现
前面我们已经实现了斗鱼直播单页房间数据的爬取,具体代码实现在我的博客:https://blog.youkuaiyun.com/g_optimistic/article/details/89944897现在只讲翻页操作,以下有两种方法:目录1.使用无界面浏览器 Selenium 与PantomJS的结合2.ajax异步请求,重点是找到接口1.使用无界面浏览器 Selenium ...原创 2019-05-08 10:15:32 · 914 阅读 · 0 评论 -
在信用中国网站爬取你想要查找的任何公司的所有相关信息
众所周知,小黄车的兴起速度非常快,但是它后来因为拖欠货款接近破产2018年9月,因拖欠货款,ofo小黄车被凤凰自行车起诉 [8] ;同月,有网友反映称,在使用ofo小黄车APP时,充值押金或者退押金的时候被诱导消费。ofo相关负责人员介绍,不存在误导 [9] 。10月27日,又有媒体披露称ofo小黄车退押金周期再度延长,由原来1-10个工作日延长至1-15个工作日。 [10] 2018年...原创 2019-05-06 19:05:04 · 4434 阅读 · 1 评论 -
斗鱼直播的所有房间
目录1.导入模块2.网络请求3.提取数据(1)房间名称(2)房间标签(3)主播(4)关注数斗鱼直播:https://www.douyu.com/directory/all进入这个网址之后我们想要爬取在线直播的所有直播房间1.导入模块import requestsfrom lxml import etree2.网络请求url = 'ht...原创 2019-05-08 09:31:31 · 1327 阅读 · 0 评论