
高级爬虫项目
一个回和
这个作者很懒,什么都没留下…
展开
-
爬取斗鱼直播所有房间的翻页功能的实现
前面我们已经实现了斗鱼直播单页房间数据的爬取,具体代码实现在我的博客:https://blog.youkuaiyun.com/g_optimistic/article/details/89944897现在只讲翻页操作,以下有两种方法:目录1.使用无界面浏览器 Selenium 与PantomJS的结合2.ajax异步请求,重点是找到接口1.使用无界面浏览器 Selenium ...原创 2019-05-08 10:15:32 · 895 阅读 · 0 评论 -
使用scrapy框架的爬取腾讯招聘的完整代码
创建项目:scrapy startproject scrapyProject创建项目下的小爬虫:scrapy genspider s_tencent careers.tencent.com目录1.spiders文件夹下的s_tencent.py2.item.py3.pipelines.py4.settings.py5.运行程序1.spiders文件...原创 2019-05-10 14:29:15 · 1957 阅读 · 4 评论 -
使用scrapy框架爬取腾讯招聘信息
我之前已经写过爬取腾讯招聘的博客,我是用多线程,生产者与消费者模式结合的方式写的,有兴趣的欢迎看一看以下是博客链接:https://blog.youkuaiyun.com/g_optimistic/article/details/90048696下面写的是用scrapy框架爬腾讯招聘目录1.创建爬虫文件2.找接口 url3.访问url4.解析数据并保存5.运行项目6.s_...原创 2019-05-10 11:47:40 · 947 阅读 · 0 评论 -
使用生产者与消费者模式爬取腾讯招聘网的招聘信息
腾讯招聘:https://careers.tencent.com/目录1.找接口2.生产者与消费者模式分析3.生产者4.消费者5.主函数1.找接口我们去腾讯招聘网站去找有关python的招聘信息,在搜索框输入python,接口变成:https://careers.tencent.com/search.html?keyword=python我们用这个接口直...原创 2019-05-10 11:17:18 · 1055 阅读 · 0 评论 -
简单创建一个scrapy项目,并创建爬百度的spider文件
目录1.环境搭建 scrapy2.创建scrapy项目3.在scrapy项目下面创建新的爬虫spiders4.在Pycharm中打开项目5.爬取百度简单代码6.运行项目,没有爬取到消息,修改settings7再次运行1.环境搭建 scrapypip install scrapyscrapy常用的命令(1)startproject: 创建scrapy项目...原创 2019-05-10 11:13:56 · 3554 阅读 · 0 评论 -
Selenium PhantomJS
一、Selenium1.介绍selenium: 美 [sɪˈliniəm] 硒selenium 是web的一种自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是 Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自...原创 2019-05-07 09:30:12 · 317 阅读 · 0 评论 -
使用多线程实现我爱我家租房信息的爬取
我爱我家的租房网址:https://bj.5i5j.com/zufang/当我们直接访问这个网址时,会发现出现的content里面会有重定向需要再次去请求重定向的这个地址完整代码:import mathimport requestsfrom lxml import etreeimport refrom queue import Queueimport threadingi...原创 2019-05-09 16:58:19 · 896 阅读 · 0 评论 -
scrapy框架连接MongoDB数据库
目录1.下载pymongo模块2.编码实现数据库简单操作(1)链接数据库(2)创建数据库(3)创建表(4)插入数据3.打开Robo 3T ,查看数据1.下载pymongo模块pip install pymongo2.编码实现数据库简单操作scrapy框架与数据库链接,主要是为了把爬取到的数据保存到数据库里面,所以我们把这个操作的相关代码写到scra...原创 2019-05-14 11:05:42 · 2269 阅读 · 0 评论 -
使用无界面浏览器实现豆瓣电影的异步加载
目录1.查找接口2.导入模块,创建浏览器对象3.请求接口4.模拟滚动条滚动到底部5.查看效果豆瓣电影:https://movie.douban.com/想要查找豆瓣电影排行榜的剧情里面的1.查找接口https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&inte...原创 2019-05-06 19:04:18 · 603 阅读 · 0 评论 -
使用Selenium 测试工具和PhantomJS无界面浏览器结合,简单实现对百度的访问
操作步骤:1.导入模块from selenium import webdriver2.创建浏览器对象(1)配置phantonJS的环境变量,创建浏览器对象driver=webdriver.PhantomJS()(2)没有配置phantonJS的环境变量,创建浏览器对象点击自己下好的PhantomJS软件,找到phontomjs.exe的路径driver =...原创 2019-05-06 17:16:29 · 473 阅读 · 0 评论 -
人人网登陆(selenium、PtantomJS结合)
目录1.导入模块2.生成浏览器对象3.网页请求: 人人网4.登录:输入账号密码,点击登录5.处理验证码6.整理一下逻辑1.导入模块from selenium import webdriver2.生成浏览器对象driver=webdriver.PhantomJS(executable_path=r'.../phantomjs.exe')#地址写上自己写...原创 2019-05-06 16:45:25 · 4403 阅读 · 0 评论 -
使用scrapy框架爬取淘车网的列表页和详情页的信息,实现scrapy框架的好几级的请求
淘车网:https://www.taoche.com/当我们选好城市,品牌,url变成下面这样创建scrapy项目:scrapy startproject scrapyProject创建spider小爬虫:scrapy genspider s_taoche taoche.com目录1.请求列表页(1)分析接口(2)请求url(3)分页2.item...原创 2019-05-14 00:06:40 · 2857 阅读 · 2 评论 -
使用scrapy框架爬boss直聘
BOSS直聘:https://www.zhipin.com/创建scrapy 项目:scrapy startproject scrapyProject创建spider文件:scrapy genspider s_boss zhipin.com目录1.找接口 url2.s_boss.py3.items.py4.pipelines.py1.找接口 urlp...原创 2019-05-10 20:42:01 · 1621 阅读 · 0 评论