
爬虫
浩瀚云海
初出茅庐,请多指教
展开
-
python3网页爬虫
使用多线程生产者与消费者模式实现网页爬虫,本次实例是爬虫oppo官网首页,下载首页的全部图片1.准备工作导入相应的模块:oppo官网网址:https://www.opposhop.cn/2.创建生产者生产者主要是爬虫oppo官网的find所有的img标签获取img的下载地址,将搜索的地址保存到全局变量IMAGE_URL_LIST列表中3.创建消费者创建消费...原创 2018-10-18 09:18:10 · 373 阅读 · 0 评论 -
python+scrapy+mongoDB爬取豆瓣top250
1.爬取网址:https://movie.douban.com/top250?start=0通过scrapy startproject douban创建项目通过scrapy genspider doubanmovie "douban"创建spider在settings.py文件中设置管道文件和mongodb的基本信息: 打开延迟items.pydouba...原创 2018-11-02 14:57:09 · 316 阅读 · 0 评论 -
python+scrapy爬取斗鱼图片
创建scrapy的项目请参考:https://blog.youkuaiyun.com/qq_35723619/article/details/83614670items的实现:DouyumeinvSpider创建:这次我们爬去的是json数据包:我们可以通过network监控: # -*- coding: utf-8 -*-import scrapyimport json...原创 2018-11-01 10:42:27 · 518 阅读 · 0 评论 -
缺失pillow图片保存库
利用scrapy抓取网页信息,保存文章图片时,报错ImportError:No module named 'PIL'非常简单,保存图片就需要一个图片保存的库,即缺失一个pillow的数据包,在黑窗口下pip install -i https://pypi.douban.com/simple pillow ...转载 2018-11-28 08:51:05 · 255 阅读 · 1 评论 -
python+scrapy入门教程之爬取腾讯招聘职位信息
我是用的IDE是pycharm,要想使用scrapy我们先安装模块file-settings-project Interpreter安装完成之后我们打开Terminal在终端输入:scrapy startproject tencent创建spiders我们需要进入spiders中,输入scrapy genscrapy tencentPosition 'tencent.com'...原创 2018-11-01 09:03:52 · 491 阅读 · 0 评论 -
python+selenium小练习
刚刚学习爬虫,一个模拟登录的小例子:# 导入webdriver API对象,可以调用浏览器和操作页面from selenium import webdriver# 导入Key,可以使用操作键盘,标签,鼠标等from selenium.webdriver.common.keys import Keysdriver = webdriver.PhantomJS()driver.get(...原创 2018-10-27 12:37:03 · 398 阅读 · 0 评论 -
python+selenium+unittest爬取斗鱼网
首先引入搜需要的模块建立测试类继承unittest.TestCase,setUp为初始化方法,tearDown方法是测试方法执行完成之后才执行。建立测试函数想要被测试执行必须在想要测试函数有test开头,启动调用函数:测试结果:...原创 2018-10-27 12:32:30 · 181 阅读 · 0 评论 -
多线程爬取糗事网python3
1.导入模块:使用到了多线程这里使用queue进行数据交互2.创建爬取页面的类3.创建处理数据的类4.创建调用函数 CRAM_EXIT = FalsePARSE_EXIT = Falsedef main(): pageQueue = Queue(20) for i in range(1, 21): pageQue...原创 2018-10-24 18:11:06 · 346 阅读 · 0 评论 -
python利用正则爬取内涵段子内容
首页导入模块:创建一个Spider类:初始化方法:爬取页面的函数:处理页面的函数:写入文件的函数:测试和调度器:结果:参考:https://blog.youkuaiyun.com/qq_35723619/article/details/83275683...原创 2018-10-23 18:08:44 · 266 阅读 · 0 评论 -
python爬取百度贴吧图片
这次爬虫使用python3爬取我没需要引入lxml库:创建爬取页面的函数爬取贴吧列表,通过lxml获取到每个帖子的链接地址fulllink通过上面函数获取的帖子详细地址,访问每个帖子的详情页面,获取img的src拿到img的下载地址进行下载:创建测试调度器:测试结果:下完成!刚刚学习请多指教:上一篇介绍的是从百度贴吧读取信息:https:...原创 2018-10-23 17:55:10 · 359 阅读 · 0 评论 -
python+selenium简单介绍
我们使用selenium和PhantomJS需要安装模块:在pycharm里面file-》setting里面可以直接安装selenium模块PhantomJS模块需要下载安装配置环境变量:下载地址:http://phantomjs.org/download.html小例子:from selenium import webdriverfrom selenium.web...原创 2018-10-25 18:39:35 · 305 阅读 · 0 评论 -
python+urllib+爬虫的有道翻译
简单的post请求爬虫我们需要模拟好请求头:做好post请求的form数据:输入关键字:最后测试:代码:# coding=utf-8import urllibimport urllib2## http://fanyi.youdao.com/url = 'http://fanyi.youdao.com/translate?smartresu...原创 2018-10-22 17:27:58 · 247 阅读 · 0 评论 -
python爬虫爬取百度贴吧
python版本2.7由于python3和python2中的urllib的变化较大选择了使用较多的python2先引入模块2.创建爬取页面的函数headers:是为了模仿浏览器的访问3.保存爬取内容4.创建贴吧启动函数5.创建调用函数6.运行结果了解可视化显示数据请参考:https://blog.youkuaiyun.com/qq_35723619/...原创 2018-10-22 17:17:40 · 477 阅读 · 0 评论 -
python+pyechars爬虫中国天气网
1.准备开发工作天气网网址:http://www.weather.com.cn/textFC/hb.shtml2.爬取页面信息建立全局变量ALL_DATE = [] # 爬取页面3.分析数据与可视化显示pyechars参考网址:http://pyecharts.herokuapp.com/运行结果:感谢阅读!...原创 2018-10-19 10:16:23 · 556 阅读 · 0 评论 -
python3爬取之二
爬取拉钩网的职位列表请参考:https://blog.youkuaiyun.com/qq_35723619/article/details/83147695看这篇博客前参考上一个博客在上篇已经拿到具体的职位列表的信息,这时我们将爬取每个职位的详情先做翻页爬虫:需要该造原有的代码,将form_data的变为pn可变我们将使用for循环来做,将结果写入文件中:line = jso...原创 2018-10-19 10:05:27 · 246 阅读 · 0 评论 -
python爬虫之拉勾网
拉钩网有很强的防爬虫机制我们需要做些处理https://www.lagou.com我选择怕取得是:https://www.lagou.com/jobs/list_python结果出错不是我想要的结果:网页结构爬虫结果:不是想要的这说明有反爬虫机制需要把请求头加上,模拟浏览器访问:我们将hears加入请求运行结果:我想要爬取职位列表,这时发现职...原创 2018-10-18 16:15:09 · 310 阅读 · 0 评论 -
爬取新浪新闻
通过scrapy startproject xinlang爬虫项目:通过scrapy genspider sina "sina.com.cn" 创建spider创建Itemsspider: pipelines:setting文件设置: 运行结果:文件源码:https://download.youkuaiyun.com/downlo...原创 2018-11-05 10:44:26 · 306 阅读 · 0 评论