
python爬虫
文章平均质量分 53
小佐佐123
这个作者很懒,什么都没留下…
展开
-
Python爬虫入门-小试CrawlSpider
首先,先转载一张原理图: 再贴一下官方文档的例子:import scrapyfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors import LinkExtractorclass MySpider(CrawlSpider): name = 'example.co原创 2017-09-26 13:51:13 · 690 阅读 · 0 评论 -
Python爬虫-爬取爆米花视频下载至本地
打开爆米花的网站,然后打开其中一个视频:打开F12,然后刷新,可以看到:这个URL为视频的真实地址:http://59.56.28.122/vm48002.baomihua.com/d1b3a2d4195a6e40629c68a03f564af6/59DF39B1/3707/37061900_9_b5948e40ae8611e79ee1003048cc668a.mp4?star原创 2017-10-12 23:49:24 · 12566 阅读 · 8 评论 -
Python爬虫-爬取腾讯小视频
这两天在爬TX的视频的原始下载地址,遇到的问题挺多,感觉这个网站的规律变化多端的,中间也忘了修改过多少次代码了,而且有时候抓包也抓不到一些想要的内容,最后也只能抓到一些像《拜托啦学妹》、《国产整蛊大师》类似的小视频,长时间的视频最后我看了一下只能拿到前五分钟的视频,现在先记录一下,供后续再研究。我是利用Chrome直接进行抓包的,可以拿到视频的真实地址(ps.但是后续多次尝试其他小视频竟然抓不原创 2017-10-16 16:45:56 · 22178 阅读 · 3 评论 -
Python爬虫入门-利用requsets库爬取煎蛋网妹子图
其实之前是想利用煎蛋网来联系一下scrapy的ImagesPipeline爬取煎蛋网的妹子图并下载下来保存到本地,无奈这个ImagePipeline一点都不给面子一直报404错误,而且我还不知道问题出在哪里,所以一怒之下就不用框架了,直接爬一下。 先来一张:从下图可以看出总的页数:在翻页的过程中URL中只有页数是在发生改变的,这个就比较好构建URL了,而且图片的信心在原始的请求里原创 2017-09-24 17:43:18 · 4967 阅读 · 2 评论 -
Python爬虫入门-小试ImagesPipeline爬取pixabay和煎蛋之为什么是‘404’
第一部分、利用ImagesPipeline爬取pixabay里面的美女图进入pixabay网站在搜索框中输入关键字beauty,并且简化一下URL中的参数:尝试进行翻页,可见URL中只有一个参数pagi发生变化:随便进入一个页面打开F12,刷新,在原始的请求中有相关进入到详情页面的链接:进入到详情页面,同样F12,刷新,在原始请求中也能找到我们最后想要的图片下载链接(注原创 2017-09-27 12:07:18 · 1442 阅读 · 0 评论 -
Python爬虫入门-fiddler抓取手机新闻评论
之前一直都听过抓包,抓包,但是一直没有在手机上抓过包,这次一试,当做是一次小练习,在网上有挺多Fiddler安装和配置的教程的,我也找了一些,大家可以借鉴:1、Fiddler|Fiddler安装与配置 2、抓包工具Fidder详解(主要来抓取Android中app的请求) 3、使用Fiddler抓到包后分析之前在安装配置Fiddler的过程中因为使用某国产手机的原因无法使用代理被狠狠坑原创 2017-09-24 17:44:14 · 4676 阅读 · 1 评论 -
Python爬虫入门-利用scrapy爬取淘女郎照片
最近看到有个相对来说比较简单的可以爬取淘女郎的链接地址,它主要可以通过改变URL中page参数来实现翻页。 我们这个这个链接进入到一个淘女郎的页面,进入相册页面,里面有很多相册,我们打开其中一个,可以发现照片是慢慢加载出来的,打开F12,刷新,过滤出所有的JS请求,然后不断下拉照片,可以发现也不断有一些JS请求加载出来,打开response,可以看到里面返回的是json格式的数据,里面就有我们要原创 2017-09-28 16:43:07 · 3666 阅读 · 0 评论 -
Python爬虫入门-python之爬取pexels高清图片
先上张图片: 首先打开网址:https://www.pexels.com/,然后下来会发现下面的图片是慢慢的加载出来的,也就是通过Ajax请求得到的。在搜索框中输入关键字:beauty,打开F12,刷新,选中XHR,然后一直下拉下拉:会发现左侧中的URL只有一个page是在发生变化的,在通过对URL中参数的分析我尝试的将URL中的参数js和format去掉,构造出类似于:https:原创 2017-09-21 16:25:28 · 6524 阅读 · 4 评论 -
Python爬虫-基于深度优先策略的百度百科爬虫
深度优先策略:优先往纵向挖掘深入,直到到达指定的深度或者该节点不存在邻接节点,才会访问第二条路。 广度优先策略:先访问完一个深度的所有节点,再访问更深一层的所有节点。简单的看: 深度优先爬虫路径:A-B-E-F-C-D 广度优先爬虫路径:A-B-C-D-E-Fimport requestsimport reimport timeexist_urls=[]headers={ 'Us原创 2017-10-26 16:57:56 · 3652 阅读 · 1 评论 -
Python爬虫-利用百度地图API接口爬取数据并保存至MySQL数据库
首先,我这里有一份相关城市以及该城市的公园数量的txt文件: 其次,利用百度地图API提供的接口爬取城市公园的相关信息。 所利用的API接口有两个:1、http://api.map.baidu.com/place/v2/search?q=公园®ion=北京&output=json&ak=用户的访问密匙2、http://api.map.baidu.com/place/v2/detail原创 2017-10-25 16:35:36 · 23012 阅读 · 6 评论 -
使用scrapy-redis实现分布式爬虫
一、准备工作用来实现分布式爬虫的项目是:爬取知乎用户信息项目 注册了两个服务器:阿里云服务器和腾讯云服务器,使用的系统都是windows系统二、scrapy-redis组件的使用将知乎用户项目下载至本地,并使用git命令新建分支以方便对项目进行更改而不影响之前的项目:git checkout -b distributed #新建分支git branch #切换分支在项目settings.py中加原创 2017-11-08 17:13:13 · 3710 阅读 · 0 评论 -
Python爬虫入门-scrapy爬取拉勾网
之前就爬过拉勾网,但是遇到一些错误一直没有办法解决,果断放弃了,今天又重新试着写写看,对于一个菜鸟来说,真的都是处处是坑,写篇文章记录一些,供接下去学习参考。首先就是打开拉勾网,在搜索栏中输入Python,打开F12,刷新:在这个原始的请求的response中是没有我们要的数据的,一般这种情况下我就切换到XHR中取中取找:原创 2017-09-21 16:45:37 · 1586 阅读 · 0 评论 -
Python爬虫入门-python之jieba库制作词云图
在简书上看了很多人分享高大上的词云图的制作,在研究了一番之后,决定自己也动手试一试,奈何小白一个,中间碰到问题老是卡壳老半天,写一写制作过程,啥什么忘了我再来看看。在看了 向右奔跑大哥的文章后,知道了词云制作过程大致可以分为这么几个过程:1、利用Python进行数据的抓取2、进行分词(例如利用jieba)3、进行分类汇总(例如利用excel)4、使用词云工具原创 2017-09-21 16:42:47 · 7073 阅读 · 0 评论 -
Python爬虫入门-scrapy爬取唯一图库高清壁纸
首先,就是进入到唯一图库,点击上面的高清壁纸项目: 进入之后,下拉,发现是正常的下拉没有Ajax加载,拉到最后面点击末页,可以看出这个栏目里面总共有292页: 翻页看一下URL有什么变化,可以发现只有最后面代表这个页码的数字在发生变化: 打开F12,刷新,在原始请求代码里面有能进入到进入详情页的链接地址,可以抓取下来: 打开任意一张图片,进入到详情页码中,同样的F12,再刷新原创 2017-09-21 16:48:09 · 3058 阅读 · 0 评论 -
Python爬虫-尝试使用人工和OCR处理验证码模拟登入
此次是我第一次模拟登入,目标站点是知乎。 刚开始在网上看别人一直在说知乎登入首页有有倒立的汉字验证码,我打开自己的知乎登入页面,发现只有账号和密码,他们说的倒立的验证码去哪了,后面仔细一想我之前登入过知乎,应该在本地存在cookies,然后我将cookies删除掉果然就有需要验证码了:参考了大多数的意见,可以模拟登入移动端,验证码形式是我们常见的字母数字组合,避开这个点击倒立的验证码形式原创 2017-10-24 12:34:04 · 4985 阅读 · 0 评论