
爬虫
r_rmax
这个作者很懒,什么都没留下…
展开
-
爬虫面试常见问题
许多自学爬虫(python)的小伙伴因为没有经历过面试所以在找工作之前难免有些抓不住重点,虽然自己有些技术但是因为发挥不好而错失工作机会,本人经过n次面试以后特总结以下面试常见问题,为想要转爬虫的小伙伴提供一些参考。一.项目问题: 一般面试官的第一个问题八成都是问一下以前做过的项目,所以最好准备两个自己最近写的有些技术含量的项目,当然一定要自己亲手写过的,在别的地方看的源码,就算看的再清楚,...原创 2018-02-27 18:12:11 · 21354 阅读 · 0 评论 -
如何检测代理是否有效
## 环境 centos7 + py2使用requests,请求判断代理是否有效,请求的api请自己找。代码如下:# coding=utf-8import requestsdef GetUseProxies(): '''测试代理是否可用''' UseProxiesList = [] i = 1 n =0 # 请求api返回代理列表 api = "http://q...原创 2018-03-14 18:16:57 · 14385 阅读 · 0 评论 -
如何使用python识别验证码(上)
python进行图片文字识别十分简单,但是因为验证码的特殊性,识别存在一定难度,识别率比较低,本篇主要介绍简单的识别方法,下篇将会介绍增加识别率的办法。1.环境python2.7ubuntu 16.042.安装pip install requests pip install pytesseract # 安装Python库Pytesseractpip install tesseract # 安装...原创 2018-03-02 10:42:19 · 2391 阅读 · 0 评论 -
如何使用Selenium+PhantomJS抓取动态页面以及常见指令和问题
好多网站在发送请求后返回的并不是标准的html页面,而是需要执行一段js后才能获得页面解决这个问题有多重方法,下面介绍的是使用selenium的方法+PhantomJS的方法。1.环境Python 2.7Ubuntu16.042.安装pip install selenium sudo apt-get install phantomjs # 使用apt-get 安装的不完整,需要安装下面的包解决,...原创 2018-03-02 15:37:03 · 2455 阅读 · 1 评论 -
如何解决Fiddler抓手机app数据包时候遇到的证书问题
使用Fiddler抓手机app数据包的时候遇到的了证书问题,导致使用Fiddler抓包的时候,手机app无法正常接受数据。网上很多方法都无法解决。最终发现大神文章才解决了这个问题。一.环境 操作系统:win10 抓包工具:Fiddler 4移动端:某模拟器二.错误过程2.1配置Fiddlerfiddler-> tools-> Fiddler Options点击Fiddler Optio...原创 2018-03-06 17:54:45 · 49176 阅读 · 4 评论