
爬虫
文章平均质量分 80
cat_猫
真诚真挚真心
展开
-
自动更改IP地址反爬虫封锁
转载地址 https://github.com/ysc/superword/blob/master/src/main/java/org/apdplat/superword/tools/DynamicIp.java/** * * APDPlat - Application Product Development Platform Copyr转载 2015-03-23 09:35:34 · 9560 阅读 · 0 评论 -
极验(geetest)滑动验证码研究
转载地址:http://www.itread01.com/articles/1476620139.html最近在搞爬蟲的時候在好幾個網站都碰到了一種叫做geetest的滑動條驗證碼,一直沒有太好的辦法只能在觸發這個驗證碼後發個報警去手動處理一下。http://www.geetest.com/exp_embed是他們官網的樣例。後來研究了下覺得要破解這個驗證碼有這转载 2017-07-18 11:57:55 · 3010 阅读 · 0 评论 -
百度蜘蛛爬虫Spider3.0,百度优化新特点
转载地址 https://www.douban.com/note/567245905/根据百度站长平台官方消息,百度蜘蛛爬虫已经从Spider2.0版本升级到Spider3.0,2010年百度蜘蛛爬虫从Spider1.0升级到Spider2.0百度进入百度搜索2.0版本,这次百度再次进行算法大更新,百度搜索优化进入3.0版本。很多站长迫切想要知道,百度搜索进入3.0版本以后百度优化有什么新转载 2017-06-23 14:35:11 · 1825 阅读 · 0 评论 -
如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求?
转载地址:http://www.cnblogs.com/yukaizhao/p/python-test-ip-is-searchengine-spider.html网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任转载 2017-06-21 16:55:06 · 4219 阅读 · 0 评论 -
Etag与HTTP缓存机制
转载地址:http://blog.youkuaiyun.com/kikikind/article/details/6266101Etag - Last-Modified和Etags如何帮助提高性能?把Last-Modified和ETags请求的http报头一起使用,这样可利用客户端(例如浏览器)的缓存。因为服务器首先产生Last-Modified/Etag标记,服务器可在稍后使转载 2017-06-20 12:29:34 · 3152 阅读 · 1 评论 -
网站如何反爬虫浅析
要想做爬虫,必须要先了解如何反爬虫,知道了这些,我们才能更好的做爬虫!因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取频率比较合理,转载 2016-04-21 09:59:59 · 3849 阅读 · 1 评论 -
simhash算法
方法介绍背景如果某一天,面试官问你如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度。另外一种方案是传统hash,我们考虑为每一个web文档通过hash的方式生成一个原创 2016-03-11 11:40:41 · 1023 阅读 · 0 评论 -
Linux下使用Squid搭建代理服务器
背景介绍:一般情况下大家会使用CCProxy搭建代理服务器,这种方法简单易用,但是也存在较多问题: 1.软件受注册限制只能允许3人使用; 2.CCProxy的代理请求仅支持常见的GET和POST等,对于SVN通过代理去update等请求就不支持了; 3.代理的认证方式仅有基本的Basic方式,其他的ntlm等认证方式不支持等。为了能够解决以上问题,尝试使用Squid在L转载 2016-03-03 18:23:40 · 609 阅读 · 0 评论 -
HTTP错误大全
HTTP错误大全HTTP 400 – 请求无效HTTP 401.1 – 未授权:登录失败HTTP 401.2 – 未授权:服务器配置问题导致登录失败HTTP 401.3 – ACL 禁止访问资源HTTP 401.4 – 未授权:授权被筛选器拒绝HTTP 401.5 – 未授权:ISAPI 或 CGI 授权失败HTTP 403 – 禁止访问原创 2015-12-28 09:19:04 · 413 阅读 · 0 评论 -
爬虫入门讲解:基础理论篇
关于爬虫内容的分享,我会分成两篇,六个部分来分享,分别是:我们的目的是什么内容从何而来了解网络请求一些常见的限制方式尝试解决问题的思路效率问题的取舍一、我们的目的是什么一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。1. 关于非结构化的数据1.1 HTML文本(包转载 2015-11-16 10:27:11 · 673 阅读 · 0 评论 -
Web文本去噪——基于DOM树的哈希值去噪法
不知从什么时候,自己居然走上了玩Java的道路。本以为做葡萄城杯是我最后一次用Java来写程序,现在看来只能说世事无常,我们永远不知道明天会发生什么,就像我无论如何也没想到一心想利用暑假时间好好看Linux C,最终却玩上Java一样。是的我没有写错,后者比起前者更让我感到吃惊。言归正传,项目需要,需要对爬虫抓取下来的网页进行去噪。广义上的Web去噪大致分为三类:一是去除重复的网页原创 2015-11-04 18:56:30 · 2861 阅读 · 0 评论 -
Android利用Fiddler进行网络数据抓包
主要介绍Android及IPhone手机上如何利用Fiddler进行网络数据抓包,比如我们想抓某个应用(微博、微信、墨迹天气)的网络通信请求就可以利用这个方法。 Mac 下请使用 Charles 代替 Fiddler,Charles 免费激活码为Registered name: a!nthony ortolani License key: a!4036b2761c9583fda转载 2015-04-29 13:54:13 · 680 阅读 · 0 评论 -
图片特征提取
目标检测的图像特征提取之(一)HOG特征 1、HOG特征: 方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,转载 2017-08-02 17:49:27 · 2174 阅读 · 0 评论