
数据抓取
苏文星
知行合一 止于至善。
展开
-
关于HttpClient的总结
关于Httpclient的使用总结如下:(1)当HttpClient的实例不再需要时,可以使用连接管理器关闭 httpclient.getConnectionManager().shutdown(); [java] view plain copy (1)当HttpClient的实例不再需要时,可以使用连接管理器关闭 httpclient.原创 2017-08-16 14:48:08 · 333 阅读 · 0 评论 -
HttpClient使用代理IP
在爬取网页的时候,有的目标站点有反爬虫机制,对于频繁访问站点以及规则性访问站点的行为,会采集屏蔽IP措施。这时候,代理IP就派上用场了。关于代理IP的话 也分几种 透明代理、匿名代理、混淆代理、高匿代理1、透明代理(Transparent Proxy)REMOTE_ADDR = Proxy IPHTTP_VIA = Proxy IPHTTP_X_FO原创 2017-08-17 16:56:06 · 639 阅读 · 0 评论 -
抓取app视频文章记录
【前言】最近被抓取快手和最右APP搞得焦头烂额,其中最困恼的就是他的sig值,做了加密导致无法直接修改参数进行请求。但是在研究的过程中我也发现了一些好玩的,比如用模拟器抓取,用anyproxy代理+fiddler进行抓取。【现记录fiddler抓取抓发代码:】if (oSession.uriContains("tbapi.ixiaochuan.cn/index/recommend"原创 2017-09-14 09:18:05 · 3988 阅读 · 0 评论 -
浅谈使用Fiddler工具发送post请求(带有json数据)以及get请求(Header方式传参)
浅谈使用Fiddler工具发送post请求(带有json数据)以及get请求(Header方式传参)Fiddler工具是一个http协议调试代理工具,它可以帮助程序员测试或调试程序,辅助web开发。Fiddler工具可以发送向服务端发送特定的HTTP请求以及接受服务器回应的请求和数据,是web调试的利器。 使用Fiddler也可以像Firefox浏览器中的RestClient工具一转载 2017-08-30 19:39:48 · 692 阅读 · 0 评论 -
URL中编码URL特殊字符
【问题提出】url出现了有+,空格,/,?,%,#,&,=等特殊符号的时候,可能在服务器端无法获得正确的参数值【解决办法】将这些字符转化成服务器可以识别的字符,对应关系如下:URL字符转义用其它字符替代吧,或用全角的。+ URL 中+号表示空格 %2B 空格 URL中的空格可以用+号或者编码原创 2017-09-19 15:15:54 · 3583 阅读 · 0 评论 -
windows下安装AnyProxy抓取移动App Http请求
AnyProxy是阿里巴巴基于 Node.js 开发的一款开源代理服务器。做为中间代理服务器,它可以收集所有经过它的http请求流量(包括https明文内容);它提供了友好的web界面,便于直观的查看经过它的http请求;同时它支持二次开发,可以用javascript控制整个代理的全部流程,便于前端调试和收集http请求页面内容。它可以用于移动app和移动web页面调试、 抓取。 一、实验原创 2017-07-24 14:19:59 · 10759 阅读 · 2 评论 -
网络爬虫:URL去重策略之布隆过滤器(BloomFilter)的使用
前言: 最近被网络爬虫中的去重策略所困扰。使用一些其他的“理想”的去重策略,不过在运行过程中总是会不太听话。不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一种方法。 如果,你说URL去重嘛,有什么难的。那么你可以看完下面的一些问题再说这句话。关于BloomFilter: Bloom filter 是由 Howard Bloom 在 1970 年提出的二进...转载 2018-03-16 13:51:08 · 1176 阅读 · 0 评论