java爬虫-0010,资源篇

本文全面介绍了爬虫技术,涵盖源码下载、清洗、存储工具,以及抓包、反编译和打包工具的选择与使用。从httpclient和phantomjs的对比,到jsoup、berkeleydb和mysql的应用,再到chrome开发者工具、fiddler和反编译工具的详解,为读者提供了爬虫技术的全方位指南。

爬虫:模拟用户操作浏览器获取信息,即模拟发送request请求,获取response对象,解析获取自己需要的数据。

1、源码下载工具:

     1.1 httpclient:可以抓取未经过js渲染的源代码,速度较快。

     参考博客:https://blog.youkuaiyun.com/lupangdelu/article/details/51007862

                        https://blog.youkuaiyun.com/chszs/article/details/16854747

     1.2 phantomjs:可以抓取经过js渲染的源代码,速度慢。

      参考博客:https://www.cnblogs.com/front-Thinking/p/4321720.html

                        http://javascript.ruanyifeng.com/tool/phantomjs.html

                        https://blog.youkuaiyun.com/smile_miracle/article/details/70817088

 

2、源码清洗工具

      2.1 jsoup

      参考博客:http://www.open-open.com/jsoup/

                        http://www.open-open.com/jsoup/dom-navigation.htm

 

3、存储工具

     3.1 berkeleydb:类似redis 内存数据库,速度快。

     参考博客:https://blog.youkuaiyun.com/jediael_lu/article/details/27534223

     3.2mysql

 

4、抓包工具

     4.1 chrome:开发者工具

     参考博客:https://blog.youkuaiyun.com/wrongyao/article/details/79877845

      4.2 fiddler:可以设置代理抓取app中的数据包,获取路口

      参考博客:https://my.oschina.net/jhao104/blog/605963

 

5、反编译工具

     参考博客:https://blog.youkuaiyun.com/F0ED9cZN4Ly992G/article/details/78780254

     5.1 apktool 反编译可以查看资源文件等

     5.2 dex2jar 可以将dex转化乘jar包

     5.3 ja-gui ,luyten可以查看源码,结合使用

     5.4 xposed 逆向神器,可以hook某个函数,得到参数等信息。

 

6、打包工具

     6.1 exe4j

     参考博客:https://blog.youkuaiyun.com/qq_20473985/article/details/53186216

 

7、http协议

     参考博客:https://www.cnblogs.com/ranyonsue/p/5984001.html

                       http://www.ruanyifeng.com/blog/2016/08/http.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值