爬虫:模拟用户操作浏览器获取信息,即模拟发送request请求,获取response对象,解析获取自己需要的数据。
1、源码下载工具:
1.1 httpclient:可以抓取未经过js渲染的源代码,速度较快。
参考博客:https://blog.youkuaiyun.com/lupangdelu/article/details/51007862
https://blog.youkuaiyun.com/chszs/article/details/16854747
1.2 phantomjs:可以抓取经过js渲染的源代码,速度慢。
参考博客:https://www.cnblogs.com/front-Thinking/p/4321720.html
http://javascript.ruanyifeng.com/tool/phantomjs.html
https://blog.youkuaiyun.com/smile_miracle/article/details/70817088
2、源码清洗工具
2.1 jsoup
参考博客:http://www.open-open.com/jsoup/
http://www.open-open.com/jsoup/dom-navigation.htm
3、存储工具
3.1 berkeleydb:类似redis 内存数据库,速度快。
参考博客:https://blog.youkuaiyun.com/jediael_lu/article/details/27534223
3.2mysql
4、抓包工具
4.1 chrome:开发者工具
参考博客:https://blog.youkuaiyun.com/wrongyao/article/details/79877845
4.2 fiddler:可以设置代理抓取app中的数据包,获取路口
参考博客:https://my.oschina.net/jhao104/blog/605963
5、反编译工具
参考博客:https://blog.youkuaiyun.com/F0ED9cZN4Ly992G/article/details/78780254
5.1 apktool 反编译可以查看资源文件等
5.2 dex2jar 可以将dex转化乘jar包
5.3 ja-gui ,luyten可以查看源码,结合使用
5.4 xposed 逆向神器,可以hook某个函数,得到参数等信息。
6、打包工具
6.1 exe4j
参考博客:https://blog.youkuaiyun.com/qq_20473985/article/details/53186216
7、http协议
参考博客:https://www.cnblogs.com/ranyonsue/p/5984001.html
http://www.ruanyifeng.com/blog/2016/08/http.html
本文全面介绍了爬虫技术,涵盖源码下载、清洗、存储工具,以及抓包、反编译和打包工具的选择与使用。从httpclient和phantomjs的对比,到jsoup、berkeleydb和mysql的应用,再到chrome开发者工具、fiddler和反编译工具的详解,为读者提供了爬虫技术的全方位指南。
1139

被折叠的 条评论
为什么被折叠?



