
爬虫
ノBye~
这个作者很懒,什么都没留下…
展开
-
Java爬虫之Jsoup Document select详解
select详解 Document 继承自 Element 类。select方法将返回一个Elements集合。 1.通过标签名来查找: 测试代码: <span>33</span> <span>25</span> select写法:Elements elements = document.select("span"); 下面的例子都按照上面的格式来写,就不进行重复的标注了。 2.通过id来查找: <span id=\"myS原创 2020-07-22 16:25:32 · 8651 阅读 · 1 评论 -
爬虫 对比Java和Python
网络爬虫 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。通俗讲 就是将你在网页上看到的信息通过代码程序自动获取到本地的过程。 常用框架: java:webmagic,http://webmagic.io/docs/zh/ python:scrapy,http://blog.youkuaiyun.com/sunnyxiaohu/article/detai.原创 2020-06-02 17:18:15 · 5208 阅读 · 0 评论 -
jsoup之HTML解析器
jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容, 就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。 虽然jsoup也支持从某...原创 2019-08-20 16:03:45 · 334 阅读 · 0 评论 -
Fidder4+安卓模拟器实现抓包配置
本文主要介绍fiddler4对安卓模拟器的抓包设置 首先在官网下载fiddler4进行安装,然后下载安卓模拟器,这里使用网易的MuMu模拟器。 1.fiddler4的设置 对于fiddler4的设置,首先打开fiddler,点击Tools-->options-->connections 如下图设置端口号 点击https,设置HTTPS,该选项是为了设置抓https协议的包,到此fiddler设置完成,关闭重启 2.安卓模拟器的设置 打开MuMu-->系统应用--&g原创 2020-06-21 19:16:44 · 1774 阅读 · 0 评论