
爬虫
文章平均质量分 63
AJAXHu
这个作者很懒,什么都没留下…
展开
-
java常用代码三(粘贴即用)---获取html源码
本文给出java根据网址获得html源码的代码,适用于windows和linux,会持续更新。所需头文件:import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.HttpURLConnection;import jav原创 2013-09-21 18:37:28 · 3864 阅读 · 6 评论 -
JAVA开源爬虫,WebCollector,简单易用,有界面。
如果你想用爬虫下载整站内容,原创 2014-07-19 23:13:43 · 7653 阅读 · 5 评论 -
JAVA网络爬虫WebCollector深度解析——爬虫内核
JAVA开源爬虫内核WebCollector,让爬虫开发变得简单。WebCollector提供了一个稳定高效的JAVA爬虫框架,同时也提供了爬虫所需的基本类库,内置了几套基本的爬虫(有界面)。无论你是做网页爬取还是网页抽取,都可以通过几行简单的代码完成。爬虫内核有独有的“消息机制”和“URL遍历器”,可完成深网爬取。项目在github上持续更新。原创 2014-07-21 10:43:57 · 30391 阅读 · 6 评论 -
用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。教程介绍了如何用WebCollector打造一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)原创 2014-07-26 18:12:52 · 15734 阅读 · 7 评论