
Java
sunyuan_software
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
JAVA编写网络爬虫笔记(第二部分:httpClient下载页面)
接着上一部分的内容,我们看一下怎样下载和解析页面。这里用到的java包主要是httpclient,可以去apache官网下载 我们是利用httpclient生成一个GetMethod的对象,这个对象可以请求网页,然后网页回应html源代码给我们,我们就可以保存为一个html文件或者txt文件,然后就进行下一步的信息提取了。主要的代码实现import java.io.DataOutputStream;原创 2015-05-29 08:16:26 · 1070 阅读 · 0 评论 -
JAVA编写网络爬虫笔记(第一部分:URL链表的结构)
一开始拿到写爬虫的任务还是挺迷茫的,没什么头绪,甚至还不知道什么是爬虫,要怎样写。于是,在网上找到了《自己动手写爬虫》的这本书,花了几天的时间去看,略有小成就。一、我们要理解一下一个简单爬虫实现的原理:通过URL下载网页代码并解析找到我们所需要的内容,并通过这网页上的链接访问其他URL,重复操作。在这里就要说一下URL是什么:其实就是我们要访问的网页地址(存储在服务器上的一个文件)。二、我们分析完原原创 2015-05-25 19:41:57 · 1220 阅读 · 0 评论 -
Java编写网络爬虫笔记(第三部分:Jsoup的强大)
基于httpclient下载的页面,接着就是应该提取url了,最开始我用的是htmlpraser,过几天后,我就发现了还有jsoup这个包,非常的好用,接着我就直接用jsoup来抓取页面和提取出里面的url了,在这里跟大家分享一下代码。import java.io.IOException; import java.util.HashSet; import java.util.Iterator; im原创 2015-06-02 18:42:28 · 881 阅读 · 0 评论 -
利用WebCollector+selenium抓取新浪微博数据
抓下来返回text是这样的:需要用到的包:下载地址:http://pan.baidu.com/s/1o69myOq两个类的代码 WeiboCN.javaimport java.util.Set; import cn.edu.hfut.dmic.webcollector.*; import org.openqa.selenium.Cookie; import org.openqa.selenium.原创 2015-06-11 14:23:02 · 4097 阅读 · 17 评论