
爬虫
小学生反弹
这个作者很懒,什么都没留下…
展开
-
jsoup的使用
hello在用了一段时间的正则表达式之后,一直想找个机会学习一下jsoup,据说是解析网页的神器,但苦于官方的英文文档。迟迟没有动手自从看了youtube上的jsoup的视频之后,短短几行就实现了之前几十行的任务,(爬取网页上的所有超链接),这坚定了我学习jsoup的决心,结合中文文档和英文文档,花了大概两天的时间,大概了解了一下jsoup的使用,对于正则表原创 2016-04-12 17:47:08 · 3933 阅读 · 0 评论 -
搜狐新闻爬虫
小试身手,爬取搜狐新闻主页面上新闻的内容package com.test1;import java.io.IOException;import org.jsoup.*;import org.jsoup.helper.*;import org.jsoup.nodes.*;import org.jsoup.parser.*;import org.jsoup.select.*;publi原创 2016-04-12 19:45:51 · 1986 阅读 · 0 评论 -
java爬虫 之 搜狐新闻爬虫(一)
最近开始学习java爬虫,网上很多教程,自己找的时候花了好久的时间去理解别人的思路。打算将自己最近的学习进度稍作整理,理清思路。主要工具使用jsoup:具体用法看http://blog.youkuaiyun.com/u012315428/article/details/51135640下面是获取一个网页中所有的超链接:package com.sohu;import org.jsoup.Js原创 2016-04-15 18:24:33 · 2061 阅读 · 0 评论 -
java爬虫 之 搜狐新闻爬虫(二)
我们可以发现搜狐新闻的新闻页都是有规律的比如: http://news.sohu.com/20160415/n444266195.shtml在浏览器中右键检查元素可以找到锁定文章标题,时间,来源的标签那么经过分析确定标签可以得到下面的代码:Elements h = doc.select("h1[itemprop]");//标题 System.out.println(h.text());原创 2016-04-15 18:40:31 · 890 阅读 · 0 评论 -
java爬虫 之 搜狐新闻爬虫(三)
有了上两篇的文章,这篇简单的将两篇文章结合起来,得到一个可以抓取,搜狐新闻首页的所有新闻。package com.sohu;import java.io.IOException;import java.util.*;import org.jsoup.*;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import原创 2016-04-15 18:50:09 · 606 阅读 · 0 评论 -
使用Java下载网页的下载链接的内容
项目需要大量的excel文件作为数据来源,然后写了一个java小程序用来直接下载网页下载链接的内容。这样使用Java编程可以进行指定任务的下载 导入相应的包import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.原创 2016-09-27 15:10:45 · 1532 阅读 · 0 评论