Jsoup挺好用,可以方便的在java中抓取html的内容,记录一个抓取东方财富网站信息的例子
目标:获取快讯中的标题条目和时间,如果是href需要抓下href信息,保存到本地自己的Message类中
Document doc = Jsoup.connect("http://kuaixun.eastmoney.com/").get(); //读取要访问的网站
Element data = doc.getElementById("livenews-list"); //找到要解析的节点
System.out.println(data);
List<News> list = new ArrayList<News>();
Elements newElement = data.getElementsByClass("media-title-box"); //找到节点中要解析的内容条目
System.out.println(newElement.size());
for(Element e : newElement){
Elements contents = e.getElementsByClass("media-title"); //获取标题
System.out.println(contents.size());
if(contents.isEmpty()){
continue;
}
Element content = contents.get(0);
System.out.println(content);
News message = new News();
if(content.hasAttr("href"))

本文通过实例展示了如何利用Jsoup在Java中轻松抓取HTML内容,特别是从东方财富网站获取快讯的标题、时间及链接信息,并将这些数据存储到本地自定义的Message类中。
最低0.47元/天 解锁文章
5596

被折叠的 条评论
为什么被折叠?



