Jsoup读取东方财富网站数据实例

最新推荐文章于 2024-04-08 16:50:40 发布

原创

最新推荐文章于 2024-04-08 16:50:40 发布 · 2.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java #html #jsoup #爬虫

本文通过实例展示了如何利用Jsoup在Java中轻松抓取HTML内容，特别是从东方财富网站获取快讯的标题、时间及链接信息，并将这些数据存储到本地自定义的Message类中。

Jsoup挺好用，可以方便的在java中抓取html的内容，记录一个抓取东方财富网站信息的例子

目标：获取快讯中的标题条目和时间，如果是href需要抓下href信息，保存到本地自己的Message类中

        Document doc = Jsoup.connect("http://kuaixun.eastmoney.com/").get();  //读取要访问的网站
        Element data = doc.getElementById("livenews-list");  //找到要解析的节点
        System.out.println(data);
        List<News> list = new ArrayList<News>();
        Elements newElement = data.getElementsByClass("media-title-box");  //找到节点中要解析的内容条目
        System.out.println(newElement.size());
        for(Element e : newElement){
           Elements contents = e.getElementsByClass("media-title");  //获取标题
           System.out.println(contents.size());
           if(contents.isEmpty()){
               continue;
           }
           Element content = contents.get(0);
           System.out.println(content);
           News message = new News();     
           if(content.hasAttr("href"))