利用Jsoup爬取网页内容

最新推荐文章于 2024-06-11 16:40:03 发布

原创

最新推荐文章于 2024-06-11 16:40:03 发布 · 1.9k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Jsoup库爬取网页内容，特别是从HTML中提取新闻标题、图片链接。示例展示了如何解析学校信息门户的新闻，通过Jsoup抓取每条新闻的标题、图片URL以及文章链接，为客户端提供数据。

jsoup的强大之处在这里就不多说，最近在写项目，需要爬取网页上的内容，自然想到的是利用Jsoup来处理，项目中是利用Jsoup爬取学校信息门户的新闻消息，然后放进客户端

网页的html代码如下

[html]view plaincopy 
   
 <div class="zw_content" ><p><img src="/attach/2016/09/02/123920.jpg" width="800" height="533"/></p><p style="LINE-HEIGHT: 150%; TEXT-INDENT: 32px"><span style="LINE-HEIGHT: 150%; FONT-FAMILY: 宋体; FONT-SIZE: 16px">8</span><span style="LINE-HEIGHT: 150%; FONT-FAMILY: 宋体; FONT-SIZE: 16px">月30日，日照市常务副市长王斌一行人来我校进行调研。校长戚万学，副校长康淑敏、杨冰等热情接待了王斌一行。校区管理办公室、学生工作办公室等相关负责人参加了座谈。</span></p><p style="LINE-HEIGHT: 150%; TEXT-INDENT: 32px"><span style="LINE-HEIGHT: 150%; FONT-FAMILY: 宋体; FONT-SIZE: 16px">王斌表示，曲阜师范大学有深厚的文化与学术底蕴，形成了独具特色的办学传统与学科优势，为服务日照、校地合作积极创造条件，建立校地资源共享、共同合作的良性渠道，为日照市社会发展做出了重要贡献，为日照市文化经济发展提供了支持，实现了社会建设的人才保障。</span></p><p style="LINE-HEIGHT: 150%; TEXT-INDENT: 32px"><span style="LINE-HEIGHT: 150%; FONT-FAMILY: 宋体; FONT-SIZE: 16px">戚万学对日照市委市政府给予的支持和帮助表示了感谢，并表明我校将进一步提高办学层次、加强人才培养，大力促进校地、校企合作，为日照市输送更多的优秀人才，实现学校建设与社会发展的共赢。我们将本着资源共享、互惠共赢的原则，以项目（课题）为纽带、整合学科资源、发挥人才优势与日照市加强合作和交流，为新丝绸之路经济带建设与发展做出贡献。</span></p><p style="LINE-HEIGHT: 150%; TEXT-INDENT: 32px"><a name="_GoBack"></a><span style="LINE-HEIGHT: 150%; FONT-FAMILY: 宋体; FONT-SIZE: 16px">(</span><span style="LINE-HEIGHT: 150%; FONT-FAMILY: 宋体; FONT-SIZE: 16px">作者：李艳梅  来源：校区管理办公室  编辑：校区管理办公室  责编：孙琪)</span></p><p></p></div>  

项目中，需要爬取出新闻中的图片超链接，还有新闻文字内容，功能代码如下，、由于每个新闻中图片的超链接数目不一定一样，防止java向外抛异常，需要自己try-catch处理

[java]view plaincopy 
   
 private static void getItemContent() {  
         // TODO Auto-generated method stub  
         Document doc ;  
           
         try {  
             doc = Jsoup.connect("http://www.qfnu.edu.cn/html/xxyw/2016/09/02/d6f4656a-7349-4632-8634-27d30daaf3ad.html").get();  
               
             Elements listClass = doc.getElementsByAttributeValue("class", "zw_content");  
             String url2;  
             for (Element listItem : listClass){  
                 String url1 = listItem.getElementsByTag("img").get(0).attr("src");  
                 try{  
                     url2= listItem.getElementsByTag("img").get(1).attr("src");  
                 }catch(Exception e){  
              &n