Java使用Jsoup解析网页

本文介绍使用Jsoup库进行网页解析的方法,包括如何通过DOM、CSS选择器和类似jQuery的操作来获取单个或多个HTML元素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

      下面是我在开发中通过Jsoup解析网页两种通用方法。

     1. 获取单个元素

   /**

    * 根据path获取单个元素

    *

    * @param element

    * @param path : [id=idstr]>[class*=classstr]>span#5>a

    * @return

    */

   public static Element getElementByPath(Element element, String path){

      if(element == null){

          return null;

      }

      if(path == null || "".equals(path)){

          return null;

      }

      if(path.contains(">")){

          String[] paths = path.split(">");

          if(paths != null && paths.length > 0){

             for(String p : paths){

                element = getElementByPath(element, p);

                if(element == null){

                   break;

                }

             }

          }

      }else{

          int index = 0;

          String p = path;

          if(path.contains("#")){

             p = path.substring(0, path.indexOf("#"));

             String indexstr = path.substring(path.indexOf("#")+1).replace("[^0-9]""");

             if(!"".equals(indexstr)){

                index = Integer.valueOf(indexstr);

             }

          }

          Elements elements = element.select(p);

          if(index > 9999){

             element = elements.last();

          }else{

             if(elements.size() <= index){

                return null;

             }

             element = elements.get(index);

          }

      }

      return element;

   }

  

   2. 获取多个元素

   /**

    * 根据path获取多个元素

    *

    * @param element

    * @param path : [id=idstr]>[class*=classstr]>span#5>a

    * @return

    */

   public static Elements getElementsByPath(Element element, String path){

      if(element == null){

          return null;

      }

      if(path == null || "".equals(path)){

          return null;

      }

      Elements elements = null;

      if(path.contains(">")){

          String[] paths = path.split(">");

          if(paths != null && paths.length > 0){

             for(String p : paths){

                elements = getElementsByPath(element, p);

                if(elements == null){

                   break;

                }

                int index = 0;

                if(p.contains("#")){

                   String indexstr = p.substring(p.indexOf("#")+1).replace("[^0-9]""");

                   p = p.substring(0, p.indexOf("#"));

                   if(!"".equals(indexstr)){

                      index = Integer.valueOf(indexstr);

                   }

                }

                if(index > 9999){

                   element = elements.last();

                }else{

                   if(elements.size() <= index){

                      elements = null;

                      break;

                   }

                   element = elements.get(index);

                }

             }

          }

      }else{

          String p = path;

          if(path.contains("#")){

             p = path.substring(0, path.indexOf("#"));

          }

          elements = element.select(p);

      }

      return (elements != null && elements.size() > 0) ? elements : null;

   }


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值