Jsoup处理HTML中标签内容,获取最大的数字

核心知识点
  • 正则表达式在Java中使用
  • Jsoup用法

如下一段HTML内容标签,我要处理a标签的中的内容。要求是提取a标签中最大的一个数字。

<a hidefocus="" href="javascript:;" class="noprev"><img src="" /></a>
<a hidefocus="" href="javascript:;" class="current">1</a>
<a hidefocus="" href="javascript:;" class="">2</a>
<a hidefocus="" href="javascript:;" class="">不知道</a>
<a hidefocus="" href="javascript:;" class="">3</a>
<a hidefocus="" href="javascript:;" class="">6</a>
<a hidefocus="" href="javascript:;" class="next">hahaha<img /></a>

从上面的示例可以看出,a标签的内容有中文,或者其他英文字符。选取最大的一个字符,我只考虑数字,其他一概不考虑。因此要使用正则表达式。

Jsoup格式化这段内容

//artistDocument为HTML内容
Document document = Jsoup.parse(artistDocument);

Java创建正则

String pattern = "^\\d*$";
Pattern regx = Pattern.compile(pattern);

获取最大的数字的业务逻辑

Elements tagElements = document.getElementsByTag("a");
//最大的数字
int totalPage = 0;

for(int i=0; i<tagElements.size(); i++) {
   String pageIndex = tagElements.get(i).text();
   //正则实例化内容
   Matcher m =regx.matcher(pageIndex);
   //正则验证 a标签的内容是否为数字
   if(m.find()) {
       if(totalPage < Integer.parseInt(pageIndex)) {
           totalPage = Integer.parseInt(pageIndex);
       }
   }
}

水平原因可能存在错误,希望指正 chenrui@marsdl.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值