正则表达式抓取页面数据

    //通过正则从网页源码中匹配出想要的内容
    public String[] htmlregex(String htmltext, String regExp,boolean haslabel) {
        results = new Vector<String>();
        String[] resstr = null;
        if (htmltext == null)
            return null;
        StringBuffer str = new StringBuffer();
        //去除换行符
        char[] arrays = htmltext.toCharArray();
        for (int i = 0; i < arrays.length; i++) {
            if (arrays[i] != '\r' && arrays[i] != '\n')
                str.append(arrays[i]);
        }
        htmltext = str.toString();
        //正则匹配
        try {
            Pattern pattern = Pattern.compile(regExp, Pattern.CASE_INSENSITIVE);
            int readn = 0;
            int len = htmltext.length();
            while (len > 0) {
                Matcher matcher = pattern.matcher(htmltext);
                //试图找到与该模式匹配的输入序列的下一个子序列。
                //判断当前模式是否有匹配序列,没有就退出
                if (!matcher.find())
                    break;    
                if (matcher.groupCount() == 0) {
                    break;
                }
                //将匹配的模式的数据暂存到results
                int groupCount = matcher.groupCount();
                for (int i = groupCount; i > 0; i--) {
                    String result = matcher.group(i);
                    results.add(result);
                }
                readn = matcher.end();
                len -= readn;
                htmltext = htmltext.substring(readn);
            }
        } catch (Throwable e) {
            try {
                throw e;
            } catch (Throwable e1) {
                // TODO Auto-generated catch block
                e1.printStackTrace();
            }
        }
        //判断是否要标签
        if(!haslabel){
            resstr = getHtmlregexResults();
        }else{
            resstr = getHtmlregexResultsLabel();
        }
        return resstr;
    }
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值