html内容提取

最新推荐文章于 2025-01-02 11:36:38 发布

最新推荐文章于 2025-01-02 11:36:38 发布 · 386 阅读

文章标签：

#HTML #正则表达式 #百度

programming 专栏收录该内容

7 篇文章

订阅专栏

本文介绍三种从HTML文件中提取文本内容的方法：直接提取法、利用W3C DOM接口及正则表达式法，并分析各方法优缺点。

前段时间，一直在弄html提取问题，可谓道路曲折（当然，现在看来是走了些弯路），现小结一下。

总得来说，一般有三种方法：

第一种方法：直接提取

即只提取除"<........>"之外的的东东，具体实现上，可以直接获取“>........<"之内的文字，也可以先踢出"<...........>"之内的文字。这里给出直接获取“>........<"之内的文字的程序片段。

//用readHtml(filePath);得到body标签中的内容
        String str= readHtml(filePath);

        StringBuffer buff = new StringBuffer();
        int maxindex = str.length() - 1;
        int begin = str.indexOf("<body>",0) + 5 ;
        int end;
        //截取>和<之间的内容

        while((begin = str.indexOf('>',begin)) < maxindex - 1)
        {
             end = str.indexOf('<',begin);
            if(end - begin > 1)
            {
                String strAll,strPart = "";
                strAll = str.substring(++begin, end);
                strPart += strAll;
                buff.append(strPart);
            }

注意了，这种方法思路简单，但效果不佳，原因显而易见，主要是html文件的特点及其相关语法决定的。如果你照此思路，结果可能让你多少有些失望，当然如果你要求不高，此法勉强可以接受。

第二种方法：用w3c有关知识

w3c具体知识网上随便百度一下就有一大堆，在此不再罗唆了；

其相关程序附下：

    // 得到body标签内容
    protected static String getBody(Element rawDoc) {
        if (rawDoc == null) {
            return "";
        }
        String body = "";
        NodeList children = rawDoc.getElementsByTagName("body");
        if (children.getLength() > 0) {
            body = getText(children.item(0));
        }
        return body;
    }

    // 递归调用,因为标签里面还有标签
    protected static String getText(Node node) {
        NodeList children = node.getChildNodes();
        StringBuffer sb = new StringBuffer();
        for (int i = 0; i < children.getLength(); i++) {
            Node child = children.item(i);
            switch (child.getNodeType()) {
            case Node.ELEMENT_NODE:
                sb.append(getText(child));
                sb.append(" ");
                break;
            case Node.TEXT_NODE:
                sb.append(((Text) child).getData());
                break;
            }
        }
        return sb.toString();
    }

说明一下，本方法需要有w3c.dom知识，只有熟练掌握，方可有“正果“可修，建议无畏者（如果你已有此知识积累不算此列）可以尝试，会有不小收获的哦。

第三种：运用正则表达式知识

正则表达式是个好东西哦，小巧灵活，像个小螺丝似的，关键时刻有时还真能发挥大作用，不多说废话，其思想是把我们所不需要的东西剔除掉，思路类似上一，但这里为突出正则表达式的作用，就单列了。其有关程序如下：

//得到body标签中的内容
        String str= readHtml(filePath);
        int begin = str.indexOf("<body",0) + 5 ;
        int end = str.length();
        str = str.substring(begin, end);

        str = str.replaceAll("<[Ss][Cc][Rr][Ii][Pp][Tt].*?</[Ss][Cc][Rr][Ii][Pp][Tt]>", " ");
        str = str.replaceAll("<[Ss][Tt][Yy][Ll][Ee].*?</[Ss][Tt][Yy][Ll][Ee]>", " ");
        str = str.replaceAll(" ", " ");
        str = str.replaceAll("<.*?>", " ");
        str = str.replaceAll("\\s+"," ");

有关正则表达式的基础知识在此就不做介绍了。

ok，大体如此而已，这里仅提供大致的思路，当然由于知识有限，见识有限，如有其他好的方法，还希望各位高手指教。