htmlparser提取正文

最新推荐文章于 2022-11-29 08:39:32 发布

原创最新推荐文章于 2022-11-29 08:39:32 发布 · 173 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#.net #HTML

Parser_html 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了一种使用HTMLParser从网页中提取正文内容的方法。通过三种不同的技术实现：StringBean、StringExtractor及直接利用Parser类。这些方法适用于如新浪等网站的首页内容抓取，尽管提取结果可能不够理想。

htmlparser提取正文，提取新浪等门户首页是不太干净


mport org.htmlparser.Parser; 
import org.htmlparser.beans.StringBean; 
import org.htmlparser.filters.NodeClassFilter; 
import org.htmlparser.parserapplications.StringExtractor; 
import org.htmlparser.tags.BodyTag; 
import org.htmlparser.util.NodeList; 
import org.htmlparser.util.ParserException; 

public class GetContent { 

	public void getContentUsingStringBean(String url) { 
        StringBean sb = new StringBean(); 
        sb.setLinks(true);           
        sb.setCollapse(true);  
        sb.setReplaceNonBreakingSpaces(true);// If true regular space 
        sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html"); 
        System.out.println("The Content is :\n" + sb.getStrings()); 

    } 

    public void getContentUsingStringExtractor(String url, boolean link) { 
        StringExtractor se = new StringExtractor(url); 
        String text = null; 
        try { 
            text = se.extractStrings(link); 
            System.out.println("The content is :\n" + text); 
        } catch (ParserException e) { 
            e.printStackTrace(); 
        } 
    } 

    public void getContentUsingParser(String url) { 
        NodeList nl; 
        try { 
            Parser p = new Parser(url); 
            nl = p.parse(new NodeClassFilter(BodyTag.class)); 
            BodyTag bt = (BodyTag) nl.elementAt(0); 
            System.out.println(bt.toPlainTextString()); 
            } catch (ParserException e) { 
            e.printStackTrace(); 
        } 
    } 

    public static void main(String[] args) {
    	GetContent g = new GetContent();
//    	g.getContentUsingStringBean("");
//    	g.getContentUsingParser("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
    	g.getContentUsingStringExtractor("http://www.sina.com.cn/", false);
	}