【搜索引擎】HtmlParser - org.htmlperser.Parser(1)

最新推荐文章于 2023-07-19 21:23:38 发布

原创最新推荐文章于 2023-07-19 21:23:38 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Java #HtmlParser #搜索引擎

搜索引擎专栏收录该内容

4 篇文章

订阅专栏

本文介绍如何利用HtmlParser库中的Parser类从指定URL中抓取并提取文本内容。通过设置编码并使用TextExtractingVisitor类，可以有效地获取网页上的所有文本信息。

HtmlParser包里最重要的类Parser，下面是它的初始化（其中之一）以及初步应用，仅仅只是把目标网址里的文本内容提取出来：

package ParserStudy;

import org.htmlparser.Parser;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;

public class TestParser {

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		String url = "http://localhost/hello.php";
		try {
			Parser parser = new Parser(url); //url为地址
			parser.setEncoding("GBK");	 //设置编码
			//提取网址里文本内容
			TextExtractingVisitor visitor = new TextExtractingVisitor();
			parser.visitAllNodesWith(visitor);
			String str = visitor.getExtractedText();
			System.out.println(str); //输出内容
			
		} catch (ParserException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

}