HtmlParser包里最重要的类Parser,下面是它的初始化(其中之一)以及初步应用,仅仅只是把目标网址里的文本内容提取出来:
package ParserStudy;
import org.htmlparser.Parser;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;
public class TestParser {
public static void main(String[] args) {
// TODO Auto-generated method stub
String url = "http://localhost/hello.php";
try {
Parser parser = new Parser(url); //url为地址
parser.setEncoding("GBK"); //设置编码
//提取网址里文本内容
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
String str = visitor.getExtractedText();
System.out.println(str); //输出内容
} catch (ParserException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}