通过HtmlParser+Heritrix抓取PCONLINE网页（HtmlParser篇）

最新推荐文章于 2025-12-13 12:07:42 发布

原创最新推荐文章于 2025-12-13 12:07:42 发布 · 置顶 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#string #exception #manager #url #library #html

HtmlParser 同时被 3 个专栏收录

2 篇文章

订阅专栏

Heritrix

2 篇文章

订阅专栏

Pconline

2 篇文章

订阅专栏

本文介绍如何利用HtmlParser库抓取PC在线的产品页面信息，并提供了具体代码实例，展示了如何提取产品详情页中的关键数据。

最近和同学参加中国软件杯比赛选题是聚焦搜索引擎，项目中我用到了HtmlParser和Heritrix，可惜项目进度缓慢，在这里就把自己这2个星期的所得写下来吧。

说真的在百度上面搜索的话10篇里面有9篇都是复制粘贴的，感觉资料少让自己走了很多的弯路。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

HtmlParser顾名思义HTML Parser is a Java library used to parse HTML。具体的文档大家可以去官网上面看。

从这里就能看到PCONLINE的产品页面都是同样的布局，所用的产品信息都放在ul.param.clerafix中，大家可以用火狐的页面查看功能很方便的查看，由此我们可以很方便的解析出页面中所要的信息。

	public static String GetPconlinePlainText(String url){
		ConnectionManager manager = new ConnectionManager();
		String returnString ="";
		try{
			if(url != null){
		Parser parser = new Parser(manager.openConnection(url));
		parser.setEncoding("gbk");
		NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
		NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
		NodeList nodelist = parser.parse(liFilter);
		NodeIterator it = nodelist.elements();
		while(it.hasMoreNodes()){
			Node node = (Node)it.nextNode();
			returnString += node.toPlainTextString();
		}
		}
		}catch(Exception e){
			e.printStackTrace();
		}
		return returnString;
		
	}

上面代码中的AndFilter即表示参数一和二都要符合的Node.当然你还可以得到网页中h1标签中的内容，也就是这个物品的主要名称。

当然Parser一共有3总重载，具体的大家可以阅读源码，特别要提一下的是如果你想用HtmlParser解析字串符的话就直接将字串符作为参数构造一个Parser就OK了。

	public static String Geth1(String url){
		ConnectionManager manager = new ConnectionManager();
		String h1 = "";
		try{
			Parser parser = new Parser(manager.openConnection(url));
			NodeFilter h1Node = new TagNameFilter("h1");
			NodeList nodelist = parser.parse(h1Node);
			h1 = nodelist.elementAt(0).toPlainTextString();
		}catch(Exception e){
			e.printStackTrace();
		}
		return h1;
	
	}