通过HtmlParser+Heritrix抓取PCONLINE网页(Heritrix篇)

本文介绍使用Heritrix爬虫抓取PConline网站数据的过程,并实现了自定义的URI处理链来解析和保存网页内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近和同学参加中国软件杯比赛选题是聚焦搜索引擎,项目中我用到了HtmlParser和Heritrix,可惜项目进度缓慢,在这里就把自己这2个星期的所得写下来吧。

关于Heritrix的在Eclipse中的配置可以在 此网页中找到,这里就不再赘述,在上一篇中介绍了如何用HtmlParser解析Pconline,下面就是Heritrix的部分。当然肯定有很多其他的实现方式,下面是在下的方法,供各位看管参考,。

这便是Heritrix的URI处理链,(Heritrix中的URI其实和我们平时所说的URL到底有什么区别,我也不是很清楚。)微笑

这个处理连你可以理解为链接在这个处理链中走了一遍。其中write主要负责将EXTRATOR获取到的内容写到磁盘(当然也可以是数据库神马的)。这里我们就要用到WRITE这一环。Heritrix中的处理链都继承于process。

public class PconlineWriter extends Processor{

	public PconlineWriter(String name, String description) {
		super(name, description);
		// TODO Auto-generated constructor stub
	}
	public PconlineWriter(String name) {
		super(name, "this is a writer for pconline");
		// TODO Auto-generated constructor stub
	}
    protected void innerProcess(CrawlURI curi){
    	UURI uri = curi.getUURI();
    	String url = uri.toString();
    	if (url.contains("product.pconline.com.cn")&&url.endsWith(".html")&&url.indexOf("product.pconline.com.cn/pdlib") == -1)
    	try{
    			BuildTxt(url);
    	}catch(Exception e){
    		e.printStackTrace();
    	}
    }
    public static String GetPconlinePlainText_String(String content){
		String returnString ="";
		try{
			if(content != null){
				Parser parser = new Parser(content);
				parser.setEncoding("gbk");
				NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
				NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
				NodeList nodelist = parser.parse(liFilter);
				NodeIterator it = nodelist.elements();
				while(it.hasMoreNodes()){
					Node node = (Node)it.nextNode();
					returnString += node.toPlainTextString();
			}
		}
		}catch(Exception e){
			e.printStackTrace();
		}
		return returnString;
	}
	public static String GetPconlinePlainText(String url){
		ConnectionManager manager = new ConnectionManager();
		String returnString ="";
		try{
			if(url != null){
		Parser parser = new Parser(manager.openConnection(url));
		parser.setEncoding("gbk");
		NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
		NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
		NodeList nodelist = parser.parse(liFilter);
		NodeIterator it = nodelist.elements();
		while(it.hasMoreNodes()){
			Node node = (Node)it.nextNode();
			returnString += node.toPlainTextString();
		}
		}
		}catch(Exception e){
			e.printStackTrace();
		}
		return returnString;
		
	}
	public static String Geth1(String url){
		ConnectionManager manager = new ConnectionManager();
		String h1 = "";
		try{
			Parser parser = new Parser(manager.openConnection(url));
			NodeFilter h1Node = new TagNameFilter("h1");
			NodeList nodelist = parser.parse(h1Node);
			h1 = nodelist.elementAt(0).toPlainTextString();
		}catch(Exception e){
			e.printStackTrace();
		}
		return h1;
	
	}
	public static void BuildTxt(String url) throws IOException{
		String title = Geth1(url);
		String content = url+"\r\n"+title+"\r\n"+GetPconlinePlainText(url);
		FileWriter writer = new FileWriter("E:\\"+title+".txt");
		writer.write(content);
		writer.flush();
	}


}
这样我们便写成了一个Writer,打开Heritrix新建一个任务,将writer部分替换成为我们自己的WRITER就可以了。试验一下吧。。

内容概要:本文档定义了一个名为 `xxx_SCustSuplier_info` 的视图,用于整合和展示客户(Customer)和供应商(Supplier)的相关信息。视图通过连接多个表来获取组织单位、客户账户、站点使用、位置、财务代码组合等数据。对于客户部分,视图选择了与账单相关的记录,并提取了账单客户ID、账单站点ID、客户名称、账户名称、站点代码、状态、付款条款等信息;对于供应商部分,视图选择了有效的供应商及其站点信息,包括供应商ID、供应商名称、供应商编号、状态、付款条款、财务代码组合等。视图还通过外连接确保即使某些字段为空也能显示相关信息。 适合人群:熟悉Oracle ERP系统,尤其是应付账款(AP)和应收账款(AR)模块的数据库管理员或开发人员;需要查询和管理客户及供应商信息的业务分析师。 使用场景及目标:① 数据库管理员可以通过此视图快速查询客户和供应商的基本信息,包括账单信息、财务代码组合等;② 开发人员可以利用此视图进行报表开发或数据迁移;③ 业务分析师可以使用此视图进行数据分析,如信用评估、付款周期分析等。 阅读建议:由于该视图涉及多个表的复杂连接,建议读者先熟悉各个表的结构和关系,特别是 `hz_parties`、`hz_cust_accounts`、`ap_suppliers` 等核心表。此外,注意视图中使用的外连接(如 `gl_code_combinations_kfv` 表的连接),这可能会影响查询结果的完整性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值