htmlparser 获取页面匹配链接

本文介绍了一种使用自定义正则表达式从特定网站抓取链接的方法。通过创建Parser对象并解析目标网址,利用HTMLPage类获取页面内容,再通过过滤器提取所有A标签,最终筛选出符合预设格式的链接进行输出。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

	private static String regex = "http://www.yifujx.com/cn/showclass\\.asp\\?id=\\d{1,2}&pid=\\d{1,2}";
	private static String urlRegex = "http://www.yifujx.com/cn/showProduct\\.asp\\?ID=\\d{1,2}";
	
	
	public static void main(String[] args) throws Exception {
//		Parser parser = Parser.createParser("http://www.yifujx.com/cn/", "gb2312");
		Parser parser = new Parser("http://www.yifujx.com/cn/");
		HtmlPage htmlPage = new HtmlPage(parser);
		parser.visitAllNodesWith(htmlPage);
		
		NodeList nodeList = htmlPage.getBody();
		NodeFilter nodeFilter = new TagNameFilter("A");
		nodeList = nodeList.extractAllNodesThatMatch(nodeFilter, true);
		int size = nodeList.size();
		for(int i=0; i<size; i++){
			LinkTag linkTag = (LinkTag)nodeList.elementAt(i);
			String link = linkTag.getLink();
			if( link.matches(regex) ){
				System.out.println( link + "\t" + linkTag.getChildrenHTML());
			}
		}
		
	}
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值