获取目录下所有html文件

本文介绍了一种使用Java程序遍历指定路径下所有HTML文件的方法,并通过Jsoup库来解析这些HTML文件的内容。该过程涉及递归地访问文件夹结构,识别HTML文件并读取其数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

因为需要解析一些html,所以要遍历各个目录下的所有html

方法:

private static void GetFile(String path){
		  File file=new File(path);
		  File[] tempList = file.listFiles();
		  //System.out.println("该目录下对象个数:"+tempList.length);
		  for (int i = 0; i < tempList.length; i++) {
		   if (tempList[i].isFile()) {
			   if(tempList[i].toString().endsWith("htm")){
				   System.out.println("进入文件:"+tempList[i]);
				   
				  
				try {
					GetHtml(tempList[i].toString());
				} catch (IOException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
				 System.out.println("离开文件:"+tempList[i]);
			   }
		   }
		   if (tempList[i].isDirectory()) {
			   GetFile(tempList[i].toString());
		    //System.out.println("文件夹:"+tempList[i]);
		   }
		  }
	}

接下来就是使用jsoup了

private static void GetHtml(String filename) throws IOException {

File input = new File(filename);
Document doc = Jsoup.parse(input, "ISO-8859-1", "");

。。。。

。。。。。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值