统计 text/html 文档类型

本文介绍了一种使用Heritrix爬虫抓取并识别网页为text/html类型的Java实现方法。通过递归遍历指定目录下的所有文件,并利用BufferedReader逐行读取文件内容来判断文件类型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      使用heritrix抓取的网页存储在jobs/crawler/mirror下,判断抓取的文件是否是text/html 文档类型,只需要判断文件中是否含有 “text/html” 字符串,使用BufferedReader类中的readLine()方法读取文件每一行,检查其是否包含该串,如果有则说明是text/html 文档,否则,一直读到文件末尾仍未包含,则不是text/html 文档。

      遍历jobs文件夹下每个crawler文件夹,找到其目录下的mirror文件夹,对其进行深度优先搜索,找到目录树的每一片叶子(即文件),检索文件,检查是否包含“text/html”字符串,如果有,则计数器加1

publicvoid searchFile(File file) {

       File[] subDirectory = null;

       BufferedReader brFile = null;

       String textLine = null;

       if(!file.isDirectory()) {

           /*

            * 读取文件,判断是否含有 TEXT_HTML = "text/html"

            */

           try {

              brFile = new BufferedReader(new FileReader(file));

              while((textLine = brFile.readLine())!= null) {

                  if(textLine.contains(TEXT_HTML)) {

                     count ++;

                     break;

                  }

              }

           } catch(IOException e) {

              e.printStackTrace();

           } finally {

              try {

                  if(brFile != null) {

                     brFile.close();

                     brFile = null;

                  }

              } catch(IOException e) {

                  e.printStackTrace();

              }

           }

       } else {

           subDirectory = file.listFiles();

           for(int i = 0; i < subDirectory.length; i++) {

              searchFile(subDirectory[i]);

           }

       }

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值