Java文档搜索引擎总结

本文档介绍了基于SSM的Java文档搜索引擎项目,采用ansj分词库,无爬虫程序,直接处理已下载的Java文档。项目包含前端搜索与展示页面,后端包括索引、搜索和Web模块。索引部分由ScanAnalysis和Index类处理,搜索模块由Searcher类实现,Web模块负责前后端交互。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

项目介绍

Java文档搜索引擎项目是一个SSM项目,该项目的前端界面部分是由搜索页面和展示页面组成,后端部分索引模块(ScanAnalysis、index)、搜索模块(Searcher)、Web模块(SearcherController)。该项使用ansj第三方分词库进行分词,该项目并没有使用爬虫程序来获取Java文档,而是直接将Java文档下载下来,将Java文档里面的内容进行分词保存到正排索引文件和倒排索引文件中。

项目使用的技术栈

HTML、CSS、JS、Ajax、SpringBoot、SpringMVC

前端页面展示

搜索页面:
在这里插入图片描述
显示页面:
在这里插入图片描述

后端逻辑部分

索引部分

索引部分底层实现了两个类:ScanAnalysis类、Index类
***ScanAnalysis类:***用来扫描Java文档中的所有HTML文件,将HTML文件的标题、url路径、正文保存到正排索引文件和倒排索引文件中。
***Index类:***底层实现了正排索引结构和倒排索引结构,Index类是配合ScanAnalysis类一起使用的,Index将HTML文件内容保存到正排索引和倒排索引结构中,最终保存到正排索引文件和倒排索引文件中。

ScanAnalysis类的底层代码:

public class ScanAnalysis {
   
   

    //要扫描的根路径
    private static final String PATH_ROOT = "D:\\知识复习思维导图(Java)和Java笔记\\project-warehouse\\jdk-8u351-docs-all\\docs\\api";

    //Java文档的网络地址 不同部分
    private static final String JAVA_PATN = "https://docs.oracle.com/javase/8/docs/api/";

    //索引对象
    private static Index index = new Index();
    /**
     * 启动方法
     * 我们在进行扫描的时候,我们会发现在进行扫描的时候效率是比较低的。
     * 该方法使用的是单线程的方式
     * 我们可以使用多线程的方式来提高效率
     */
    public void run() {
   
   
        long ben1 = System.currentTimeMillis();
        //保存每一个文档的路径
        ArrayList<String> arrayList = new ArrayList<>();
        //1.获取每一个文档的路径
        scanPath(PATH_ROOT,arrayList);
        long ben = System.currentTimeMillis();
        //2.对每一个html文件进行解析
        for (String pathChild:arrayList) {
   
   
            analysis(pathChild);
        }
        long end = System.currentTimeMillis();
        System.out.println("解析所花费的时间:"+(end - ben)+"ms");
        //3.将索引保存的索引文档中
        index.saveFile();
        long end1 = System.currentTimeMillis();

        System.out.println("整个程序的时间:"+(end1 - ben1) +"ms");
    }

    /**
     * 启动方法2:我们对解析这个步骤使用多线程的方式来提高效率
     *
     */
    public void run2() {
   
   
        long ben1 = System.currentTimeMillis();
        //保存每一个文档的路径
        ArrayList<String> arrayList = new ArrayList<>();
        //1.获取每一个文档的路径
        scanPath(PATH_ROOT,arrayList);
        long ben = System.currentTimeMillis();
        //2.对每一个html文件进行解析
        //我们创建一个有时光线程的线程池
        ExecutorService executorService = Executors.newFixedThreadPool(15);
        //这个CountDownLatch对象,是用来表明需要等待多少个任务才结束
        //因为我们要等到解析这个过程完成了在执行下一步
        CountDownLatch countDownLatch = new CountDownLatch(arrayList.size());
        for (String pathChild:arrayList) {
   
   
            //将解析的工作提交倒线程池中
            executorService.submit(new Runnable() {
   
   
                @Override
                public void run() {
   
   
                    analysis(pathChild);
                    //完成一次解析任务就减一
                    countDownLatch.countDown();
                }
            });
        }


        try {
   
   
            //等待任务结束,如果没结束,就阻塞等待
            countDownLatch.await();
            //关闭线程池
            executorService.shutdown();
        } catch (InterruptedException e) {
   
   
            e.printStackTrace();
        }
        long end = System.currentTimeMillis();
        System.out.println("解析所花费的时间:"+(end - ben)+"ms");
        //3.将索引保存的索引文档中
        index.saveFile();
        long end1 = System.currentTimeMillis();

        System.out.println("整个程序的时间:"+(end1 - ben1) +"ms");
    }

    /**
     * 对 HTML文件进行解析
     * 获取到题目、正文、url
     * @param pathChild
     */
    private void analysis(String pathChild) {
   
   
        File file = new File(pathChild);
        //1.获取标题
        String title = getTitle(file);
//        System.out.println(title);
        //2.获取正文
        String content = getContents(file);
        //3.获取url
        String url = getUrl(file);
        System.out.println(url);
        //4.将标题、正文、url保存到索引中
        index.saveIndex(title,content,url);

    }

    /**
     * 获取url
     * @param file
     * @return
     */
    private String getUrl(File file) {
   
   
        StringBuilder stringBuilder = new StringBuilder();
        String str = file.getAbsolutePath().substring(PATH_ROOT.length()+1);
        for (int i = 0; i < str.length(); i++) {
   
   
            char ch = str.charAt(i);
            if (ch != '\\') {
   
   
                stringBuilder.append(ch);
            } else {
   
   
                stringBuilder.append('/');
            }
        }
        return JAVA_PATN+stringBuilder.toString();
    }

    /**
     * 获取正文,这个比较麻烦,我们需要去除标签,和<script></script>里面的内容
     * 这里我们需要使用正则表达式
     * @param file
     * @return
     */
    public String getContents(File file) {
   
   
        //获取到HTML里面的内容
        String content = getcontentHtml(file);
        //使用正则表达式,将<script></script>标签和里面的内容都替换掉
        //字符串中的replaceAll方法是支持正则表达式的
        content = content.replaceAll("<script.*?>(.*?)</script>"," ");
        //使用正则表达式,去除其他标签
        content = content.replaceAll("<.*?>"," ");
        //使用正则表达式,去除连续的空格
        content = content.replaceAll("\\s+"," ");
        return content ;
    }

    /**
     * 获取到HTML文件的内容,这人进行文件读取操作,
     * 使用字符流,进行读取
     * @param f
     * @return
     */
    private String getcontentHtml
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值