lucene入门学习(1)

优秀后端工程师

于 2024-05-16 12:47:59 发布

阅读量522

点赞数 3

文章标签：运维 linux 面试

本文链接：https://blog.youkuaiyun.com/m0_60750088/article/details/138956757

版权

最全的Linux教程，Linux从入门到精通

======================

linux从入门到精通(第2版)
Linux系统移植
Linux驱动开发入门与实战
LINUX 系统移植第2版
Linux开源网络全栈详解从DPDK到OpenFlow

华为18级工程师呕心沥血撰写3000页Linux学习笔记教程

第一份《Linux从入门到精通》466页

====================

内容简介

====

本书是获得了很多读者好评的Linux经典畅销书**《Linux从入门到精通》的第2版**。本书第1版出版后曾经多次印刷，并被51CTO读书频道评为“最受读者喜爱的原创IT技术图书奖”。本书第﹖版以最新的Ubuntu 12.04为版本，循序渐进地向读者介绍了Linux 的基础应用、系统管理、网络应用、娱乐和办公、程序开发、服务器配置、系统安全等。本书附带1张光盘，内容为本书配套多媒体教学视频。另外,本书还为读者提供了大量的Linux学习资料和Ubuntu安装镜像文件，供读者免费下载。

华为18级工程师呕心沥血撰写3000页Linux学习笔记教程

本书适合广大Linux初中级用户、开源软件爱好者和大专院校的学生阅读，同时也非常适合准备从事Linux平台开发的各类人员。

需要《Linux入门到精通》、《linux系统移植》、《Linux驱动开发入门实战》、《Linux开源网络全栈》电子书籍及教程的工程师朋友们劳烦您转发+评论

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

最终展示给用户看。

入门程序实例：

这里使用的IKAnalyzer作为分词器。
IKAnalyze的使用方法
1）把IKAnalyzer的jar包添加到工程中
2）把配置文件和扩展词典添加到工程的classpath下
注意：扩展词典严禁使用windows记事本编辑保证扩展词典的编码格式是utf-8
扩展词典hotword：添加一些新词，比如公司名，人名，添加后就会把这些当作一个词语分出来
停用词词典stopword：无意义的词或者是敏感词汇，比如把色情加入停用词典后就不会分出色情这个词，那就没办法检索到色情，相当于过滤了。
所需依赖见lib目录，src目录下即classpath下放了三个文件，分别为hotword扩展词典，stopword停用词词典，以及配置文件。
在这里插入图片描述
Field域的属性
是否分析：是否对域的内容进行分词处理。前提是我们要对域的内容进行查询。
是否索引：将Field分析后的词或整个Field值进行索引，只有索引方可搜索到。
比如：商品名称、商品简介分析后进行索引，订单号、身份证号不用分析但也要索引，这些将来都要作为查询条件。
是否存储：将Field值存储在文档中，存储在文档中的Field才可以从Document中获取
比如：商品名称、订单号，凡是将来要从Document中获取的Field都要存储。

在这里插入图片描述

在com.yh.lucene下创建两个类，分别为索引管理类IndexManager和搜索索引类SearchIndex.

IndexManager类：


/\*\*
 \* 索引库的维护，增删改
 \* 步骤：
 1、创建一个Director对象，指定索引库保存的位置。
 2、基于Directory对象创建一个IndexWriter对象，IndexWriter对象需要
一个IndexWriterConfig参数作为构造函数参数，IndexWriterConfig默认以StandardAnalyzer为
分词器（不能切分中文），需要替换为IKAnalyzer分词器。
 3、读取磁盘上的文件，对应每个文件创建一个文档对象。
 4、向文档对象中添加域
 5、把文档对象写入索引库
 6、关闭indexwriter对象
 \*/
public class IndexManager {
    private IndexWriter indexWriter;

    /\*\*
 \* 初始化一些公共部分
 \*
 \* @throws IOException
 \*/
    @Before
    public void init() throws IOException {
        //创建索引库存放路径
        Directory directory = FSDirectory.open(new File("C:\\temp\\index").toPath());
        //指定分词器
        IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());
        //创建一个indexwriter对象
        indexWriter = new IndexWriter(directory, config);
    }


    /\*\*
 \* 创建索引库
 \*/
    @Test
    public void createIndex()throws Exception {
// 1、创建一个Director对象，指定索引库保存的位置。
        //把索引库保存到内存中
        // Directory ramDirectory = new RAMDirectory();
        //把索引库保存到磁盘中
        Directory directory = FSDirectory.open(new File("C:\\temp\\index").toPath());

// 2、基于Directory对象创建一个IndexWriter对象
// IndexWriter indexWriter = new IndexWriter(directory, new IndexWriterConfig());
        //原IndexWriterConfig默认采用的StandAnalyzer作分析器，不适合中文，所以要切换为IKAnalyzer
        IndexWriter indexWriter = new IndexWriter(directory, new IndexWriterConfig(new IKAnalyzer()));

// 3、读取磁盘上的文件，对应每个文件创建一个文档对象。
        File dir = new File("E:\\java学习\\Lucene\\searchsource");
        File[] files = dir.listFiles();
        for (File file : files) {
            //取文件名
            String fileName = file.getName();
            //文件的路径
            String filePath = file.getPath();
            //文件内容
            String fileContent = FileUtils.readFileToString(file, "utf-8");
            //文件的大小
            long fileSize = FileUtils.sizeOf(file);
            //4向文档对象中添加域
            //创建Field,域名、值、是否存储
            Field fieldName = new TextField("name", fileName, Field.Store.YES);
// Field fieldPath = new TextField("path", filePath, Field.Store.YES);
            Field fieldPath = new StoredField("path", filePath);
            Field fieldContent = new TextField("content", fileContent, Field.Store.YES);
// Field fieldSize = new TextField("size", fileSize + "", Field.Store.YES);
            //用于做运算
            Field fieldSizeValue = new LongPoint("size", fileSize);
            //用于存储
            StoredField fieldSizeStore = new StoredField("size", fileSize);

            //创建文档对象
            Document document = new Document();
            document.add(fieldName);
            document.add(fieldPath);
            document.add(fieldSizeStore);
            document.add(fieldSizeValue);
            document.add(fieldContent);
            //5、把文档对象写入索引库
            indexWriter.addDocument(document);
        }

// 6、关闭indexwriter对象
        indexWriter.close();

    }



    /\*\*
 \* 添加文档
 \*/
    @Test
    public void addDocument() throws IOException {
        //创建indexWriter部分已经提取出去
        //创建一个Document对象
        Document document = new Document();
        //向document对象中添加域。
        //不同的document可以有不同的域，同一个document可以有相同的域。
        document.add(new TextField("name", "新添加的文档", Field.Store.YES));
        //不存储，但是可以搜索到的，存储不存储影响的是能不能取出来该索引
        document.add(new TextField("content", "新添加的文档的内容", Field.Store.NO));
        //LongPoint创建索引
        document.add(new LongPoint("size", 1000l));
        //StoreField存储数据
        document.add(new StoredField("size", 1000l));
        //不需要创建索引的就使用StoreField存储
        document.add(new StoredField("path", "d:/temp/1.txt"));
        //添加文档到索引库
        indexWriter.addDocument(document);


    }


    @Test
    public void deleteAllDocuments() throws IOException {
        //删除全部文档
        indexWriter.deleteAll();
    }


    @Test
    public void deleteDocumentByQuery() throws IOException {
        /\*//创建一个查询条件
 Query query = new TermQuery(new Term("filename", "apache"));
 //根据查询条件删除
 indexWriter.deleteDocuments(query);
\*/
        indexWriter.deleteDocuments(new Term("name", "添加"));
    }

    /\*\*
 \* 修改文档，原理就是先删除后添加。
 \*/
    @Test
    public void updateDocuments() throws IOException {
//创建一个Document对象
        Document document = new Document();
        //向document对象中添加域。
        //不同的document可以有不同的域，同一个document可以有相同的域。
        document.add(new TextField("name", "要更新的文档", Field.Store.YES));
        document.add(new TextField("content", " Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包," +
                "它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。",
                Field.Store.YES));
        indexWriter.updateDocument(new Term("name", "spring"), document);

    }


    /\*\*
 \* 资源的释放
 \*/
    @After
    public void destory() throws IOException {
        //关闭indexwriter
        indexWriter.close();
    }
}

索引库创建完成后，可以使用luke查看索引库中的内容。

SearchIndex类：

/\*\*
 \* 索引库查询,
 \* 步骤：
 \* 1、创建一个Director对象，指定索引库的位置
 \* 2、创建一个IndexReader对象
 \* 3、创建一个IndexSearcher对象，构造方法中的参数indexReader对象。
 \* 4、创建一个Query对象，TermQuery
 \* 5、执行查询，得到一个TopDocs对象
 \* 6、取查询结果的总记录数
 \* 7、取文档列表
 \* 8、打印文档中的内容
 \* 9、关闭IndexReader对象
 \*/
public class SearchIndex {
    private IndexReader indexReader;
    private IndexSearcher indexSearcher;

    @Before
    public void init() throws IOException {
        indexReader = DirectoryReader.open(FSDirectory.open(new File("C:\\temp\\index").toPath()));
        indexSearcher = new IndexSearcher(indexReader);
    }

    /\*\*
 \* TermQuery不使用分析器所以建议匹配不分词的Field域查询
 \* 根据关键词进行查询。
 \*/
    @Test
    public void testTermQuery() throws Exception {
        Query query= new TermQuery(new Term("content", "lucene"));
        printResult(query);
    }



    /\*\*
 \* 范围查询
 \* @throws IOException
 \*/
    @Test
    public void testRangeQuery() throws IOException {
        Query query = LongPoint.newRangeQuery("size", 0l, 100l);
        printResult(query);
    }

    public void printResult(Query query) throws IOException {
        // 5、执行查询，得到一个TopDocs对象,传入的query对象和最多返回多少条查询数据
        TopDocs topDocs = indexSearcher.search(query, 10);
// 6、取查询结果的总记录数
        System.out.println(topDocs.totalHits);
        // 7、取文档列表
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
// 8、打印文档中的内容
        for (ScoreDoc doc : scoreDocs) {
            //取文档id
            int docId = doc.doc;
            //根据id取文档对象
            Document document = indexSearcher.doc(docId);


为了做好运维面试路上的助攻手，特整理了上百道 **【运维技术栈面试题集锦】** ，让你面试不慌心不跳，高薪offer怀里抱！

这次整理的面试题，**小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。**

![](https://img-blog.csdnimg.cn/img_convert/ea1a781e7adb3c37c2b1820ad34a8ed0.png)

本份面试集锦涵盖了

*   **174 道运维工程师面试题**
*   **128道k8s面试题**
*   **108道shell脚本面试题**
*   **200道Linux面试题**
*   **51道docker面试题**
*   **35道Jenkis面试题**
*   **78道MongoDB面试题**
*   **17道ansible面试题**
*   **60道dubbo面试题**
*   **53道kafka面试**
*   **18道mysql面试题**
*   **40道nginx面试题**
*   **77道redis面试题**
*   **28道zookeeper**

**总计 1000+ 道面试题， 内容 又全含金量又高**

*   **174道运维工程师面试题**

> 1、什么是运维?

> 2、在工作中，运维人员经常需要跟运营人员打交道，请问运营人员是做什么工作的?

> 3、现在给你三百台服务器，你怎么对他们进行管理?

> 4、简述raid0 raid1raid5二种工作模式的工作原理及特点

> 5、LVS、Nginx、HAproxy有什么区别?工作中你怎么选择?

> 6、Squid、Varinsh和Nginx有什么区别，工作中你怎么选择?

> 7、Tomcat和Resin有什么区别，工作中你怎么选择?

> 8、什么是中间件?什么是jdk?

> 9、讲述一下Tomcat8005、8009、8080三个端口的含义？

> 10、什么叫CDN?

> 11、什么叫网站灰度发布?

> 12、简述DNS进行域名解析的过程?

> 13、RabbitMQ是什么东西?

> 14、讲一下Keepalived的工作原理?

> 15、讲述一下LVS三种模式的工作过程?

> 16、mysql的innodb如何定位锁问题，mysql如何减少主从复制延迟?

> 17、如何重置mysql root密码?

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友，可以点击这里获取！](https://bbs.youkuaiyun.com/topics/618635766)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

13、RabbitMQ是什么东西?

> 14、讲一下Keepalived的工作原理?

> 15、讲述一下LVS三种模式的工作过程?

> 16、mysql的innodb如何定位锁问题，mysql如何减少主从复制延迟?

> 17、如何重置mysql root密码?

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友，可以点击这里获取！](https://bbs.youkuaiyun.com/topics/618635766)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**