初识Lucene(1)


索引和搜索流程

创建 索引过程:
- 确定原始文档
- 获得文档(IO流)
- 构建文档对象(POJO)
- 分析文档,分词
- 创建索引

索引库由索引和文档对象组成

搜索过程:
  • 用户通过搜索接口输入关键字
  • 创建查询
  • 执行搜索
  • 从索引库搜索
  • 渲染搜索结果,即返回页面或者json

创建文档对象:

文档ID是文档的唯一编号,ID从0开始,自动加一。
索引前需要将原始内容创建成文档,文档中包含中域,域中存储内容。
每个文档可以有多个域,不同的文档可以有不同的域(域名或域值相同),同一个文档可以有相同的域。
域的属性:是否分析/是否索引/是否存储
用不同域的子类可以实现我们不同的需求.
StringField:字符串,不分析,存储整个串,决定是否存储
LongField:Long,分析,索引,决定是否存储
StoreField:多种类型,不分析,不索引,存储
TextField:字符串,流分析,索引,决定是否存储


分析文档

英语中:在原始文档中提取单词,字母转化为小写,去除标点符号,去除停用词等过程生成最终的词汇单元。不同域中拆分出来相同的单词是不同的term,term中包含文档的域名以及单词。内容。即内容相同域不同的话term不同。不能在域中找在别的域中存在的内容,


创建索引

当不同种存在相同的索引时,会记录对应的文档对象,查询时会将相应的文档对象返回。注意返回文档对象的顺序根据索引数量而定。
倒排索引结构、反向索引结构:创建索引是对语汇单元索引,通过词语找文档。索引即词汇表,规模较小,文档集合较大。


  • Directory:索引库存放位置
  • Analyzer:分析器
  • indexReader:需要指定查询位置,也就是Directory,IO流
  • indexsearcher:指定indexReader,可以搜索
  • TermQuery:指定查询的域和查询的关键字
    创建索引代码:
        Directory directory = FSDirectory.open(new File("索引存放位置"));
        //分析器 
        Analyzer analyzer = new IKAnalyzer();
        IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer);
        //将文档写入索引库,此过程进行索引创建
        IndexWriter indexWriter = new IndexWriter(directory, config);
        File f = new File("需要检索的文件夹");
        File[] listFiles = f.listFiles();
        for (File file : listFiles) {
            Document document = new Document();
            // 文件名称
            String file_name = file.getName();
            Field fileNameField = new TextField("fileName", file_name, Store.YES);
            // 文件大小
            long file_size = FileUtils.sizeOf(file);
            Field fileSizeField = new LongField("fileSize", file_size, Store.YES);
            // 文件路径
            String file_path = file.getPath();
            Field filePathField = new StoredField("filePath", file_path);
            // 文件内容
            String file_content = FileUtils.readFileToString(file);
            Field fileContentField = new TextField("fileContent", file_content, Store.NO);
            //往文档添加域
            document.add(fileNameField);
            document.add(fileSizeField);
            document.add(filePathField);
            document.add(fileContentField);
            // 第四步:使用indexwriter对象将document对象写入索引库,此过程进行索引创建。并将索引和document对象写入索引库。
            indexWriter.addDocument(document);

        }
        // 关闭IndexWriter。
        indexWriter.close();

查询索引代码:
- Directory:索引库存放位置
- indexReader:需要指定查询位置,也就是Directory,IO流
- indexsearcher:指定indexReader,可以搜索
- TermQuery:指定查询的域和查询的关键字
- IndexSearcher有四种重载方法,可以添加过滤策略/排序策略/组合条件查询.

        Directory directory = FSDirectory.open(new File("索引库位置"));
        IndexReader indexReader = DirectoryReader.open(directory);
        //IndexSearcher是真正的搜索执行者
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);
        //决定域和查询的关键字
        Query query = new TermQuery(new Term("fileName", "lucene"));
        //查询头部的哪几个文档
        TopDocs topDocs = indexSearcher.search(query, 10);
        //评分之后的文档
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        for (ScoreDoc scoreDoc : scoreDocs) {
            //拿到文档的ID
            int doc = scoreDoc.doc;
            Document document = indexSearcher.doc(doc);
            String fileName = document.get("fileName");
            String fileContent = document.get("fileContent");
            String fileSize = document.get("fileSize");
            String filePath = document.get("filePath");
        }
        //关闭
        indexReader.close();

内容概要:本文是一份针对2025年中国企业品牌传播环境撰写的《全网媒体发稿白皮书》,聚焦企业媒体发稿的策略制定、渠道选择与效果评估难题。通过分析当前企业面临的资源分散、内容同质、效果难量化等核心痛点,系统性地介绍了新闻媒体、央媒、地方官媒和自媒体四大渠道的特点与适用场景,并深度融合“传声港”AI驱动的新媒体平台能力,提出“策略+工具+落地”的一体化解决方案。白皮书详细阐述了传声港在资源整合、AI智能匹配、舆情监测、合规审核及全链路效果追踪方面的技术优势,构建了涵盖曝光、互动、转化与品牌影响力的多维评估体系,并通过快消、科技、零售等行业的实战案例验证其有效性。最后,提出了按企业发展阶段和营销节点定制的媒体组合策略,强调本土化传播与政府关系协同的重要性,助力企业实现品牌声量与实际转化的双重增长。; 适合人群:企业市场部负责人、品牌方管理者、公关传播从业者及从事数字营销的相关人员,尤其适用于初创期至成熟期不同发展阶段的企业决策者。; 使用场景及目标:①帮助企业科学制定媒体发稿策略,优化预算分配;②解决渠道对接繁琐、投放不精准、效果不可衡量等问题;③指导企业在重大营销节点(如春节、双11)开展高效传播;④提升品牌权威性、区域渗透力与危机应对能力; 阅读建议:建议结合自身企业所处阶段和发展目标,参考文中提供的“传声港服务组合”与“预算分配建议”进行策略匹配,同时重视AI工具在投放、监测与优化中的实际应用,定期复盘数据以实现持续迭代。
先展示下效果 https://pan.quark.cn/s/987bb7a43dd9 VeighNa - By Traders, For Traders, AI-Powered. Want to read this in english ? Go here VeighNa是一套基于Python的开源量化交易系统开发框架,在开源社区持续不断的贡献下一步步成长为多功能量化交易平台,自发布以来已经积累了众多来自金融机构或相关领域的用户,包括私募基金、证券公司、期货公司等。 在使用VeighNa进行二次开发(策略、模块等)的过程中有任何疑问,请查看VeighNa项目文档,如果无法解决请前往官方社区论坛的【提问求助】板块寻求帮助,也欢迎在【经验分享】板块分享你的使用心得! 想要获取更多关于VeighNa的资讯信息? 请扫描下方二维码添加小助手加入【VeighNa社区交流微信群】: AI-Powered VeighNa发布十周年之际正式推出4.0版本,重磅新增面向AI量化策略的vnpy.alpha模块,为专业量化交易员提供一站式多因子机器学习(ML)策略开发、投研和实盘交易解决方案: :bar_chart: dataset:因子特征工程 * 专为ML算法训练优化设计,支持高效批量特征计算与处理 * 内置丰富的因子特征表达式计算引擎,实现快速一键生成训练数据 * Alpha 158:源于微软Qlib项目的股票市场特征集合,涵盖K线形态、价格趋势、时序波动等多维度量化因子 :bulb: model:预测模型训练 * 提供标准化的ML模型开发模板,大幅简化模型构建与训练流程 * 统一API接口设计,支持无缝切换不同算法进行性能对比测试 * 集成多种主流机器学习算法: * Lass...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值