Solr 4.x定时、实时增量索引 - 修改、删除和新增索引

Solr增量索引配置

          开始之前,可以参考上篇博文全量索引-数据导入并索引:

http://josh-persistence.iteye.com/admin/blogs/2017059

 

          Solr增量索引配置

 

一、开始增量索引前的准备工作。

1、认识data-config.xml中相关属性

       <!--  transformer 格式转化:HTMLStripTransforme表示 索引中将忽略HTML标签   ---> 

       <!--  query:  查询数据库表符合记录数据   ---> 
       <!--  deltaQuery:增量索引   查询主键ID    --->    注意这个query只返回ID字段 
       <!--  deltaImportQuery:增量索引   查询导入的数据  ---> 
       <!--  deletedPkQuery:增量索引  删除主键ID查询  ---> 注意这个只返回ID字段 

最主要的是我们要知道这样一个事实: 

 1) last_index_time是DataImportHandler的一个默认字段,(可查看conf目录下的dataimporter.properties文件)

  2) 我们可以在任何SQL中引用,该字段用于表明上次做full import或者是delta import(增量导入)的最后一次时间。

 

2、数据库配置注意事项

1)、如果只涉及添加与修改业务,那么数据库里只需添加一个类型为timpstamp,默认值为当前系统时间的字段 :CURRENT_TIMESTAMP(mysql) 

 

2)、如果还涉及删除业务,那么数据里就需额外再多添加一个字段isdelete,int类型的用0,1来标识,此条记录是否被删除,当然也可以用其他字段标识,ture或false都可以 

 

 3、dataimporter.properties / {corename}_dataimporter.properties

在C:\solr-tomcat\solr\item\conf中查看是否存在文件dataimporter.properties,如果没有,则新建该文件。

这个配置文件很重要,它是用来记录索引的最新一次修改时间的,通过该配置文件可以找出新增的、修改的或者删除的记录。相关实例:

 

在data-config中添加如下配置信息。

<dataConfig>    
   <!--- 此段话配置的是一个MySQL的数据源,(数据源也可以配置在solrconfig.xml中)  --->  <dataSource name="activityDB" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/>  
       <document>          
          <entity pk="ID"  dataSource="activityDB" name="myentity"
            query="select * from myentity WHERE isdelete=0"  
         deltaQuery="select ID  from myentity where my_date >'${dih.last_index_time}'"  
            deletedPkQuery="select ID from myentity where isdelete=1"
            deltaImportQuery="select * from myentity where ID='${dih.delta.id}">  
          
          <!--  ID指定大写的,与上面语句中的对应起来---->       
          <field column="ID" name="id"/>  
          <field column="name" name="name"/>  
          <field column="address" name="address"/>  
          <field column="age" name="age"/>  
          <field column="my_date" name="my_date"/>  
          <field column="isdelete" name="isdelete"/>  

        </entity>
   </document>
</dataConfig>

 

说明:

 

<!-- pk="ID" 必须,因为其中的增量索引查询主键ID时需要  -->  
           
           <!--  dataSource="acitvityDB" 这个引用名字是引用上面数据源的名字 -->  
           
           <!--  name="myentity" 存在多个实体时,这个名字必须唯一 -->  
           
           <!--  query:用于全量导入而非增量导入
           query="select * from myentity WHERE isdelete=0  
           query查询是指查询出表里所有的符合条件的数据,因为我测试的有删除业务,所以  
           where后面有一个限定条件isdelete=0,意思为查询未被删除的数据    
           --> 

          <!--  deltaQuery : 用于增量导入且只返回ID
             deltaQuery="select ID  from myentity where my_date >
                 '${dih.last_index_time}'"  
             deltaQuery的意思是,查询出所有经过修改的记录的ID  
             可能是修改操作,添加操作,删除操作产生的   
          -->  

         <!--  deletedPkQuery : 用于增量导入且只返回ID
          deletedPkQuery="select ID from myentity where isdelete=1"    
          此操作只查询那些数据库里伪删除的数据的ID(即isdelete标识为1的数据)  
          solr通过它来删除索引里面对应的数据 
         --> 
          
         <!--  deltaImportQuery: 增量导入起作用,可以返回多个字段的值,一般情况下,都是返回所有字段的列
       deltaImportQuery="select * from myentity where ID='${dih.delta.ID}'"
      deltaImportQuery查询是获取以上两步的ID,然后把其全部数据获取,根据获取的数据  
       对索引库进行更新操作,可能是删除,添加,修改        
      -->
 

 注:如果有必要,则可以在schema.xml中添加一个timestamp的field

<field name="timestamp" type="date" indexed="true" stored="true" default="NOW" />

 

 

做了以上配置后,可以设置linux的cron job或者Spring 的TaskSchuduler或者Cron Job后,可以定时发url:

http://localhost:8983/solr/dataimport?command=delta-import 去做增量索引。

更多关于Solr做增量索引的说明文档:http://wiki.apache.org/solr/DataImportHandler

 

当然也可以用Solr自带的Scheduler来做增量索引:

http://wiki.apache.org/solr/DataImportHandler#Scheduling

 

 

 

本项目采用C++编程语言结合ROS框架构建了完整的双机械臂控制系统,实现了Gazebo仿真环境下的协同运动模拟,并完成了两台实体UR10工业机器人的联动控制。该毕业设计在答辩环节获得98分的优异成绩,所有程序代码均通过系统性调试验证,保证可直接部署运行。 系统架构包含三个核心模块:基于ROS通信架构的双臂协调控制器、Gazebo物理引擎下的动力学仿真环境、以及真实UR10机器人的硬件接口层。在仿真验证阶段,开发了双臂碰撞检测算法轨迹规划模块,通过ROS控制包实现了末端执行器的同步轨迹跟踪。硬件集成方面,建立了基于TCP/IP协议的实时通信链路,解决了双机数据同步运动指令分发等关键技术问题。 本资源适用于自动化、机械电子、人工智能等专业方向的课程实践,可作为高年级课程设计、毕业课题的重要参考案例。系统采用模块化设计理念,控制核心与硬件接口分离架构便于功能扩展,具备工程实践能力的学习者可在现有框架基础上进行二次开发,例如集成视觉感知模块或优化运动规划算法。 项目文档详细记录了环境配置流程、参数调试方法实验验证数据,特别说明了双机协同作业时的时序同步解决方案。所有功能模块均提供完整的API接口说明,便于使用者快速理解系统架构并进行定制化修改。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除
【微电网】【创新点】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研究(Matlab代码实现)内容概要:本文围绕基于非支配排序的蜣螂优化算法(NSDBO)在微电网多目标优化调度中的应用展开研究,提出了一种改进的智能优化算法以解决微电网系统中经济性、环保性能源效率等多重目标之间的权衡问题。通过引入非支配排序机制,NSDBO能够有效处理多目标优化中的帕累托前沿搜索,提升解的多样性收敛性,并结合Matlab代码实现仿真验证,展示了该算法在微电网调度中的优越性能实际可行性。研究涵盖了微电网典型结构建模、目标函数构建及约束条件处理,实现了对风、光、储能及传统机组的协同优化调度。; 适合人群:具备一定电力系统基础知识Matlab编程能力的研究生、科研人员及从事微电网、智能优化算法应用的工程技术人员;熟悉优化算法与能源系统调度的高年级本科生亦可参考。; 使用场景及目标:①应用于微电网多目标优化调度问题的研究与仿真,如成本最小化、碳排放最低与供电可靠性最高之间的平衡;②为新型智能优化算法(如蜣螂优化算法及其改进版本)的设计与验证提供实践案例,推动其在能源系统中的推广应用;③服务于学术论文复现、课题研究或毕业设计中的算法对比与性能测试。; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注NSDBO算法的核心实现步骤与微电网模型的构建逻辑,同时可对比其他多目标算法(如NSGA-II、MOPSO)以深入理解其优势与局限,进一步开展算法改进或应用场景拓展。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值