参考博客:https://blog.youkuaiyun.com/yjt520557/article/details/85326208
废话不多说,直接上代码
排坑
- data-config的deltaQuery语句,过滤条件 ${dataimporter.last_index_time}需要和数据库字段类型对应
- data-config文件中ORACLE数据库的column必须为大写
- data-config中的${dataimporter.last_index_time}为固定写法,不必纠结于你新建的文件是dataimport,而取参用的是dataimporter.
- dataimport里的last_index_time时间和当前时间相差8小时,我这里是直接在日期上加了8小时
优化
solr快速入门参考博客:https://blog.youkuaiyun.com/loumoxiaozi/article/details/81186916#113-initparams
1、 将所有只用于搜索的,而不需要作为结果的field(特别是一些比较大的field)的stored设置为false;
2、 将不需要被用于搜索的,而只是作为结果返回的field的indexed设置为false;
3、 删除所有不必要的copyField声明为了索引字段的最小化和搜索的效率;
4、 将所有的 text fields的index都设置成false,然后使用copyField将他们都复制到一个总的 text field上,然后进行搜索。
首先配置data-config.xml,添加相关sql语句
<dataConfig>
<dataSource driver="oracle.jdbc.OracleDriver" url="jdbc:oracle:thin:@127.0.0.1:1521/XE" user="cuijie" password="cuijie" />
<document>
<entity name="users" pk="ID" query="select * from users"
deltaQuery="select ID from USERS where CREATEDATE > to_date('${dataimporter.last_index_time}','yyyy-mm-dd HH24:MI:SS')+8/24"
deltaImportQuery="select * from USERS where ID='${dataimporter.delta.ID}'">
<field column="ID" name="userId"/>
<field column="ACCOUNT" name="account"/>
<field column="PASSWORD" name="userPass"/>
<field column="CREATETIME" name="createtime"/>
</entity>
</document>
</dataConfig>
数据库对应的数据和字段
配置好data-config之后,就是从我参考的博客里下有个百度云盘连接,下载apache-solr-dataimportscheduler-1.4.Jar
参考博客:https://blog.youkuaiyun.com/yjt520557/article/details/85326208
下载链接:https://pan.baidu.com/s/1rUcIYsiQrOyHbXem0jkNjQ 提取码6hts
下载下来之后,别忘记给原作者点赞喔~
然后将jar包放入solr解压文件的对应的lib文件夹中,
例如我的是: D:\solr-7.7.1\server\solr-webapp\webapp\WEB-INF\lib
然后在D:\solr-7.7.1\server\solr-webapp\webapp\WEB-INF下找到web.xml文件,添加监听器
<listener>
<listener-class>
org.apache.solr.handler.dataimport.scheduler.ApplicationListener
</listener-class>
</listener>
然后,在 D:\solr-7.7.1\server\solr文件下新建conf文件夹,在文件夹中新建 dataimport.properties文件,
这里提醒一下各位,参考链接的作者配置的是全量导入,我这里设置的是增量导入
#################################################
# #
# dataimport scheduler properties #
# #
#################################################
# to sync or not to sync
# 1 - active; anything else - inactive
syncEnabled=1
# which cores to schedule
# in a multi-core environment you can decide which cores you want syncronized
# leave empty or comment it out if using single-core deployment
# 修改成你所使用的core
syncCores=oneCore
# solr server name or IP address
# [defaults to localhost if empty]
server=localhost
# solr server port
# [defaults to 80 if empty]
# solr的端口
port=8983
# application name/context
# [defaults to current ServletContextListener's context (app) name]
webapp=solr
# URL params [mandatory]
# remainder of URL
# 这里改成下面的形式,solr同步数据时请求的链接,原作者是full-import 我这里改成了delta-import
params=/dataimport?command=delta-import&clean=false&commit=true
# schedule interval
# number of minutes between two runs
# [defaults to 30 if empty]
#这里是设置定时任务的,单位是分钟,也就是多长时间你检测一次数据同步,根据项目需求修改
# 开始测试的时候为了方便看到效果,时间可以设置短一点
interval=1
# 重做索引的时间间隔,单位分钟,默认7200,即5天;
# 为空,为0,或者注释掉:表示永不重做索引
#reBuildIndexInterval=7200
# 重做索引的参数
reBuildIndexParams=/select?qt=/dataimport&command=full-import&clean=true&commit=true
# 重做索引时间间隔的计时开始时间,第一次真正执行的时间=reBuildIndexBeginTime+reBuildIndexInterval*60*1000;
# 两种格式:2012-04-11 01:00:00 或者 01:00:00,后一种会自动补全日期部分为服务启动时的日期
reBuildIndexBeginTime=01:00:00
之后重启solr,在数据库中新增两条数据,等待一分钟之后,再查询,新增的数据就自动被solr索引上了