上篇文章我们介绍了全量更新solr索引,但是在数据量较大时,频繁的更新索引会消耗系统性能,如果更新频率较低,则会影响短时的数据准确性,所以,更新时间的间隔是个很难界定。增量索引解决了这个问题,我们可以在较短的时间内只更新那些变化的数据,这样就避免了大批量的数据更新,因为数据量小,我们可以设置较短的时间间隔,大幅度的提高了用户体验度。本文介绍增量索引。
一 配置数据源
1.1 数据库
为了便于同全量索引比较,我们使用同一个数据库和数据表。增量索引的关键是找到那些修改的数据,所以需要添加一个标识符,数据类型是时间戳,字段命名为updateTime,即四个字段,id,title,content,updateTime,其中updateTime数据类型为TimeStamp,默认值为CURRENT_TIMESTAMP.结构如下:
solr本身提供了一个last_index_time,这个字段记录了每条记录导入的时间(包括增量和全量导入),我们只需要将updateTime和last_index_time比较即可得到上一次索引更新以后变化的记录。
1.2 配置data-config.xml
全量索引继续保留,所以原来的配置不需要修改,我们只需要添加增量索引的配置。首先,我们在索引中用到了updateTime字段,所以需要添加updateTime字段的索引;其次,增量索引的关键就是找到更新的那些数据,通过上边分析,我们首先需要使用last_index_time字段找到更新的记录代码如下:
deltaQuery="select id from blog where updateTime > '${dataimporter.last_index_time}'"
最后,我们根据获得的id更新索引即可,代码如下:
deltaImportQuery="select * from blog where id='${dih.delta.id}'"
最终的配置如下:
<dataConfig>
<dataSource name="jfinal_demo" type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://192.168.21.20:3306/jfinal_demo" user="root" password="123456" batchSize="-1" />
<document name="testDoc">
<entity name="blog" dataSource="jfinal_demo" pk="id"
query="select * from blog"
deltaImportQuery="select * f