简介
Solr支持很多种创建索引的方式,包括网页,xml以及数据库,因为我这边做的是企业级的搜索,所以用的是数据库建立索引。其实从数据库建立索引,很大程度上取决于原来的数据库设计。
从数据库建立索引,solr官方是提供一个工具的—Data Import Handler。在下载的solr中可以找到相关的jar包:
solr-dataimporthandler-4.9.0.jar
solr-dataimporthandler-extras-4.9.0.jar
将这两个jar包添加进web-inf/lib中
Solr/example中有example-DIH的项目,用了hsqldb作为数据库演示了DIH的使用。读者有兴趣可以去看下,这里就介绍我的配置方法。
DIH还支持增量索引,即在上次建立索引的基础上,只导入增量的数据。这个需要数据表设计的比较好,能够有字段区分,比如创建日期。这里我并没有使用增量索引。
Jndi配置
Jndi有两种配置方法,第一种是在tomcat中配置,跟普通的jndi配置并没有什么区别。
另外一种则是在前面博客中说过的$TOMCAT_HOME\conf\Catalina\localhost\solr.xml中配置,因为我是在开发环境中配置,到生产环境时用的是resin所以,我使用第二种方法配置,之后比较容易移植。
-
<?xml version="1.0" encoding="UTF-8"?>
-
<Context docBase="D:\Installed Applications\apache-tomcat-8.0.9-windows-x64\apache-tomcat-8.0.9\webapps\solr.war" debug="0" crossContext="true" >
-
<Environment name="solr/home" type="java.lang.String" value="D:\Installed Applications\SolrIndex"override="false" />
-
<Resource name="jdbc/songod" auth="Container" type="javax.sql.DataSource" username="root"password="123456" driverClassName="com.mysql.jdbc.Driver" url="jdbc:mysql://127.0.0.1:3306/songod"maxActive="-1"/>
-
</Context>
Solrconfig.xml配置
在每个核心中的solrconfig.xml中配置dataimport:
-
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
-
<lst name="defaults">
-
<str name="config">dbconf/Song.xml</str>
-
</lst>
-
</requestHandler>
配置文件的路径最好使用相对路径。
Db.xml配置
在solrconfig.xml中配置好了db.xml所在的路径后,接下来就来配置db.xml。名字可以随便起,不过建议和core name一致。
先来看个最简单的配置:
-
<dataConfig>
-
<dataSource name="songod" jndiName="java:comp/env/jdbc/songod" type="JdbcDataSource"/>
-
<document>
-
<entity name="SpaceAudio2" dataSource="songod" query="select ArtistID,Name from sod_artist where SpaceID='${SpaceAudio.UserID}'">
-
<field column="ArtistID" name="Artist_ID" />
-
<field column="Name" name="Artist_Name" />
-
-
</entity>
-
</entity>
-
</document>
-
</dataConfig>
dataSource
所使用的数据源,其中name为可选的,主要在使用多数据源时使用。
Document
代表一个文档
Entity
即需要从数据库中取出的数据,支持sql语句,支持多表查询。跨库查询后面会介绍
Field
即接受到的数据,列名column和索引中的名称(必须和schema.xml)中field定义的名字一样。
Schema.xml配置
-
<field name="Artist_ID" type="int" indexed="true" stored="true" multiValued="false" />
-
<field name="Artist_Name" type="text_ik" indexed="true" stored="true" multiValued="false"/>
配置相应的field。
导入和测试
如上图所示,点击excute即可将数据库中的数据导入索引库。
多数据源配置
多数据源是非常有用的一个配置。比如用户的信息存储在user表中,但是用户的分类存储在category表中,这两个表用userid联系起来,那么用多数据源的配置会非常简单。当时我并不知道怎样配置多数据源,结果导致我的SQL非常长,并且如果需要同时用到mysql和oracle时,只能用两个核心来实现(使用多数据源后,可以再一个核心索引库里配置)。
数据源jndi的配置就不说了。
主要是DB.xml的配置:
-
<dataConfig>
-
<dataSource name="songod" jndiName="java:comp/env/jdbc/songod" type="JdbcDataSource"/>
-
<dataSource name="mvbox_space" jndiName="java:comp/env/jdbc/mvbox_space"type="JdbcDataSource"/>
-
-
<document>
-
<entity name="Artist" query="SELECT * FROM (SELECT
-
Tf3.ArtistID,
-
Tf3.`Name`,
-
Tf3.NickName,
-
Tf3.SpaceID,
-
Tf3.Piclink1,
-
Tf3.Piclink2,
-
Tf3.PinYinInitial,
-
Tf3.IconNo,
-
Tf3.AuthDes,
-
Tf3.NameQP,
-
Tf3.MusicChannelPic,
-
Tf3.MVNum,
-
Tf3.SongNum,
-
Tf3.CategoryID,
-
Tf4.PicLink AS MobilePic
-
FROM
-
(
-
SELECT
-
Tf1.ArtistID,
-
Tf1.`Name`,
-
Tf1.NickName,
-
Tf1.SpaceID,
-
Tf1.Piclink1,
-
Tf1.Piclink2,
-
Tf1.PinYinInitial,
-
Tf1.IconNo,
-
Tf1.AuthDes,
-
Tf1.NameQP,
-
Tf1.MusicChannelPic,
-
Tf1.MVNum,
-
Tf1.SongNum,
-
GROUP_CONCAT(DISTINCT Tf2.CategoryID) CategoryID
-
FROM
-
(
-
SELECT
-
T1.ArtistID,
-
T1.`Name`,
-
T1.NickName,
-
T1.SpaceID,
-
T1.Piclink1,
-
T1.Piclink2,
-
T1.PinYinInitial,
-
T1.IconNo,
-
T1.AuthDes,
-
T1.NameQP,
-
T1.MusicChannelPic,
-
T2.MVNum,
-
T2.SongNum
-
FROM
-
sod_artist T1
-
LEFT JOIN (
-
SELECT
-
Ta.ArtistID,
-
Ta.SongNum,
-
Tb.MVNum
-
FROM
-
(
-
SELECT
-
ArtistID,
-
COUNT(ArtistID) SongNum
-
FROM
-
sod_song_artist_relation
-
GROUP BY
-
ArtistID
-
) Ta
-
LEFT JOIN (
-
SELECT
-
T3.ArtistID,
-
COUNT(T3.ArtistID) MVNum
-
FROM
-
(
-
SELECT
-
T1.SongID,
-
T1.ArtistID
-
FROM
-
sod_song_artist_relation T1
-
LEFT JOIN sod_song_ksc T2 ON T1.SongID = T2.SongID
-
WHERE
-
T2.FileMV IS NOT NULL
-
AND T2.FileMV != ''
-
ORDER BY
-
T1.ArtistID
-
) T3
-
GROUP BY
-
T3.ArtistID
-
) Tb ON Ta.ArtistID = Tb.ArtistID
-
) T2 ON T1.ArtistID = T2.ArtistID
-
WHERE
-
T1.State = 1
-
) Tf1
-
LEFT JOIN sod_artist_category_relation Tf2 ON Tf1.ArtistID = Tf2.ArtistID
-
GROUP BY
-
Tf1.ArtistID
-
) Tf3
-
LEFT JOIN (
-
SELECT
-
*
-
FROM
-
mobile_artist_photo
-
WHERE
-
State = 1 AND Type=0
-
) Tf4 ON Tf3.ArtistID = Tf4.ArtistID)Tf5 WHERE Tf5.CategoryID IS NOT NULL AND Tf5.CategoryID != ''">
-
<field column="ArtistID" name="Artist_ID" />
-
<field column="Name" name="Artist_Name" />
-
<field column="NickName" name="Artist_NickName" />
-
<field column="SpaceID" name="Artist_SpaceID" />
-
<field column="Piclink1" name="Artist_Piclink1" />
-
<field column="Piclink2" name="Artist_Piclink2" />
-
<field column="Piclink3" name="Artist_Piclink3" />
-
<field column="PinYinInitial" name="Artist_PinYinInitial" />
-
<field column="IconNo" name="Artist_IconNo" />
-
<field column="AuthDes" name="Artist_AuthDes" />
-
<field column="NameQP" name="Artist_NameQP" />
-
<field column="MusicChannelPic" name="Artist_MusicChannelPic" />
-
<field column="MVNum" name="Artist_MVNum" />
-
<field column="SongNum" name="Artist_SongNum" />
-
<field column="CategoryID" name="Artist_CategoryID" />
-
<field column="MobilePic" name="Artist_MobilePic" />
-
-
<entity name="Artist2" dataSource="mvbox_space" query="select SHOWING from SPACE_USER where USERID=${Artist.SpaceID}">
-
<field column="SHOWING" name="Artist_Showing" />
-
</entity>
-
</entity>
-
</document>
-
</dataConfig>
如上面的配置,其实配置是比较简单的,主要是SQL和数据的组织。可以看到DIH的功能是非常强大的。
定时重做索引
在用solr生成索引时,还有一个需求就是定期重做索引,官方是不支持此功能的,需要使用一个修改过的第三方jar:solr-dataimportscheduler-1.1.jar。
下载地址: https://code.google.com/p/solr-dataimport-scheduler/
但是这个版本会有一个问题,它是使用post请求访问到solr服务器端,并没有制定content-type,导致出错,需要修改源码。
所以附件提供修改后的jar包下载(下载配置后即可使用):
配置:
步骤一:
在solr hom根目录中新建conf文件夹
步骤二:
将solr-dataimportscheduler-1.1.jar包解压缩取出dataimport.properties复制到上一步建立的conf文件夹中。
步骤三:
修改tomcat发布的webapps/solr/WEB-INF/web.xml(或者修改solr.war中WEB-INF/web.xml), 在servlet节点前面增加:
-
<listener>
-
<listener-class>org.apache.solr.handler.dataimport.scheduler.ApplicationListener
-
</listener-class>
-
</listener>
步骤四:
在中配置相关的信息,都比较简单,读者可以自行看文件中的注释就明白了,特别说下重做索引的URL,如下:
# 重做索引的参数
-
reBuildIndexParams=/select?qt=/dataimport&command=full-import&clean=true&commit=true
-
#reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true
两种方式都可以。
加上其他的配置信息,如localhost,port,syncCores等等,其实原理就是根据配置信息生成一个带有重做索引命令的url,然后定期访问该url即可。自己在项目中实现一个定时器也可以实现:)