公司业务在中途由于数据库的压力,要将之前的搜索从DB中查询修改为Elasticsearch中
想法是提供jar 在数据新增和修改的地方调用jar中方法,写入kafka中,再使用consumer 写入ES,为了不造成数据重复,使用主键ID做upert操作
目前流程已经开发完成,查询接口和分词都完成,最后工作是将历史数据从DB中(MYSQL)中最终写入到ES中
有三种方案 :
第一种:写程序,链接MYSQL,批量的写入kakfa中,后续在现有逻辑已经完成,可以好low啊 而且麻烦
第二种:使用kafka的connect 从 mysql 导入 kafka ,kafka的consumer 程序写入ES中
第三种:直接从数据库中写入 ES中,最直接 最省事
直接使用第三种:
查询第三种方案认为靠谱的实现方式有两种
A 使用ElasticSearch-jdbc 组件
B:使用logstash-jdbc 插件
一开始个人认为 elasticsearch-jdbc 会简单一点
安装 elasticsearch-jdbc 最新版本是 elasticsearch-jdbc-2.3.4.1
写脚本:
LIB=/usr/elasticsearch-jdbc-2.3.4.1/lib
BIN=/usr/elasticsearch-jdbc-2.3.4.1/bin/
echo "lib path : ${LIB}"
echo "bin path : ${BIN}"
echo ' {
"type" : "jdbc",
"jdbc" : {
"elasticsearch.cluster":"motor-application",
"url" : "jdbc:mysql://10.33.96.213:3306/motor",
"user" : "root",
"password" : "123456",
"sql" : "SELECT id AS _id,id,title,intro,autherid,logo,background,view,fans,sort,score,dynamic,recommend_flag AS recommendFlag,recommend_sort AS recommendSort,status,unix_timestamp(create_date) AS createDate ,unix_timestamp(update_date) AS updateDate FROM motor_short_topic",
"treat_binary_as_string" : true,
"elasticsearch" : {
"host" : "192.168.136.145",
"port" : 9300
},
"index" : "motor_fans_short_topic",
"type" : "motor_fans_short_topic"
}
}' | java \
-cp "${LIB}/*" \
-Dlog4j.configurationFile="${BIN}\log4j2.xml" \
"org.xbib.tools.Runner" \
"org.xbib.tools.JDBCImporter"
将该文件命名为 es-mysql-import.sh
创建该文件之后是没有可执行权限的 修改 chmod 777 es-mysql-import.sh
执行出现各种错误
错误1:elasticsearch 无可用节点 请检查elasticsearch 的族群名称是否正确
错误2:无法加载执行主类:org.xbib.tools.Runner 请检查路径 红色标注部分
折腾了大半天,还是没法完成,后来实在没办法估计是版本问题,Elasticsearch版本已经是6.0版本,最新的jdbc是2.3.4.1
所有打算另找解决办法
采用logstash-jdbc:
如何安装logstash-input-jdbc插件
首先 logstash-input-jdbc 是 logstash的插件,需要先安装logstash
wget https://artifacts.elastic.co/downloads/logstash/logstash-6.0.0.zip
解压: unzip logstash-6.0.0.zip
logstash-2.3.4/bin 下执行 ./logstash -e ""
输入hello 输出如下 表示 安装成功:
安装 logstash-input-jdbc 插件
logstash-input-jdbc插件是logstash 的一个个插件
使用ruby语言开发。下载插件过程中最大的坑是下载插件相关的依赖的时候下不动,因为国内网络的原因,访问不到亚马逊的服务器。解决办法,改成国内的ruby仓库镜像。此镜像托管于淘宝的阿里云服务器上 :
如果没有安装 gem 的话 安装gem
sudo yum install gem
1,gem sources --add https://ruby.taobao.org/ --remove https://rubygems.org/
2,gem sources -l
*** CURRENT SOURCES ***
https://ruby.taobao.org
# 请确保只有 ruby.taobao.org
如果 还是显示 https://rubygems.org/ 进入 home的 .gemrc 文件
sudo vim ~/.gemrc
手动删除 https://rubygems.org/
2, 修改Gemfile的数据源地址。步骤:
1, whereis logstash # 查看logstash安装的位置, 我的在 /opt/logstash/ 目录
2, sudo vi Gemfile #
修改 source 的值 为: "https://ruby.taobao.org"
3, sudo vi Gemfile.jruby-1.9.lock # 找到 remote 修改它的值为: https://ruby.taobao.org
或者直接替换源这样你不用改你的 Gemfile 的 source。
sudo gem install bundler
$ bundle config mirror.https://rubygems.org https://ruby.taobao.org
安装logstash-input-jdbc
我一共试了三种方法,一开始都没有成功,原因如上,镜像的问题。一旦镜像配置成淘宝的了,理论上随便选择一种安装都可以成功,我用的是第三种。
cd /opt/logstash/
sudo bin/plugin install logstash-input-jdbc
如果成功就成功了。
以上之后 logstash 和 logstash -input -jdbc 插件安装完成
准备 执行脚本: 本人在 logstash-6.0.0下新建conf 文件夹 其中保存了执行的sql脚本和 input的执行脚本文件
分别是 jdbc.sql 和 jdbc.conf文件
文件内容如下:
jdbc.sql:
SELECT id AS _id,
id,title,intro,autherid,logo,background,view,fans,sort,score,dynamic,
recommend_flag AS recommendFlag,recommend_sort AS recommendSort,status,
unix_timestamp(create_date) AS createDate ,unix_timestamp(update_date) AS updateDate
FROM motor_short_topic
jdbc.conf:
input {
stdin {
}
jdbc {
jdbc_connection_string => "jdbc:mysql://10.33.96.213:3306/motor"
jdbc_user => "root"
jdbc_password => "123456"
jdbc_driver_library => "/usr/logstash-6.0.0/lib/mysql-connector-java-5.1.38.jar"
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_paging_enabled => "true"
jdbc_page_size => "50000"
statement_filepath => "/usr/logstash-6.0.0/conf/jdbc.sql"
schedule => "* * * * *"
type => "motor_fans_short_topic"
}
}
filter {
json {
source => "message"
remove_field => ["message"]
}
}
output {
elasticsearch {
hosts => "192.168.136.128:9200"
# port => "9300"
# protocol => "http"
index => "motor_fans_short_topic"
document_id => "%{id}"
# cluster => "motor-application"
}
stdout {
codec => json_lines
}
}
需要注意的是 你需要根据你的数据库类型 将对应的数据库驱动上传到相应位置,然后配置数据库的信息
另外 elasticsearch 的在网上低版本的配置都是 host 和 port 在高版本中修改为了 hosts 了 和ElasticSearch版本配置是同步的,其他注意端口号是 9200 不是 http端口号 9300,根据你的Elasticsearch配置修改
以上工作做完之后 就可以 准备导入数据了
./bin/logstash -f conf/jdbc.conf
执行之后,会将数据库中的数据导入到Elasticsearch中
本人在该过程中参考了 http://blog.youkuaiyun.com/yeyuma/article/details/50240595#quote 这个帖子,在总结的也是从中考取部分文章,安装logstash-input-jdbc 插件的过程请参考该文章,写的十分详细