ElasticSearch(8)

本文介绍了如何使用阿里Canal中间件实现MySQL到Elasticsearch的准实时增量同步。通过开启MySQL的binlog,配置Canal部署和适配器,以及自定义消息消费逻辑,确保在数据库发生变化时,Elasticsearch中的索引能够及时更新,以满足大数据量场景的性能需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前我们已经介绍过全量索引和增量索引了,对于增量索引,我们使用了logstash定时,1分钟扫描一次,虽然可以解决一些问题,但是对于大数据量的,可能并不适用,因此再介绍一个新的索引构建中间件。

我们对增量构建的要求:准实时性(可以理解为异步),性能要求,编程简化要求。

关于阿里canal,可以理解为一个消息管道,管道中有一个source可以理解为mysql数据库,target可以理解为其他存储,在这就是es。

可以看下文档https://github.com/alibaba/canal,里面有介绍关于原理方面。

 首先需要开启mysql的binary log,默认是关闭的,在mysql目录下,my.ini:

在最后加上:

#因为开启binary log是为了同步分布式数据使用的,所以每个节点都要有id
server-id=1
#mysql使用行方式做binary log存储
binlog_format=ROW
#binary log文件相对路径
log_bin=mysql_bin

然后重启,查看命令:show variables like 'log_bin';

这样,mysql就会将 binary log写入指定的磁盘文件。

接下来,需要有一个复制权限的账户给canal,

CREATE USER canal IDENTIFIED BY 'canal';  
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%' indentified by 'canal';
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'localhost' indentified by 'canal';
FLUSH PRIVILEGES;

在上面网址下载canal.deployer,然后打开conf\example\instance.properties

## mysql serverId
canal.instance.mysql.slaveId = 1234
#position info,需要改成自己的数据库信息
canal.instance.master.address = 127.0.0.1:3306 
canal.instance.master.journal.name = 
canal.instance.master.position = 
canal.instance.master.timestamp = 
#canal.instance.standby.address = 
#canal.instance.standby.journal.name =
#canal.instance.standby.position = 
#canal.instance.standby.timestamp = 
#username/password,需要改成自己的数据库信息
canal.instance.dbUsername = canal  
canal.instance.dbPassword = canal
canal.instance.defaultDatabaseName =
canal.instance.connectionCharset = UTF-8
#table regex
canal.instance.filter.regex = .\*\\\\..\*

然后启动,没问题即可。

接下来下载canal adapter,1.3的版本不支持es6,所以可以把源码下下来,把pom中的版本号改掉再打包就好。

conf/application.yml中将下面注释放开,因为cana

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值