本文介绍了企查查在数据中台建设中使用 TiDB 的经验和应用。通过从 MySQL 到 TiDB 的迁移,企查查构建了基于 TiDB+ Flink 的实时数仓框架 ,充分利用了 TiDB 的分布式架构、MySQL 兼容性和完善的周边工具等特性,实现了数据的在线化处理。2023 年 9 月,企查查的 TiDB 数据库已升级至 v7.1.1 版本。文章还分享了企查查在使用 TiDB 过程中的一些好用特性和版本升级经验,包括 TiDB 开源社区的活跃以及 TiDB 的稳定性对其决策的重要性。
本文作者赵河、王云鹤, 企查查大数据架构部 DBA 团队。

企查查是一家专注于企业信用信息服务的科技公司,依托大数据、人工智能等技术,为企业提供全面、准确、及时的企业信用信息,助力企业降本增效、风险防控。2023 年 5 月,企查查正式发布全球首款商查大模型——“知彼阿尔法”。该模型基于企查查覆盖的全球企业信用数据进行训练,可以为司法、金融、风控、政务等人士提供多维度数据服务。
从 MySQL 到 TiDB 的升级之路
数据是企查查业务的核心,需要对海量数据进行清洗、分析、挖掘,才能充分释放数据价值。在引入 TiDB 之前,企查查使用 MySQL 数据库。MySQL 是一款受欢迎的开源关系型数据库,但存在单机性能瓶颈。当数据量达到一定规模后,垂直扩容只能有限提升性能,在高并发写入和复杂 SQL 查询等场景下,性能会受到单机性能的限制。
由于 MySQL 是单机数据库,在业务不中断的情况下,只能采用热备。但是,随着数据量的增长,MySQL 的热备操作会变得越来越慢,对数据库的性能产生较大影响。此外,热备数据的恢复速度也较慢。在企查查的数据流向中,爬虫采集到的数据需要先存储到数据库中,然后再由 Flink 进行清洗。由于 MySQL 不支持将数据直接投

本文详细讲述了企查查如何从MySQL迁移到TiDB,构建实时数仓框架,利用TiDB的分布式架构、MySQL兼容性及周边工具,实现数据在线化处理。文章分享了TiDB的使用体验、版本升级策略和社区支持,以及TiDB在企查查数据中台中的应用价值和挑战解决过程。
最低0.47元/天 解锁文章
878

被折叠的 条评论
为什么被折叠?



