数据价值在线化丨TiDB 在企查查数据中台的应用及 v7.1 版本升级体验

原创

于 2024-02-23 17:56:27 发布 · 1.8k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#tidb #开源 #数据库 #分布式 #TiDB

本文详细讲述了企查查如何从MySQL迁移到TiDB，构建实时数仓框架，利用TiDB的分布式架构、MySQL兼容性及周边工具，实现数据在线化处理。文章分享了TiDB的使用体验、版本升级策略和社区支持，以及TiDB在企查查数据中台中的应用价值和挑战解决过程。

本文介绍了企查查在数据中台建设中使用 TiDB 的经验和应用。通过从 MySQL 到 TiDB 的迁移，企查查构建了基于 TiDB+ Flink 的实时数仓框架，充分利用了 TiDB 的分布式架构、MySQL 兼容性和完善的周边工具等特性，实现了数据的在线化处理。2023 年 9 月，企查查的 TiDB 数据库已升级至 v7.1.1 版本。文章还分享了企查查在使用 TiDB 过程中的一些好用特性和版本升级经验，包括 TiDB 开源社区的活跃以及 TiDB 的稳定性对其决策的重要性。

本文作者赵河、王云鹤，企查查大数据架构部 DBA 团队。

企查查是一家专注于企业信用信息服务的科技公司，依托大数据、人工智能等技术，为企业提供全面、准确、及时的企业信用信息，助力企业降本增效、风险防控。2023 年 5 月，企查查正式发布全球首款商查大模型——“知彼阿尔法”。该模型基于企查查覆盖的全球企业信用数据进行训练，可以为司法、金融、风控、政务等人士提供多维度数据服务。

从 MySQL 到 TiDB 的升级之路

数据是企查查业务的核心，需要对海量数据进行清洗、分析、挖掘，才能充分释放数据价值。在引入 TiDB 之前，企查查使用 MySQL 数据库。MySQL 是一款受欢迎的开源关系型数据库，但存在单机性能瓶颈。当数据量达到一定规模后，垂直扩容只能有限提升性能，在高并发写入和复杂 SQL 查询等场景下，性能会受到单机性能的限制。

由于 MySQL 是单机数据库，在业务不中断的情况下，只能采用热备。但是，随着数据量的增长，MySQL 的热备操作会变得越来越慢，对数据库的性能产生较大影响。此外，热备数据的恢复速度也较慢。在企查查的数据流向中，爬虫采集到的数据需要先存储到数据库中，然后再由 Flink 进行清洗。由于 MySQL 不支持将数据直接投