数字化转型的推进使得越来越多企业正面临前所未有的数据规模,随着商业竞争的日趋加剧,无论是外部的用户还是公司内部的决策已经无法依赖时效性不佳的离线数据分析,需要更实时的数据分析,甚至是对正在发生的交易数据进行分析,以支撑更加敏捷的商业决策。
成为主流趋势的 HTAP
由 Gartner 提出的 HTAP 数据库(混合事务 / 分析处理,Hybrid Transactional/Analytical Processing)成为希望。基于创新的计算存储框架,HTAP 数据库能够在一份数据上同时支撑OLTP 和 OLAP 场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。HTAP 数据库基于分布式架构,支持弹性扩容,可按需扩展吞吐或存储,轻松应对高并发、海量数据场景。当下,由 HTAP 数据库提供的快速分析能力已经成为企业的核心竞争力之一。
业务挑战
智慧芽(PatSnap)是一家科技创新情报 SaaS(软件即服务)服务商,聚焦科技创新情报和知识产权信息化服务两大板块,为全球 50 多个国家超 10000 家科技公司、高校、科研与金融机构提供大数据情报服务。在数据源方面,智慧芽已存储了 1.5 亿多个全球专利数据、1.7 亿多个化学结构数据,以及千万级财务新闻、科技文献、市场报告、投资信息等海量数据。随着业务场景的不断拓展和用户规模的迅速增长,业务运营过程中,智慧芽深度依赖对实时数据的分析和结果呈现,需要进行用户行为分析,提供实时大盘和特定场景的运营数据,对流量和服务的分析也不可或缺。智慧芽原先采用 Segment 与 Redshift 的数据分析架构,仅构建出了ODS 层,数据写入的规则和 schema 不受控制,且需要针对 ODS 编写复杂的 ETL 来按照业务需求进行各类指标的计算来完成上层业务的数据请求。Redshift 中落库数据量大,计算慢(T+1时效),影响对外服务的效率。
TiDB + Flink 实时数仓方案
经过多轮选型和对比测试,智慧芽选用 TiDB + Flink 实时数仓方案拓展数据分析架构体系的能力版

本文介绍了一家科技创新情报服务商智慧芽采用TiDB+Flink实时数仓方案,实现秒级实时数据分析的过程。该方案克服了原有数据分析架构的局限性,显著提升了数据处理效率和业务响应速度。
最低0.47元/天 解锁文章
880

被折叠的 条评论
为什么被折叠?



