2017年11月5日,由中国新一代IT产业推进联盟指导,CIO时代学院主办,北京大学软件工程研究所、金融电子化杂志社联合主办,CIO时代APP承办的“第二届中国区块链与金融科技论坛”在北京大学隆重举行。偶数科技创始人兼CEO常雷在活动中带来了题为《基于新一代数据仓库技术的金融科技》的主题演讲。以下为演讲实录:
很高兴今天下午有机会可以跟大家交流一下我们做的一些工作。简单介绍下自己,之前我博士毕业后加入了EMC,当时EMC收购了Greenplum,这是当时一家研发数据库的创业公司。收购后,两个创始人来到中国建立研发中心,大家交流了我当时做的一个数据仓库研究系统,该系统结合了当时流行的大数据技术和关系数据库的技术。这个数据仓库系统也就是Apache HAWQ的前身。交流完后,他们觉得这个数据仓库系统很有意义,希望我能加入Greenplum然后把它产品化,所以我当时就加入了Greenplum,从事HAWQ产品化的工作。
随后几年做的事情,第一组建了中国Greenplum数据库的研发团队,第二把HAWQ从原型系统idea做成了产品。后来,HAWQ在许多世界500强企业里得到了广泛应用。2015年底,HAWQ成为了Apache的开源项目。去年年底,原来的HAWQ核心团队成立了偶数科技,继续专注于HAWQ的企业版研发。这个过程与Hadoop,Spark的发展都比较类似,比如Hadoop在雅虎里面先做出来,后来创始团队出来创建了Hortonworks,这个公司最近上市了。HAWQ的核心团队也是基于开源的产品来做商业化的工作。
今天的会议主题是“金融科技+区块链”。那么,数据库、金融科技和区块链到底是什么关系呢?区块链技术起源于数字货币,但区块链或分布式帐本都是分布式数据库,因此,它的渊源跟数据库关系是非常紧密的。比如做交易、智能合约等,都可以在分布式数据库里找到它的影子。所以,今天从数据库技术的视角来看区块链或金融科技整个的技术背景。希望给大家提供不同的技术视角。
一、数据仓库生态
整个数据生态系统是非常大的产业,因为大数据比较热,全球是1000-2000亿美金的市场。数据生态系统包括数据源、底层系统、上层各种大数据分析应用。一开始数据在数据源产生,比如它是交易型系统,Oracle或者是MySQL等