多年来,大数据技术经历了几轮更迭,在计算、存储、大规模落地等层面均取得了不错的进展,并在不断的成长和成熟,整个生态领域也得到了快速发展。目前,基于分析的大数据计算平台在各大公司发挥着非常重要的基础设施的作用。本期大咖说直播,InfoQ 邀请到了网易数据科学中心总监、网易有数总经理余利华结合他在大数据领域的从业经验,与大家分享大数据技术应用逐步升级的脉络,解读背后的业务需求以及认知陷阱。
关注的大数据技术:流批一体与 AI 应用
InfoQ:您方便简单介绍一下目前在网易负责的主要工作吗?
余利华: 我目前负责网易的数据科学中心,这个部门是网易的大数据部门,为网易内部提供公共的大数据工具,包括大数据平台,以及 BI 等一些基础的通用软件。除了这些工具,我也负责网易的一些公共数据的建设,比如网易跨业务的数据,用户画像等公共的数据资产。目前,我们也有对外的商业化品牌网易有数,把我们用得很好的工具对外商业化输出。
InfoQ:您个人最近一年比较关注的技术或者应用场景是什么?具体原因是什么?
余利华: 最近我们在关注的技术方向主要有以下两个。
第一个是流批一体。我们一直在做数据中台,我关注流批一体技术也是期望未来能够把数据中台从离线变成实时。从需求上来讲,流批一体在技术上要解决好两个问题,一是能解决存储统一的问题。受限于目前的技术,我们存储最新数据的实时表,和我们存储 T+1 数据的离线表通常是两张表,这两张表实际上是代表了一份数据,但是因为在实时性上有要求,通常就存储在不同的系统里,比如说离线的表存储在 Hive 里面,实时的表存储在 Kudu 或者 HBase 里面,这样造成的问题不仅仅是存储和维护的成本上升,使用也很复杂。做流批一体的存储统一就是希望把这样的两张表重新合并在一起,并且还能实现一些增量的消费,这样能够直接实时计算,在存储方向上我们也在做一些预研的项目。
解决完存储统一的问题之后,要解决编程语言的统一。现在采用的 Lambda 架构通常需要写两份代码,实时计算一份代码,离线计算一份代码,未来有可能做到流计算和批计算都用同一套代码,因为目前他们都已经支持了 SQL,未来有可能统一到 SQL。或许未来有可能在数据中台上做少量的变更,做少量的配置,就能帮我们把离线数据中台转成实时的数据中台,流批一体是一个大的方向。
第二个关注的技术方向是 AI 在大数据系统方面应用。首先是自然语言的交互,这也是目前热点的方向,很多的国外企业像微软都在往这个方向发展。自然语言交互是访问大数据比较自然的方式,举个例子,假设我们要问“这款奶粉最近的销售额是多少”,如果大数据系统能够直接告诉你答案,甚至给出一个图表,是不是我们非专业的人员也能用大数据了?当然,要做成这样还是非常难的,因为这里面充满了歧义,就像销售额,销售额指的是数据库里的哪个字段,哪张表呢?最近是距离多长时间,是最近一天还是最近一个月?充满歧义。我们之前也跟浙大的大数据实验室的老师做过交流,也做了一些自然语言到 SQL 翻译的测试,目前这块精度还不是很高,但是我们会一直保持关注。
AI 在大数据里面还有其他的用途,比如数据治理、数据管理,一个简单的例子就是,假设我们的一些表里有身份证,那我们应该能自动识别出这些具有敏感信息的字段,然后自动的匹配通用的规则,比如说给身份证打上很多的星号。而且还要关注一些校验的规则,比如检查这个身份证的质量好不好,未来身份证自带校验,我们是不是要直接匹配一个校验规则,帮助我们检测身份证是不是有效的,提升我们数据质量。目前,很多公司都在朝这个方向发展。
另外 AI 也能用于一些运维的途径。大数据的系统大大小小有几十个组件,部署起来特别麻烦,如何保证数据按时产出是一个复杂的问题。在这个方向上,我们需要去预测数据的产出时间,提前预警。很多时候,大数据计算都是在晚上计算,在晚上生成数据,这个计算过程特别耗时,如果不能提前预警,我们几乎是没有时间来处理紧急情况的。因为大数据的任务用时特别长,所以应该提前预警这样的数据,甚至让大数据给我们推荐一个任务应该配置什么参数、内存配置多大,这些应该是系统自动配置的,不应该让管理员去配置。这样不仅能节省人力,而且能够优化大数据资源的使用。未来通过这种自动运维,我们就能够实现自动驾驶的大数据系统,就像 Oracle 现在号称自己是自动驾驶数据库,未来大数据系统也是自动驾驶的。
InfoQ:最近几年,我们陆续看到业内很多公司在落地流批一体。根据您的经验,这个过程有哪些需要注意的问题呢?
余利华: 从两个方面来看,一个是从语言同步来看,其实语言到 SQL 层面流跟批还是有所不同的,所以怎么能够统一语言,目前还要再探索。在存储方向上,之前在 HDFS 或者在对象存储上,没有一个存储能解决好数据的更新问题,但是如果我们对数据的实时性要求不是那么高的话,目前有一些开源的项目在做这个方向,未来有可能我们在数据湖里面具备实现更新的能力和实时数据的能力,这样我们就有可能把存储

本文介绍了大数据技术的发展历程,从计算、存储、实时性等方面的进步,以及在网易的数据科学中心如何落地流批一体和AI应用。余利华分享了数据中台建设的挑战、数据生产力的重要性,以及网易在大数据平台的演进方向,包括云原生、实时化和AI集成。此外,他还提出了警惕数据中台认知陷阱的建议,强调以业务需求为导向构建数据应用。
最低0.47元/天 解锁文章
234





