腾讯云程彬:AI驱动数据进化,构建轻快易用的智能大数据平台(内附完整访谈视频)

点击蓝字⬆ 关注我们

本文共计6089字 预计阅读时长19分钟

「数智工匠」是中国信息通信研究院云计算与大数据研究所大数据与智能化部策划的系列访谈栏目,旨在挖掘产业中优秀、前沿数据智能案例,总结数据智能产业经验,让数据智能更好赋能生产创造。

本期「数智工匠」,由中国信通院云计算与大数据研究所大数据与智能化部副主任马鹏玮对话腾讯云大数据基础产品中心总经理程彬,探讨大数据与AI的融合之道。

以下是本次对话视频及文字实录

01

专家简介

马鹏玮:各位数智工匠的朋友们好,今天我们很荣幸来到深圳腾讯大厦,听听程彬老师对我们整个数据智能产业的一些理解,还有他的一些成长经验和思考。

程彬:好的,谢谢马老师,我是程彬,来自于腾讯云大数据团队。

马鹏玮:程老师也可以介绍一下咱们大数据的相关情况。

程彬:整个腾讯大数据,其实是关于用户如何利用大数据技术来支持业务发展。从用户的角度来看,大数据的使用大致分为五个重要步骤:

● 数据摄入:通过数据源将数据摄入到大数据系统。

● 数据存储:提供满足各种数据源存储的系统。

● 数据加工处理:这是最核心的步骤。

● 数据与机器学习打通:将数据与机器学习(Machine Learning)连接,甚至进行推理。

● 数据应用:提供相应的数据应用产品。

我的主要工作聚焦于存储和计算这两个阶段。

02

大数据技术演进:从存算一体到融合智能

马鹏玮:您提到我们正处于大数据元年,2003年谷歌发布了三篇关于Hadoop的论文,解决了最初的存储和计算问题。这一基础的建立催生了后续一系列新技术体系。那么,在大模型时代,存储和计算领域有哪些显著变化或您关注的技术趋势?

程彬:首先,是分层走向了更加极致的阶段。以前计算和存储的耦合度较高,一个厂商或一个产品需要同时做好这两部分,例如谷歌的MapReduce。如今,计算和存储两边的界限更加清晰,包括以第三方存储为主的趋势。在我看来,这是一种更极致的分层。

马鹏玮:相当于要分而治之,各自发展?

程彬:对,各自发展。其次,我们正探索如何将AI技术融入传统数据系统。在腾讯大数据团队内部,我们都在思考如何通过大模型技术重构现有的系统和产品。

马鹏玮:这相当于我们一方面对原有架构的每一层进行纵向优化,另一方面则利用AI进行重构。对于这种重构思路,腾讯有没有整体考量或重点发力点?

程彬:我们团队经过大量思考和讨论,最终确定了三个核心原则:融合、智能开放。首先是融合:我们希望将不同用户的Workload在一个平台内完成。

● 一站式平台:我们不仅要融合结构化数据计算,还希望打通非结构化数据与结构化数据。简单来说,我们希望将传统数据工程的DataOps与AIOps在一个平台内融合。

● 存储融合:在存储层面也需要融合。目前大数据架构多基于对象存储,但对象存储更适用于大I/O和高吞吐场景,在小I/O和延时敏感型Workload上表现不佳。我们认为不应将这种困难转嫁给用户,而是希望在统一的数据平台上补全这部分能力。用户会看到一个类似对象存储的能力,但其实它已超越了对象存储本身所能承载的Workload。

马鹏玮:这是否意味着提供全域或全形态数据的一站式服务?

程彬:是的。

马鹏玮:以前大数据技术体系相对复杂,现在的主题思想是整合,尽量把简单留给用户。同时,我们还要顺应AI趋势,比如结构化与非结构化数据的融合。我想请教一下,非结构化数据处理与传统结构化数据处理在流程上有什么区别?技术体系上又需要补充哪些新的能力来做好这一点?

程彬:最大的区别在于数据的“开放性”。传统大数据处理的是“零约束”的数据,而非结构化数据则是“负一、负一百”,因为它更没有约束。这使得技术在普适性或预处理场景上更为复杂。传统规则可能无法有效处理。因此,我们正在尝试通过AI来解决这些以往难以从工程角度解决的问题。

马鹏玮:大模型主要受众可能更多是非结构化数据,这会导致整个操作体系发生翻天覆地的变化。程总,从用户端来看,例如腾讯云的用户,对非结构化数据的需求有没有显著增长?对刚才提到的一体化需求有没有显著增长?

程彬:增长还是挺快的,尤其在大模型出现后,人类产生数据的能力比以前更强了。

马鹏玮:这是因为数据语言变多了。

程彬:对。这个过程很难一步到位。对于企业来说,第一步是建立统一的数据资产管理平台,将所有企业数据资产统一管理起来。首先需要知道整个企业有多少数据,需要一个数据目录,然后基于这个数据目录,逐步进行更多有趣的数据挖掘工作。

03

大模型时代下的行业应用与挑战

马鹏玮:程总,从您的角度看,目前国内众多行业或腾讯的用户中,哪类行业或用户对新技术的需求最迫切?哪些已经开始使用,哪些虽然迫切但尚未使用的原因又是什么?

程彬:目前我们观察到几个行业或业务场景:

1.智能销售:例如偏销售的赛道。

2.智能客服

3.医疗:整个医疗资源紧张,如何减轻护士和医生的负担。

4.自动驾驶:我们看到客户非常愿意推动新技术落地。

马鹏玮:是开发成本吗?

程彬:对。

马鹏玮:他们目前落地的进度如何?过程中是否存在导致进度不一致的问题?

程彬:最主要的问题是,如何解决严肃场景下模型表现(Performance)的问题。

马鹏玮:这相当于模型的“幻觉”,它仍然是目前从技术角度看,影响客户落地决策的一个重要因素。大模型或“数据+AI”产业吸引了大量创业者和极高的热情。从您的视角来看,包括国外公司,您觉得哪些公司在解决幻觉问题或应用解决思路上比较亮眼,或您比较关注?

程彬:目前为止,我们看到大模型应用落地并解决幻觉问题,能够达到生产级别的可行方式,仍然需要通过智能体(Agent)的方式来实现。包括我们自己的一些实践,也是朝这个方向发展。

马鹏玮:相当于要增加一个代理?

程彬:对,需要增加一个“数据代理(Data Agent)”来完成。通过记忆(Memory)和上下文(Context)等方式,提升其表现。

04

资源调度与AI技术赋能

马鹏玮:当这套新的存储计算大数据架构上线后,有没有可能对我们以前的计算资源产生影响?

程彬:这是一个很好的问题。前面提到过,很重要的一点是资源层面的融合。以前我们可能更多通过Kubernetes(K8s)来统一管理资源。但我们也发现,在某些机器学习场景下,资源操作粒度过大,在一些启动场景下可能带来较大问题。未来可能会使用一些新技术来完成整个资源的统一管理。

马鹏玮:这相当于我们未来肯定是一个CPU密集型和GPU密集型混部的状态,无论做什么任务。但现在,我们的调度层可能需要做一些新的工作。

程彬:是的,需要以更细的颗粒度管理资源,才能达到最佳效果。

马鹏玮:我理解大家逐渐习惯云服务的形式,很多核心工作都落在云厂商身上,比如资源的调度。

程彬:其实我们不单单是管理异构资源。目前腾讯大数据的一些产品,例如EMR和DLC,具备很强的能力,可以将用户在线资源和离线资源通过内部调度整合起来,为用户带来很好的资源利用率。

马鹏玮:明白。程总,我现在也关注很多AI公司,看看他们的进展以及对数据工作的赋能。您现在关注哪些AI公司?它们的赋能能力有什么特色?为什么关注它们?

程彬:我们关注的仍然是那些顶尖的、涉及AI场景的公司。例如,在代码生成(Code Generation)领域,我们关注哪些模型的能力更强。其次,我们非常看重规划能力。我们会建立自己的基准(Baseline),进行测试评估,找到最合适的技术模型。

马鹏玮:您有没有关注过多模态或生成式AI(Generative AI)的厂商?它们需要的数据类型可能并非传统的结构化数据,可能是一种新的数据处理需求。您是否了解这些领域的数据处理供应链与传统模式有何不同?

程彬:我们更多还是站在使用方的角度看问题。生成式AI这块我们大数据团队可能暂时还没深入涉及,但多模态我们已经有所涉猎。例如,在智能营销场景中,它可能涉及以下事情:假设我是一名超市员工,希望为超市销量最好的产品做广告。这涉及几点:

1.产品识别:首先要找到销量最好的产品。

2.广告内容生成

● 套餐搭配:思考是否需要与该产品搭配销售的套餐,找到比较匹配的产品。

● 文本生成:为产品生成广告词,涉及文本生成。

● 图片生成:广告需要图片。

对我们来说,我们需要一个既能文生文又能文生图的技术模型服务。只有做好这些,才能帮助用户生成满意且真正有效果的广告。

马鹏玮:明白,这相当于我们现在一套全链路的东西都在融入AI。那么,您觉得到2025年、2026年,这些技术还会向哪个方向延伸?或者达到什么样的高度?

程彬:变化非常快,我感觉有时不关注业界,每周都会有很大的变化。未来,大模型应用落地的速度会进一步加快,因为各行各业都在想办法利用AI技术改变自己。

其次,从目前来看,前面提到的观点——基于Agent的应用落地会加速。未来,基本上每个产品、每个App、甚至每家公司都可能拥有自己的智能体。在数据领域,我认为Data Agent肯定会成为云厂商的标配,最早可能在今年下半年,最晚到2026年,它可能会成为一种标准化产品。

马鹏玮:这相当于数据分析会越来越“平民化”?

程彬:对,这也是数据分析领域从业者一直以来的梦想。数据分析就像打怪升级,它是有级别的。通常,我们定义一个公司或组织的数据分析能力大致有四个级别:

1.描述性分析:最简单,通过SQL语句即可从现有数据中找到信息。

2.诊断性分析:略复杂,例如,一家公司发现本月营收一个亿,需要分析背后的原因。

马鹏玮:就是挖掘一下?

程彬:对,看起来简单,但目前仍需大量人工。

3.预测性分析:在这个阶段,不仅能从现有数据中发现发生的事情,还能进一步预测未来三个月、半年数据的趋势,非常适合大模型发挥能力。

4.指示性分析:最终目标是无论你如何对数据进行分析和生成,最终还是希望能够辅助决策或直接产生行动(Action)。企业要的不是数据,要的是“动作”。指示性分析能够直接告诉我经营策略如何制定,广告如何投放,并且真正帮助我实现,我只需“坐享其成”。

马鹏玮:明白,我理解程总您所说的,第一步是“What”(发生了什么),然后是“Why”(为什么发生),接着是“How”(未来怎么办),最后是“Do”(直接执行)。这相当于逐步减轻了人类的工作量。

程彬:是的。所以基于这个判断,我之前提到为什么数据领域的同学对AI的拥抱如此积极,这与我们的使命息息相关。

马鹏玮:对,我个人也觉得数据是一切行动的起点。而Agent在数据领域备受重视,因为它是最终的“终点”。起点与终点结合,我个人也非常看好Data Agent这套理论。刚才我们聊了很多数据和智能领域的新技术、新产业、新应用。

05

个人成长与职业感悟

马鹏玮:接下来我想向您请教一下,您作为从业几十年的资深人士,这一路是如何走过来的?有什么心路历程可以分享吗?

程彬:我只能谈谈作为一名工程师,如何一步步为自己设定更高的目标。整体而言,大概有三个阶段:

1.耐得住寂寞:第一阶段是希望做好一个产品或技术平台,并持续下去。我们那时常说要“耐得住寂寞”,即便遇到各种困难、不理解,甚至有竞争对手,最终也要将其做好。

马鹏玮:这大约是您工作的哪一年?当时是什么产品?

程彬:应该是刚开始工作,大概5、6年左右吧。我一直专注于一款产品,希望将公司所有其他业务接入进来。那时腾讯刚起步,大约在2013、2014年,腾讯开始进行ToB对外开放。这个阶段非常锻炼人,需要有很好的“长跑”或“耐力”。

2.挑战极限:第二个阶段是挑战一些在别人看来不可能完成的事情。我认为这个阶段除了第一阶段沉淀下来的扎实专业技术,更需要一种强大的自信心。

马鹏玮:就是“我命由我不由天”。

程彬:对,就是这个意思。

3.解决逻辑性问题:接下来的阶段,这几年我开始真正站在ToB的最前线做产品。腾讯大数据面临着另一个问题,对我来说,更多的是思考如何让所有团队成员拥有共同的目标,实现共赢,互相成就。第三阶段可能没有太多让人感到痛苦的挑战,不需要解决偏物理性的问题,而是需要解决一些偏逻辑性的问题。对于一些产品研发的同学来说,这也是另一种修炼。

马鹏玮:明白。我记得重庆市委书记袁家军曾用一个很好的比喻:做技术问题是封闭系统,做管理问题是开放系统。两者都复杂,但面临的风险和挑战不同。听您的经历,您前期扎实技术,现在则要面对管理问题。我相信腾讯大数据产品线众多,用户和客户也很多,如何有效组织并充分调动资源,也是非常困难的事情。这里有没有什么小故事可以分享,比如某个产品研发或推广历程让您深有体会或铭记在心?

程彬:可能有个小案例可以聊聊。我们有一个名为TCHouse-X的产品。首先这个产品定位是应对大数据场景下的融合,希望在我们的这一个平台上支持所有Workload。

其次是智能。我们希望系统本身变得更聪明,具备智能能力。同时,满足AI的Workload,支持AI训练和推理的能力。

第三点是开放。对于用户来说,上手难度或心理压力很大,他们可能会担心产品停用怎么办。

马鹏玮:对,心理负担很大。

程彬:对。所以我们希望尽可能做到彻底开放。我们应该是在国内首家做到了计算与存储的全面开放。简单来说,你的存储可以在我这里,但计算可以使用你自己的,或在其他云上运行,都OK。反之亦然,你的计算可以在腾讯云上使用腾讯云大数据的产品,而存储可以在其他云上。

马鹏玮:我相信做出这个战略决策的时候,应该是最艰难的时刻。

程彬:整个变化非常快,我们也没有说要“憋个大招”或怎样。如何在短期内将产品上线,如何从零到一、从一到六十,整个团队都在认知上发生改变。首先要有强大的决心、信心和使命感,其次是如何有效组织团队。针对这一点,我们摆脱了以往的工作方式和产品研发模式。一开始,我们就利用腾讯云大数据已有的计算、存储和资源调度能力,将相关同学召集起来,在现有能力基础上进行完善。

马鹏玮:站在巨人的肩膀上?

程彬:对。接着,在我们自己的产品侧,这个新产品。例如,我们需要重新设计一个全新的架构。所以,TCHouse-X团队决定自己做一个自研的优化器。同样,在元数据层,我们发现现有集中式元数据无法解决扩展性问题。TCHouse-X团队就需要想办法去做一个具备弹性扩展能力的元数据服务。

06

腾讯云大数据:未来规划与人才培养

马鹏玮:刚才您介绍了一些数据智能领域的技术发展趋势。那么腾讯作为国内一流的“数据+AI”服务提供商,今年有什么大动作或大的规划吗?

程彬:首先,我们将继续在核心场景,即计算和存储领域,提供更智能的计算和存储。在腾讯云上,包括EMR、DLC和TCHouse等产品,都将享受到这些能力带来的更高性价比和体验。在此基础上,我们有几个比较新的重点:

1.数据与AI一体化平台:我们现在已开始灰度测试这一产品能力。它将在一个平台上完成从数据摄入到在线模型部署、推理的全流程打通,实现DataOps和AIOps的全流程能力。

马鹏玮:这符合国外提出的“数据智能平台”理念。

程彬:是的,并且我们已经很实在地落地了。

2.Agent Analytics(智能分析):这将把我们现有的数据分析带到一个全新的高度。智能分析将让用户更愿意尝试使用数据来提升企业效率,几乎实现无门槛的数据分析。

3.垂直场景原子能力:虽然前面提到了很大的一体化方案,但在很多垂直场景中可能还有一些用户诉求。例如,我们将在实时场景下提供更好的实时分析产品。

马鹏玮:明白,看来今年咱们有很多新的动态和产品值得期待。

程彬:腾讯云大数据一直秉持着一个理念(Slogan),我们希望为用户提供一个轻快易用智能的一体化大数据平台

马鹏玮:关键是既好用又能用,而且非常智能。现在很多年轻人和创业公司也会进入这个赛道,您对他们有什么建议可以分享吗?

程彬:我觉得这确实是一个很好的赛道,它既有技术挑战,又有清晰的商业落地场景,大家可以尽快加入进来。同时,腾讯云大数据在整个招聘行业中,我们应该是比较领先的,率先提出了招聘“数据+AI工程师”的概念。我们专门为了这个方向,改变了人才要求。

马鹏玮:开辟了一种新的人才类别?

程彬:对。我觉得感兴趣的同学,无论是在校学生还是业界大咖,只要有梦想并愿意向这个方向尝试,都可以来我们这里聊聊。我们非常欢迎这样的同学加入团队。

马鹏玮:那么,对于这些年轻人未来的成长历程或他们需要做的事情,您有什么经验可以分享?

程彬:首先,必须感兴趣。如果你不感兴趣,工作可能更多只是为了生活。但我觉得现在国家发展了这么多年,同学们可以适当考虑一下,我们非常希望大家要做得开心!对那种极致的工程非常有追求的同学加入我们团队。其次,无论做什么行业,最终还是需要埋头苦干,你需要沉淀,就像“一万小时定律”一样,需要付出。最后,强大的自信也非常重要。

马鹏玮:明白,要有兴趣,不能太浮躁,要扎实下功夫才能有积累。同时,遇到困难不要轻易气馁,因为挑战一直存在,所以要有信念支撑,有韧劲。

程总,今天非常高兴与您聊了很久,包括数据智能领域的技术应用产业,咱们腾讯的产品新动态,以及您的一些人生经历和思考,非常感谢您今天能花时间接受我们的访谈。我先帮程总这边打个广告,如果有想加入腾讯大数据团队的,可以多关注这期节目,这边已经开辟了“数据+AI”的人才赛道。

希望未来我们腾讯大数据作为国内大数据厂商的第一梯队选手,能给我们业内提供更好的“Data+AI”产品,帮助我们整个中国的人工智能产业和大数据产业在国际上更进一步。再次感谢程总!

程彬:我们也欢迎大家加入腾讯云大数据团队,一起来打造一个轻快易用智能的大数据平台,谢谢大家!

腾讯云大数据始终致力于为各行业客户提供轻快、易用,智能的大数据平台。

END

关注腾讯云大数据╳探索数据的无限可能

⏬点击阅读原文

了解更多产品详情

分享给认识的人吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值