数据与 AI 双向奔赴,腾讯云架构师技术沙龙精彩回顾

引言

在 AI 落地过程中,开发者和企业面临的核心瓶颈是数据。能否获取高质量数据、高效处理数据、有效使用数据成为企业智能化发展的关键基石。无数据,不智能。那么在具体实践上,企业如何实现数据与 AI 的双向赋能?

11 月 9 日,由腾讯云架构师技术同盟腾讯云 TVP 联合主办的「腾讯云架构师技术沙龙——无数据不 AI」在成都成功举办。活动聚焦数据与 AI 技术融合的真实挑战与前沿实践,邀请多位来自一线的技术专家,共同探索数据驱动智能的发展路径,为行业提供诸多可落地的实践案例。会上,腾讯云架构师成都同盟正式成立,为成都地区的架构师群体搭建一个专业、开放的交流学习平台。

成都思华启承企业管理咨询 CEO、腾讯云架构师成都同盟理事 将军

成都思华启承企业管理咨询 CEO、腾讯云架构师成都同盟理事 将军主持开场。他介绍道,腾讯云架构师技术沙龙是腾讯云面向广大架构师与技术专家举办的技术交流活动,聚焦前沿话题,汇聚专家智囊,深度研讨,携手共创,用最专业的分享和思辨,助力广大架构师共同成长。

腾讯云架构师成都同盟正式成立

2024 年 12 月,腾讯云发起并成立了腾讯云架构师技术同盟,这是专为架构领域专家与从业精英营造的技术社交圈。腾讯云架构师技术同盟主席 毛剑表示,目前,腾讯云架构师技术同盟已先后在北京、上海、长沙、深圳、合肥建设地区同盟,成都是第六个地区同盟。作为西南地区的科技创新中心,成都技术氛围浓厚。在此背景下,成都同盟期待汇聚更多本地架构师力量,共同打造专业、先进、开放的技术社交圈。

线下,成都同盟将开展各类交流活动,搭建沟通的桥梁,拉近架构师之间的距离;线上,腾讯云开发者社区打造架构师专区“腾讯云架构师同盟交流圈”,不仅有海量技术文章、视频资源,还有行业专家在线答疑、架构专家空降直播间对话等丰富活动。不管架构师是追求技术精进,还是管理提升,同盟都提供了相应的学习内容,全方位助力架构师拓宽视野、持续成长,切实为架构师群体提供有效帮助。

腾讯云架构师技术同盟主席 毛剑

会上,腾讯云架构师成都同盟理事会成员集体亮相。成都同盟理事会由 13 位资深架构专家和行业技术领袖组成。现场举行了授勋仪式,毛剑与腾讯云架构师技术同盟副秘书长 李佳忆为到场的成都同盟理事颁发聘书,以表彰他们对成都同盟的大力支持与无私贡献。

腾讯云架构师成都同盟理事会

授勋仪式

DatenLord 创始人、腾讯云架构师成都同盟理事长 王璞在致辞中表示,成都同盟依托腾讯的影响力,致力为本地架构师搭建前沿技术交流平台,切实助力其技术成长。未来,成都同盟将打造一条具有自身特色的发展之路,并将“认真工作,好好生活”的理念融入快节奏的 IT 行业中。

DatenLord 创始人、腾讯云架构师成都同盟理事长 王璞

软件 3.0 时代的数据工程

ThoughtWorks 中国区总经理、腾讯云架构师成都同盟理事 肖然带来《软件 3.0 时代的数据工程》的主题分享。

ThoughtWorks 中国区总经理、腾讯云架构师成都同盟理事 肖然

肖然表示,“软件 3.0”不同于传统的演进模型,它并不是简单地替代软件 2.0、软件 1.0,而是代表软件行业的细分与成熟。软件 1.0 时代以业务流程系统为核心,软件 2.0 时代则依赖数据标注来训练模型,软件 3.0 时代基于大模型完成任务。随着这一细分趋势的发展,开发者和企业需同时应对以上三种不同类型的软件范式,其对应的数据处理方式也各不相同。

随着软件 3.0 时代的到来,开发者面临日益复杂的数据挑战:在设计数据流程时,需将业务知识提炼为大模型可访问的形式,还要通过注入业务知识和背景知识来提升准确度。要真正实现数据向信息和知识的转化,肖然建议从产品视角来看待数据工程。数据产品应具备持续价值、可规模化复用的能力,并确保数据的准确性。然而在他看来,当前许多组织未建设真正意义上的数据产品。他强调,只有将数据产品化才能在组织内构建软件3.0时代所需的信息和知识。

肖然认为,数据产品应具备三大特性:可用的(Usable)、有价值的(Valuable)、可组合的(Composable)。其中,Usable 是指数据产品对外明确承诺的信息,如时长、准确率、刷新频率等指标;Valuable 是指提供用户所需的数据使用或分析工具,并在时效性、质量等维度满足用户需求。肖然建议,企业在设计数据产品时应遵循“Think big,start small”的原则,尽早为客户提供可衡量的价值,然后持续提供更多价值,并以小步快跑的方式来实践。

Agent 时代数据重新定义应用

腾讯云数据库产品总监、腾讯云架构师成都同盟理事 邹鹏分享题为《Agent 时代数据重新定义应用》的演讲。

腾讯云数据库产品总监、腾讯云架构师成都同盟理事 邹鹏

邹鹏从“工程、流程、组织”三个维度,剖析研发团队在开发 Agent 过程中遇到的挑战,并分享了相关的思考与建议。

在工程方面,他指出如果研发团队以传统软件流程的方式来开发 AI 应用,可能无法充分发挥 Agent 的智能潜力。真正的 Agent 应用应以模型驱动来决定智能上限,以工程来决定它的下限,因此 Agent 软件开发的重心需从工程转到模型。而模型的上限由预训练决定,模型的下限则由后训练来决定。数据将成为定义模型能力的关键,通过 SFT 注入行业专有知识,通过 RLHF 提升推理能力。另外,开发者在开发 Agent 时需关注“上下文工程”,要像计算机内存一样,把上下文作为稀缺资源来看待。他建议可通过上下文压缩、结构化笔记、子任务拆解的方式来突破上下文限制,并在效果、成本与时延之间寻求平衡。

在流程方面,过去,产品经理可清晰定义传统软件的功能模块、操作流程和关键指标。但 Agent 应用通常以对话界面呈现,其背后的能力与评估标准该如何定义,已成为研发团队的巨大挑战。对此,邹鹏带领团队基于 Benchmark 驱动产品迭代,通过设计用例来定义产品能力,并进行评估和训练,最后上线验证,以此形成完整的 Agent 产品迭代闭环。

在组织方面,Agent 应用也使得团队角色分工正在发生变化。产品经理从原来的功能型产品经理转变成策略型产品经理。如今,产品经理通过数据、用例来定义需求,这要求其具备数据分析能力,并使用数据来定义产品目标,同时产品经理需了解评测、训练等技术,才能向团队提出适合的需求。此外,工程师的重心从原来关注分布式、性能转为关注数据、模型智能化。如此一来,团队研发的产品能力上限才能提高,如果团队仍依赖大量代码来编排产品能力,其产品的上限将受到制约。此外,如果没有对 Agent 软件进行评测,软件无法上线。然而,Agent 软件的评测要求较高,不同于传统测试团队对产品基础功能的验证,还需对其智能水平等进行综合评估,通常需专门组建评测团队。

邹鹏表示,AI 已成为当前人才的放大器,一位 AI 专家可以借助 AI 工具完成过去多人团队完成的工作。因此,懂 AI,会用 AI,已不是加分项,而是必选项。他建议开发者积极从应用型人才转换成研究型人才,才能在未来的研发团队持续创造价值。

Elastic Agentic RAG 实战:Data+AI 驱动的前沿技术演进与创新思路


Elastic 中国区首席解决方案架构师、腾讯云架构成都同盟理事 李捷分享《 ElasticAgentic RAG 实战:Data+AI 驱动的前沿技术演进与创新思路》的主题演讲。

Elastic 中国区首席解决方案架构师、腾讯云架构成都同盟理事 李捷

李捷指出,当前每个企业都在积极探索 Data+Al 的落地, 但真正让用户和管理层都满意的案例并不多。在过去,企业使用简单 RAG 架构,只能进行一次性问答,无法充分发挥模型能力。而当前,行业正从传统 RAG 演进到 Agentic RAG 架构,后者赋予 AI 决策、执行和规划的能力,使得 Agentic Agent 具备主动环境感知、多步推理、动态任务规划以及调用外部工具的能力。企业以“Data+AI”为手段,通过构建 Agentic RAG 应用,解决实际业务问题。

但企业在落地 Agentic RAG 架构时,可能会面临四个难点:知识与数据的融合、面向大模型设计、超越简单召回的数据推理能力、系统的可见性与安全性。随后,李捷阐述对应的解决思路:

首先,全域数据融合。企业将知识、业务、运营、安全等数据集成到一个平台上,提供统一查询入口和权限感知机制,避免数据孤岛,从而实现 AI 应用与企业所有数据的统一对话。其次,深度查询与分析能力。平台要实现计算融合,不仅要做知识召回,还要提供深度的“洞察”。计算平台需要进行统计分析与数据处理,进行数据挖掘,并提供富有表达力的查询语言。第三,面向大模型设计。让大模型成为平台的使用者和编排者,而不仅是最终内容的生成者。面向大模型设计的核心在于降低其在复杂任务的计算负荷,可将计算交由计算引擎来处理。Agentic RAG 平台提供可被大模型理解的工具集、易于调用的 API 和强大的管道语言,便于大模型高效使用。第四,企业级可靠性与安全性。由于 Agentic RAG 的链路较长且结构复杂,任何一个环节的“盲点”都可能引发系统性风险。为了给大模型提供全面的安全保障,需做好日志、追踪、监控等端到端可观测性设计。李捷强调,企业在落地 Data+AI 时,数据、计算、大模型、安全这四项能力缺一不可。

在线学习在王者荣耀商业化推荐的应用


王者荣耀商业化推荐算法负责人 黄俊带来《在线学习在王者荣耀商业化推荐的应用》的主题分享。

王者荣耀商业化推荐算法负责人 黄俊

王者荣耀在商业化上不断升级,通过 IP 联动和精品打造等方式提升皮肤和道具资源品质,同时,游戏中还增加抽奖、活动任务等创新玩法,但游戏上线初期访问量较大,且商品从曝光到用户获取之间的延迟,都对推荐系统样本构造产生挑战。如何通过推荐算法,精准识别不同用户群体需求?

针对以上情况,业界一般采用置顶等强策略来实现重点资源的强曝光。但这种做法有以下不足:一是浪费曝光,置顶的商品不一定是玩家所喜爱的内容;二是无法对多个置顶内容进行排序。

团队希望通过更快的模型学习算法来替代强置顶策略,并在工程和算法上进行联合迭代:最初,将按天训练的模型升级为“实时特征+离线模型”,通过构建实时特征,可以实现用户行为和物品销量等变化的秒级反馈,在此基础上,还增加了交叉特征,凭借历史数据学习类目偏好进行预判。由于特征是多元、多时空的,为了给下游模型提供统一的服务,团队构建统一的“特征服务”来调用配置特征。而在实际训练过程中,模型训练时使用的特征可能是前一小时的特征,但在进行预测时,用户特征是实时的,因此团队以实时样本架构来解决线上线下不一致的问题。团队在实时样本上构建在线学习模块,通过在线学习架构可消费实时样本构建训练模型,定期导出模型到线上,实现 20 分钟的周期更新。

由于推荐系统模型的规模庞大,将其从训练系统导出并传输到生产系统需耗费一定时间,并占用大量带宽。为了进一步压缩模型更新时间,团队采用增量更新的方式,将模型拆分为两部分,Embedding 层通过 redis 提供服务,线上按需获取 Embedding 参数,减少发布系统分发的 IO 压力,将模型更新时间从之前的 20 分钟压缩至 10 分钟。然而在现实中,即使算法再快,在商品开售的第0分钟会因没有样本而导致低估。为进一步提升效果,团队引入“多臂老虎机算法”,在原购买率基础上计算置信区间上界作为最终得分,并增加试探分数,对曝光少的Item额外加分。通过这种方式,实现 0 分钟的模型更新。黄俊和团队耗费两年时间打造的新技术方案,可完全替代掉业界常用的强置顶规则,并对比离线模型有显著效果提升。

圆桌对话:人机协同,数智共生:Data+AI 驱动的个人、组织、范式三重进化

活动最后,来到精彩的圆桌对话环节。在腾讯云架构师技术同盟主席 毛剑的主持下,围绕 “人机协同,数智共生:Data+AI 驱动的个人、组织、范式三重进化”主题,DatenLord 创始人、腾讯云架构师成都同盟理事长 王璞,Easystack 开源负责人、腾讯云架构师成都同盟理事 李中华,Thoughtworks 中国区总经理、腾讯云架构师成都同盟理事 肖然,中亦安图科技品牌影响力专家、腾讯云架构师成都同盟理事 尹海文,禅道软件集团副总裁、腾讯云架构师成都同盟理事 张石,多角度探讨 AI 时代下开发者能力、组织形态、技术范式的协同进化,真诚分享自身经历与深刻思考,为与会者带来启发。

圆桌对话

问题一:“Data+AI”这套组合拳,其核心价值体现在哪些方面?

王璞以“Data+AI”的典型应用——ChatBI 为例,ChatBI 是面向企业高层的智能分析工具。传统静态 BI 报表内容固定,无法实现千人千面的效果。ChatBI 利用大模型来理解人的意图,让管理者以自然语言的方式提问,系统自动完成相关的数据分析并返回结果。

不过企业在落地 ChatBI 时,由于其底层依赖 Text2SQL 技术准确率仅为 70%,可能无法满足企业高管对数据精准性的要求。对此,他建议缩小范围,采用二八原则,即在 80% 常见问题做到 99% 的精准度,并需兼顾 ChatBI 的实时性与精度之间的平衡。

张石将数据和 AI 类比为人类大脑结构,AI 如同大脑的前额叶负责决策,而数据则为记忆系统。基础大模型基于预设数据来训练,并借助记忆系统来理解问题,精准理解上下文,识别意图,实现精准回答。他建议企业根据自身需求来构建记忆系统,只有建好记忆系统,才能在未来大模型能力提升时,也能增强自身 AI 能力。

毛剑总结道,从数据平台视角来看,数据平台的核心是找数、取数、用数,开发者可使用智能体来提升效率。在涉及具体计算时,预定义指标绑定的 SQL 可确保运算结果 100% 准确。但在进行开放式查询时,开发者需仔细确认 SQL 是否符合逻辑,并通过充分验证来确保结果准确无误后,再将查询数据返回给运营人员和决策者。

问题二:有观点认为,未来的竞争是高质量数据加领域知识的竞争,而模型正趋于同质化。数据是否会成为企业的核心壁垒?企业该如何应对?

肖然表示,由于算法和基模的逐渐开源,数据将会成为企业竞争的关键要素。在模型预训练阶段,数据集至关重要;另一方面,要想落地企业级 AI 应用离不开数据。尽管特斯拉通过构建世界模型,可能在短期内形成“数据霸权”优势。但从长期来看,私有数据形成壁垒是伪命题,随着监管力度的增强,数据所有权会明确限制,例如欧洲已经出台了《GDPR》、《AI Act》法案,否定了数据霸权的可能性。因此,企业无法利用一部分私有数据来训练模型,以长久获得商业收益。

李中华也分别从长短期的角度来阐述自己的观点。他认为,企业用好数据创造价值,可在短期内产生优势,甚至形成壁垒。但在 AI 时代,数据处理及价值创造的方式将发生较大的改变,谁能够做好这个转变,掌握在 AI 时代挖掘数据价值,并将其沉淀成知识的能力,才能最终转化为商业价值。从长期角度来看,如果希望将产业推向更高效更智能化的方向,那数据的流通将是不可或缺的一环。

王璞结合过去在谷歌的工作经历展开分享。在过去,谷歌的广告业务对数据使用有严格限制,在第三方平台展示广告时,不允许使用任何可关联到个人信息的数据。毋庸置疑,谷歌拥有较强的数据优势。同样,特斯拉在自动驾驶布局较早,已积累丰富的数据,要追上它并不容易。但国内有一些声音正在呼吁国内自动驾驶厂商实现数据共享,以加速发展步伐。国内开源开放氛围浓厚,在全球开源模型榜单中,中国企业排名前几位,国内数据流通与开放或许就在不远的未来。

问题三:开发者使用 AI 工具提升效率的同时,如何避免因过度依赖而导致自身能力弱化?

张石分享他在禅道工作的心得体会:尽管当前“Vibe Coding”概念火热,但在真正企业级开发场景里,如果大面积使用 Vibe Coding 生成的代码,可能会对系统产生不稳定的影响。他和团队在设计 DataOps 流程时,会按照敏捷开发原则和 DataOps 方法论,做好代码审查和单元测试,确保每次提交代码经过严格的人工审核,从而保证系统的稳定性和可维护性。他认为,由于 AI 擅长生成简单代码,初级工程师将面临一些冲击;对于架构师而言,其黄金时代还可延续数年。

肖然以孩子学习编程的故事为例,他在教孩子写排序算法时,会从底层原理讲起,孩子理解起来不太容易。后面孩子去培训机构,很快就学会了写 sorting,但实际上,孩子并不理解算法,只是调用现成的排序函数完成任务。这引发了他的思考,如今AI正在改变编程学习的界限,人们需分清哪些知识该学,哪些不该学。他强调,通过扎实的基础训练来构建自身的理解能力和清晰表达意图的能力,这是有效运用外部智能的前提,每个人的大脑如同一个神经网络,需训练自己的思维方式,在未经训练前不能外包给 AI 代为思考。

尹海文日常工作以写 SQL 为主,凭借丰富的经验积累,有时会帮助客户甄别 AI 搜索结果是否可靠,是否可应用在真实数据库中。他强调,工程师必须有扎实的专业基础,来判断 AI 生成内容的正确性。

李中华也指出,AI 帮助工程师提效是必然趋势。他以朋友创业为例,如今通过 AI 工具,两人便能交付一个软件项目,大大提高软件开发效率。另外,工程师转型也是必然趋势。例如,运维人员可借助 AI 排查问题,但必须具备基础知识来判断。

毛剑表示,一名优秀的工程师应善用 AI 提高工作效率,但不是将所有工作都交由 AI 完成。工程师可将 AI 视为一位数字员工,并对其生成结果进行审核。

台上专家真诚分享自身经历,从不同角度来深入剖析问题,给出诸多务实的建议,台下与会者踊跃提问,本次沙龙在热烈的互动氛围中迎来尾声。

结语

沙龙主持人将军总结道,通过本次活动的交流与探讨,各位专家梳理数据驱动智能发展的脉络,分享数据与 AI 如何双向赋能,并结合一系列落地实践案例,为与会者带来许多启发与思考。本次活动作为腾讯云架构师成都同盟的起点,将汇聚更多本地架构师力量,一起迈向技术新纪元。

腾讯云架构师成都同盟的成立,不仅为架构师们提供了共同学习、共同成长的平台,也为未来技术创新开拓了广阔空间。腾讯云架构师成都同盟期待与架构师们携手同行,一同探索架构发展新方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值