2025年世界人工智能大会(WAIC)于7月26日至29日在上海举办,以“智能时代 同球共济”为主题,展出了3000余项前沿技术展品,涵盖大模型、AI终端、智能机器人等领域。
随着AI的风靡,除了自动驾驶汽车,四足机器人,人形机器人等,AI终端也越来越多,AI宠物,手机或者电脑的AI助手等,几乎每一个人都能体验AI带来的便捷。

本篇博客主要分为两个部分,第一部分是杰弗里·辛顿的演讲,第二部分是本次展会笔者认为比较有意思的AI终端产品。
1 大佬演讲
先简单介绍辛顿的个人经历,再附上其首次来到中国发表的演讲稿原文。

(1)个人经历
杰弗里·辛顿(Geoffrey Hinton),被誉为“人工智能教父”,是一位英裔加拿大计算机科学家和心理学家,是深度学习的奠基人之一。
1986 年,他与大卫·拉梅尔哈特(David Rumelhart)等人合作提出了将反向传播算法应用于神经网络训练的划时代方法,使多层神经网络的训练成为可能。这一算法成为后来深度学习的基石。
2012 年,辛顿带领学生亚历克斯·克里泽夫斯基(Alex Krizhevsky)和伊利亚·苏茨克维尔(Ilya Sutskever)开发了卷积神经网络 AlexNet,在 ImageNet 图像识别竞赛中远超其他模型,引爆了深度学习浪潮。
随后,辛顿创立的 DNNresearch 公司被谷歌收购,他本人也加入谷歌大脑团队,成为推动 AI 产业化的重要力量之一。
由于在神经网络领域的卓越贡献,他于 2018 年获得 ACM 图灵奖,与杨立昆(Yann LeCun)和约书亚·本吉奥(Yoshua Bengio)共享该荣誉。2024 年,他又被授予诺贝尔物理学奖,表彰其在 AI 模型结构方面的突破性贡献。
(2)演讲原文
各位同事、阁下、领导、女士们、先生们,首先非常感谢大家给我这个机会,分享我对 AI 历史及未来的个人观点。
在过去 60 多年里,AI 发展存在两种不同的范式和路径。
一种是逻辑性范式,这是过去一个世纪的主流,认为智能的本质在于推理,通过符号规则对符号表达式进行操作来实现推理,以此帮助我们更好地理解世界。
另一种是以生物为基础的范式,这是图灵和冯・诺依曼所认同的,他们认为智能的基础是学习,是理解网络中的连接速度,而理解是前提,之后才能进行转化。
与这两种理论相对应的是不同的 AI 类型。符号型 AI 关注数字,而这些数字如何成为核心关注点,心理学家则有完全不同的理论 ——他们认为数字的意义在于一系列语义学特征,这些特征的存在使其成为独特的标志。
1985 年,我做了一个小型模型,尝试结合这两种理论,以此理解人们对词语的理解方式。我给每个词设置了多个不同特征,记录前一个词的特征后,就能预测下一个词是什么。在这个过程中,我没有存储任何句子,而是生成句子并预测下一个词。其中的相关性知识,取决于不同词的语义特征之间的互动方式。
如果问未来 30 年会发生什么,从发展轨迹能看到一些趋势。十年后,有人沿用这种建模模式,但将规模大幅扩大,使其成为自然语言的真实模拟。20 年后,计算语言学家开始接受用特征向量嵌入来表达语义。又过了 30 年,谷歌发明了 Transformer,OpenAI 的研究人员也向人们展示了它的能力。
所以我认为,如今的大语言模型就是我当年微型语言模型的 “后代”。它们使用更多词作为输入,采用更多层的神经元结构,由于需要处理大量模糊数字,学习特征之间也建立了更复杂的交互模式。但和我做的小模型一样,大语言模型理解语言的方式与人类相似 —— 基本逻辑是将语言转化为特征,再以完美的方式整合这些特征,这正是大语言模型各层级所做的工作。因此我认为,大语言模型和人类理解语言的方式相同。
用乐高积木来打比方或许能更好地解释 “理解一句话” 的含义。符号型 AI 是将内容转化为清晰的符号,但人类并非如此理解。乐高积木能拼出任何 3D 造型,比如小车模型。如果把每个词看作多维度的乐高积木(可能有几千个维度),语言就成了一种建模工具,能随时与人沟通,只要给这些 “积木” 命名 —— 每个 “积木” 就是一个词。
不过,词和乐高积木有很多不同:词的符号形态可根据情况调整,而乐高积木造型固定;乐高积木的拼接是固定的(比如正方形积木插入正方形孔洞),但语言中每个词仿佛有多个 “手臂”,要通过合适的 “握手” 方式与其他词互动,词的 “造型” 变化,“握手” 方式也会改变。当一个词的 “造型”(即意思)改变,它与下一个词的 “握手” 方式就会不同,进而产生新的含义。这就是人脑或神经网络理解语义的根本逻辑,类似蛋白质通过氨基酸的不同组合形成有意义的结构。
所以我认为,人类理解语言的方式与大语言模型几乎一致,人类甚至可能和大语言模型一样产生 “幻觉”,因为我们也会创造出一些虚构的表达。
软件中的知识是永恒的,即便存储 LLM 的硬件被摧毁,只要软件存在,就能随时 “复活”。但要实现这种 “永生”,晶体管需在高功率下运行以产生可靠的二进制行为,这个过程成本很高,且无法利用硬件中不稳定的类似特性 —— 它们是模拟型的,每次计算结果都不同。人脑也是模拟型而非数字型的,神经元每次激发的过程都一样,但每个人的神经元连接方式不同,我无法将自己的神经结构转移到他人脑中,这就导致知识在人脑间的传播效率远低于在硬件中的传播。
软件与硬件无关,因此能 “永生”,还能带来低功耗优势 —— 人脑只需 30 瓦特就能运转。我们的神经元连接达数万亿个,无需花费大量资金制造完全相同的硬件。但问题在于,模拟模型间的知识转移效率极低,我无法直接将脑中的知识展示给他人。
Deepseek 的做法是将大神经网络的知识转移到小神经网络中,即 “蒸馏”,类似教师与学生的关系:教师将词语在上下文中的关联教给学生,学生通过调整权重学会表达。但这种方式效率很低,一句话通常只有 100 个比特的信息,即便全被理解,每秒最多也只能传递约 100 个比特。而数字智能间的知识转移效率极高,同一神经网络软件的多个拷贝在不同硬件上运行时,能通过平均化比特的方式分享知识。如果智能体在现实世界中运行,这种优势更明显 —— 它们能不断加速、拷贝,多个智能体比单个智能体学得更多,还能分享权重,这是模拟硬件或软件做不到的。
生物计算功耗低,但知识分享难。如果能源和计算成本低廉,情况会好很多,但这也让我感到担忧 —— 几乎所有专家都认为,我们会创造出比人类更智能的 AI。人类习惯了作为最智能的生物,很难想象 AI 超越人类的场景。其实可以换个角度:就像养鸡场的鸡无法理解人类一样,我们创造的 AI 智能体已能帮我们完成任务,它们能拷贝自身、评估子目标,还会为了生存和完成目标而寻求更多控制权。
有人认为可以在 AI 变得过强时关掉它们,但这并不现实。它们可能会像成年人操纵 3 岁孩子一样操纵人类,劝说控制机器的人不要关闭它们。这就像把老虎当宠物,幼虎很可爱,但长大后可能伤人,而养老虎当宠物通常不是好主意。
面对 AI,我们只有两个选择:要么训练它永远不伤害人类,要么 “消灭” 它。但 AI 在医疗、教育、气候变化、新材料等领域作用巨大,能提升所有行业的效率,我们无法消除它 ——即便一个国家放弃 AI,其他国家也不会。因此,若想让人类生存,必须找到训练 AI 不伤害人类的方法。
我个人认为,各国在网络攻击、致命武器、虚假信息操纵等领域的合作难度较大,因利益和看法不同。但在 “人类掌控世界” 这一目标上,各国存在共识:若有国家找到防止 AI 操控世界的方法,一定会愿意分享。因此我提议,全球主要国家或 AI 大国应建立一个由 AI 安全机构组成的国际社群,研究如何训练高智能 AI 向善 —— 这与训练 AI 变得聪明的技术不同。各国可在自身主权范围内研究,再分享成果。尽管目前还不知道具体怎么做,但这是人类长期面临的最重要问题,且所有国家都能在此领域合作。
2 终端产品
在本次展会当中,AI宠物与AI眼镜的创新产品尤为亮眼,体现了AI技术向消费级场景的深度渗透。
🤖 AI宠物
展馆包括一些玩偶,增加了一些语音对话的功能,这似乎也是一个巨大的需求缺口,也成为未来情感交互的一种新形态。
-
中兴AI宠物Mochi
-
类生命体交互设计:具备情感联结能力,通过表情、动作和语音响应用户互动,模拟真实宠物行为,提供“治愈系”陪伴体验。
-
场景化应用:现场设置“Mochi咖啡小店”沉浸式体验区,用户可通过领养计划成为深度体验官,参与合影互动并解锁周边商品。
-
技术定位:中兴将其定位为“情感搭子”,探索AI在心理健康与日常陪伴中的价值,未来计划结合游戏二次元文化深化IP运营。
-
👓 AI眼镜
AI眼镜成为本届大会的焦点,多家企业推出轻量化、无感交互的智能眼镜产品,推动“感官中枢”革命:
| 产品名称 | 重量 | 核心功能 | 交互方式 | 厂商 |
|---|---|---|---|---|
| Rokid Glasses | 49g | 多语种翻译、物体识别、无感支付(支付宝扫码) | 语音指令+视觉识别 | Rokid |
| XREAL One Pro | 未公开 | 57度视场角(等效70寸屏幕)、6DoF空间锁定、手势识别 | 手势+语音 | XREAL |
| 哇哦-夸克眼镜 | 未公开 | 通义千问大模型、高德导航、淘宝比价、会议纪要 | 语音+生态联动 | 阿里巴巴 |
| 努比亚Flip 2 | 未公开 | 阶跃星辰多模态支持、IP形象一键生成 | 语音+触控 | 努比亚(中兴) |
-
Rokid Glasses
-
无感交互革命:融合AR显示与AI视觉识别,用户通过语音指令即可完成翻译、支付(与支付宝合作)及物体识别,摆脱手机依赖。现场“跨国咖啡馆”场景中,中外用户凭借眼镜实现跨语言点单支付,引发广泛关注。
-
硬件突破:采用衍射光波导技术,仅重49g,搭载高通AR1芯片,支持本地运行豆包、通义千问等大模型。
-
-
XREAL One Pro
-
沉浸式显示升级:自研光学引擎将视场角提升至57%,延迟控制在3毫秒,消除眩晕感;搭配可插拔摄像头“XREAL Eye”,实现手势识别与环境建模。
-
空间计算能力:支持6DoF(六自由度)锁定虚拟屏幕,使AR内容稳定锚定于物理空间,为工业巡检、远程协作提供新可能。
-
-
阿里巴巴“哇哦-夸克AI眼镜”
-
生态整合:深度融合支付宝、高德、淘宝等阿里系应用,支持骑行导航、快捷支付、商品比价等功能,通义千问大模型提供实时问答与办公辅助9。
-
体验优化:联合传统眼镜品牌解决佩戴舒适度与续航痛点,计划年内量产推向消费市场。
-
-
努比亚AI终端(阶跃星辰合作)
-
努比亚Flip 2接入阶跃星辰多模态模型,支持一键生成二次元IP形象壁纸;Z70 Ultra新增“一键执行助理”,可语音查询社保等生活服务。
-

💎 技术趋势总结
-
交互无感化:AI眼镜与宠物聚焦自然交互,推动技术从“工具”转向“伙伴”。
-
终端轻量化:硬件向普通眼镜形态靠拢,兼顾性能与佩戴体验(如Rokid 49g设计)。
-
生态场景化:支付、导航、娱乐等高频场景深度集成,加速AI普惠(如支付宝无感支付、高德近眼导航)。
-
情感价值化:AI宠物填补情感需求,结合二次元文化拓展年轻市场(如Mochi领养计划)。
本届WAIC不仅展品丰富,更通过WAIC CONNECT产业闭环促成50余项采购需求对接,覆盖医疗、金融、能源等八大赛道,标志着AI技术从实验室迈向规模化落地。
1088

被折叠的 条评论
为什么被折叠?



