- 博客(262)
- 收藏
- 关注
原创 AI吞噬世界:顶级战略分析师告诉你AI的电力、资本和未来博弈
历史总是押着相同的韵脚在前行!著名科技领域战略分析师 Benedict Evans 发布了第三份题为《AI 吞噬全世界》的重磅报告。在科技产业的分析领域,Benedict Evans 是一个无法绕开的名字。作为前 Andreessen Horowitz(简称 a16z)的合伙人,以及曾在 Enders Analysis 和 Orange 担任战略顾问的资深分析师,Evans 擅长通过宏观数据与历史周期的对比,抽丝剥茧地还原技术变革的本质。
2025-11-24 08:54:55
633
原创 撞车何恺明团队!华南理工顶会NeurIPS论文以预测数据和方差优化让扩散模型更强更快
使用 Stable Diffusion v1.5 模型进行的实验中,当提示词为“一只骑自行车的巨大毛毛虫”时,在 25 NFE 的设置下,DPM-Solver++ 和 UniPC 生成的图像出现了明显的扭曲和伪影,毛毛虫与自行车的结构融合混乱。基于这一理论,研究团队提出了一种无需参考轨迹的方差优化推断算法,在计算成本不增加的前提下,让生成图像的保真度在极低步数下获得了突破性提升,例如在 CIFAR-10 数据集上将 10 步推断的 FID 分数从 5.10 压低至 2.78。
2025-11-24 08:52:02
295
原创 Meta通过简单的算术运算,将大模型性能推向新SOTA,无需任何额外训练
最终的最优权重配置揭示了融合的秘密:xLAM 获得了 0.5 的权重,watt-tool 获得了 0.3,CoALM 获得了 0.2,这是一个经过精确计算的平衡,既保留了 xLAM 的通用优势,又吸收了 watt-tool 和 CoALM 在特定领域的特长。他们提出的 SoCE (Soup of Category Experts,类别专家模型汤) 方法,将基准测试中的类别表现拆解,利用统计学中的相关性分析,精准识别各领域的专家模型,再通过非均匀加权将它们融合,这种方法将模型优化从炼丹变成了精准的配方化学。
2025-11-23 14:31:09
360
原创 腾讯开源视频生成模型,小参数轻量化,消费显卡可玩,将顶尖视频生成能力带给了每一位开发者
Prompt: 俯视角度,一位有着深色,略带凌乱的长卷发的年轻中国女性,佩戴着闪耀的珍珠项链和圆形金色耳环,她凌乱的头发被风吹散,她微微抬头,望向天空,神情十分哀伤,眼中含着泪水。镜头推进,霓虹灯从“H”开始,伴随着‘滋滋’的电流声,每个字母依次亮起粉紫色的光芒,直到全部点亮,照亮了潮湿的街道。几座险峻的远山,在云雾中若隐若现,一叶扁舟在宽阔的江面上缓缓划过,留下淡淡的涟漪,采用大远景,相机向左缓慢平移,画面以浓淡不一的墨色和大量的留白构成,整体为动态中国水墨画写意风格,营造出宁静、孤高且意境悠远的氛围。
2025-11-23 14:30:00
638
原创 主流开源大模型生态解析
通过理解不同模型的优劣、掌握权威的评测方法、善用核心的开发平台,开发者可以更好地在开源的世界里汲取养分、贡献智慧,并最终将开源的力量,转化为推动自身业务和整个社会进步的强大动能。开源不仅仅是免费的代码,它更是一种开放、协作、共享的创新范式。客观学术基准通常由一系列标准化的、涵盖不同学科和能力维度的题库构成,模型在这些题库上的得分,可以量化地反映其在特定领域的知识水平和推理能力。这些科技巨头的肩膀上,利用他们已经训练好的、耗资数亿美元的顶级模型作为起点,然后用你自己的数据和创意,去解决你所在领域的具体问题。
2025-11-23 14:10:52
584
原创 小米重磅模型开源!首个成功打通自动驾驶与具身智能双领域多模态基础模型
小米汽车与小米具身智能团队联合发布MiMo-Embodied,这是首个成功打通自动驾驶与具身智能双领域的开源多模态基础模型。该模型通过一套统一的架构和渐进式的四阶段训练策略,有效解决了室内机器人与室外自动驾驶车辆之间长期存在的域间隙问题。在涵盖感知、规划、推理等维度的29个权威基准测试中,MiMo-Embodied不仅实现了对现有开源和闭源模型的全面超越,更证明了跨域学习能够实现能力的相互增强而非干扰。
2025-11-23 14:07:50
470
原创 Nature解密:谷歌DeepMind团队的AlphaProof如何攻克国际奥数最难数学题,斩获银牌
谷歌DeepMind团队开发的AlphaProof系统登上了Nature。AlphaProof系统作为核心组件,通过强化学习在Lean环境中自我博弈,成功解决了包括全场最难代数题在内的四道奥赛题目,助力AI获得了28分的总成绩,跨越了银牌门槛。这是计算机系统首次在这一人类顶尖智力竞赛中达到此高度。这篇研究展示了人工智能从依赖模糊的自然语言模仿转向精确的逻辑构建。谷歌DeepMind团队开发的AlphaProof是一套完整的数学探索架构。
2025-11-23 14:05:31
552
原创 黄仁勋回击AI泡沫论,用“好的离谱”的财报告诉世界:我们才刚刚进入AI无处不在、无所不能的良性循环
英伟达刚刚发布的2026财年第三季度财报,再次证明了全球计算范式正在发生不可逆转的重构。这份财报不仅是一份财务成绩单,更是一份全球AI产业的体检报告。数据中心业务的爆炸式增长、Blackwell架构的全面供不应求、以及主权AI(Sovereign AI)在全球范围内的落地,共同描绘了一个正在加速膨胀的智能生态系统。黄仁勋将其描述为AI飞轮效应的全面启动,计算需求正在训练和推理两个维度上呈现指数级双重增长。
2025-11-21 18:09:33
493
原创 Meta的SAM 3D和SAM 3来了,不止分割一切,还要3D重建一切
接着,。刚刚,Meta 正式发布了 SAM 3D 和 SAM 3。Meta 不仅开源了模型权重、推理代码和评测数据集,还推出了 Segment Anything Playground 平台,让研究人员和创作者能够直接体验这些前沿技术。SAM 3D 能从图像捕捉对象,无论是否遮挡,然后进行 3D 重建。
2025-11-21 18:06:08
708
原创 Nano Banana Pro最全解析,设计师和开发者都用得上,附官方提示指南
Nano Banana Pro 将逻辑推理能力注入像素生成,图像模型能绘图又能理解世界了。数月前发布的 Nano Banana 基于 Gemini 2.5 Flash Image 模型,以极快的速度和低廉的成本,帮助普通用户修复老照片或生成有趣的迷你手办,让创意表达变得触手可及。刚刚登场的 Nano Banana Pro 为专业人士交付了一间完整的工作室。你看这全面碾压的姿态。
2025-11-21 18:02:14
831
原创 商汤科技与南洋理工大开源空间智能多模态SOTA模型
商汤科技与南洋理工大学通过构建800万量级的高质量三维空间数据集,训练出在空间智能测试中开源SOTA多模态基础模型。同时发布了关于空间智能(Spatial Intelligence)的研究论文。论文指出了当前多模态大语言模型(MLLMs)的一块短板:尽管模型能看懂图,却难以理解三维空间。现有的多模态模型在处理二维平面图像时表现出色,但在涉及三维空间理解、推理以及与物理世界交互的任务上,即使是顶尖模型也显得笨拙。
2025-11-21 17:59:29
927
原创 超实用提示词模板!为什么AI总是敷衍你?AI科学家教你用协作提示词激发大模型潜力
将对话视为一段共同的旅程,而不是一系列孤立的提示,优先考虑更深层次的目标,而不是提供快速、独立的回复。Lance Eliot提出的协作提示词,则是从用户端出发,用提示工程(Prompt Engineering)的手段,低成本地激活了现有模型的协作潜能。当你问家里水管漏水怎么办,它会扔给你一句通用的“请检查阀门或呼叫管道工”,而不是像个老练的师傅那样先问你“水是从哪里喷出来的”或者“漏水有多严重”。将对话视为一段共同的旅程,而不是一系列孤立的提示,优先考虑更深层次的目标,而不是提供快速、独立的回复。
2025-11-20 15:04:24
917
原创 北大、字节、中科院自动化研究所等提出图像并行生成新范式
让多模态AI学会思考,反而会把图画错了,这个反直觉的现象揭示了当前思考生成模型的缺陷。北京大学,字节跳动,普林斯顿大学,中国科学院自动化研究所,芝加哥大学提出了让图像并行生成的新范式。在人工智能的进化图谱中,让模型在行动前先思考,曾被视为通向更高智能的必经之路。大语言模型中的思维链(CoT)技术已经无数次证明:通过拆解步骤、显式推理,模型处理复杂任务的能力会呈指数级上升。
2025-11-20 15:02:31
609
原创 何恺明团队重磅新作:去掉VAE,无需Tokenizer,纯Transformer预测数据比预测噪声更高效
麻省理工学院何恺明团队发布了一项颠覆性研究,直指当前扩散生成模型的核心痛点。研究指出:主流模型实际上并没有在做去噪工作,回归最原始的洁净数据预测才是高维像素生成的正解。不知道何恺明是谁吗?计算机视觉领域的世界级科学家,现任麻省理工学院副教授。他最著名的成就是发明了残差神经网络ResNet,这项突破性工作解决了深度神经网络训练中的梯度消失难题,获得了2016年CVPR最佳论文奖,成为人工智能发展的里程碑。2022年,他入选AI 2000全球最具影响力学者榜单并高居榜首;
2025-11-20 14:59:51
930
原创 开源AI首夺物理奥赛金牌!上海AI实验室P1模型证明AI也能像物理学家一样思考
上海人工智能实验室P1团队,用一个开源模型夺得物理奥赛金牌。人工智能的前沿,已经从解决人类设计的谜题,悄然转向了探索自然本身的规律。物理学,作为连接符号世界与客观现实最严谨的学科,是检验真正科学智能的终极试炼场。上海人工智能实验室的P1团队,在技术报告中,详细介绍了一个名为P1的模型家族。它们通过强化学习(Reinforcement Learning, RL)的方式,学会在了物理世界中进行严谨的思考与推理,其水平足以在奥林匹克级别的竞赛中与最顶尖的人类与AI同台竞技。
2025-11-19 18:02:50
458
原创 AI教育正在加速落地!开源、闭源和评估基准都备好了,AI教育开发者赶紧了解
当AI教师具备了更强大的教学工具后,一个新的问题随之而来:我们该如何科学、全面地评估它的教学水平?教育,从来不只是知识的单向传递,更包含着思维启发、情感支持、价值观引导等复杂的育人功能。一个只会解题的AI,算不上一个合格的老师。现有的评测基准,尤其是在中文教育领域,普遍存在两大局限:维度单一,且严重忽视育人能力。例如,C-Eval是中国首个全面的评估套件,包含了从初中到专业水平的52个学科的13,948道多选题。
2025-11-19 17:59:15
591
原创 Gemini 3正式发布成最强模型!OpenAI更新GPT-5.1,马斯克发布Grok 4.1,大模型争宠让世界沸腾
股神巴菲特都被“震撼”到了。他预先知晓了Gemini 3能力,砸了43亿美元买了谷歌母公司Alphabet的股份。甚至网友搞了个梗,“Cloudflare 出事的原因找到了”。来源@歸藏的AI工具箱Gemini 3究竟有多强?谷歌DeepMind团队表示:AI从单纯的信息处理迈向了具备深度思考与自主行动的新纪元。它在推理能力上达到了目前的最高水平(State-of-the-art)。各项指标全面领先,很多甚至断崖式领先。
2025-11-19 17:54:56
832
原创 一个能思考、会记忆的AI导演诞生了!新加坡管理大学,香港中文大学等实现故事化视频生成
视频生成领域的一个长期困境是工具的碎片化。已经有许多在单一任务上表现出色的专业模型,有的擅长理解视频内容,有的精于生成视频画面,但现实世界的视频创作是一个复杂且需要反复修改的流程,需要将这些孤立的能力整合起来。为了打破这一瓶颈,新加坡管理大学,香港中文大学,斯坦福大学等,提出一个名为UniVA(Universal Video Agent)的开源全能多智能体框架。它的设计目标致力于将视频的理解、分割、编辑和生成能力无缝地统一到一个连贯的工作流中。按指令自主规划一键式生成完整故事视频,主体始终保持一致。
2025-11-18 16:00:19
356
原创 高难度基准测试表现超GPT5!MiroThinker深度研究模型,单次任务多达600次工具调用
还记得今年9月,陈天桥的MiroMind AI,发布了登顶未来预测基准的深度研究框架。时至今日,仍然稳居榜首。刚刚,MiroMind AI发布了深度研究模型MiroThinker-v1.0,基于Qwen3和Qwen2.5训练。在部分高难度基准测试中,其表现已经超越了GPT-5这样的顶级专有模型。
2025-11-18 15:58:54
864
原创 超越先前SOTA 35.7%:字节开源Depth Anything 3,从任意视觉输入重建3D空间
字节刚刚开源了Depth Anything 3 (后面简称DA3)。实现了视觉三维感知领域的重要突破,它能从任意数量、任意视角的视觉输入中,恢复出空间一致的三维几何结构。,时长00:37人类天生具备从眼睛看到的画面中理解空间的能力,这种能力是机器人导航、混合现实等前沿科技应用的核心。
2025-11-18 15:52:12
1024
原创 AI牛顿,Nature点赞!北大AI系统,无需先验物理知识,仅凭实验数据独立推导出物理定律
北大的研究团队,用一个AI系统,在不被告知任何物理知识的情况下,仅通过观察实验数据,最终独立推导出了牛顿第二定律、万有引力定律和能量守恒定律。科学的终极追求,是用最简洁的定律来描绘最广阔的现象。人类科学家在这个过程中,拥有可解释、追求简洁和普适性的天赋,但研究周期漫长,容易被固有观念束缚,处理极端复杂问题的能力也有限。人工智能的崛起,为科学发现开辟了一条全新的道路。如何开发一个能从数据中自主提取可泛化知识的AI系统?AI-Newton,就是一个由概念提取和合理推理驱动的物理定律发现系统。
2025-11-18 15:49:21
508
原创 一个能思考、会记忆的AI导演诞生了!新加坡管理大学,香港中文大学等实现故事化视频生成
视频生成领域的一个长期困境是工具的碎片化。已经有许多在单一任务上表现出色的专业模型,有的擅长理解视频内容,有的精于生成视频画面,但现实世界的视频创作是一个复杂且需要反复修改的流程,需要将这些孤立的能力整合起来。为了打破这一瓶颈,新加坡管理大学,香港中文大学,斯坦福大学等,提出一个名为UniVA(Universal Video Agent)的开源全能多智能体框架。它的设计目标致力于将视频的理解、分割、编辑和生成能力无缝地统一到一个连贯的工作流中。按指令自主规划一键式生成完整故事视频,主体始终保持一致。
2025-11-18 15:45:14
657
原创 智能体框架的选择:一文读懂9个主流AI智能体框架
智能体正在以前所未有的方式,静悄悄地接管世界。AI的发展浪潮,已经逐渐从单纯的模型能力竞赛,转向了如何让AI自主完成复杂任务的全新阶段。企业正积极利用智能自动化来提升运营效率,AI智能体则成为这场变革的核心驱动力。它们通过自动化任务和大规模交付定制化成果,正在重塑各行各业。一个强大AI系统的根基,在于其选择的框架。框架提供了构建智能系统所需的工具、库和预构建组件,它决定了开发的速度、效率,以及未来的可扩展性。
2025-11-18 15:42:01
851
原创 不再迷恋规模,AI的下一场革命或是小而美的智能体
当一个团队,将周五下午的时间,从枯燥的对账工作,变成了充满活力的创意讨论会,那一刻,才真切地感受到AI的价值。它缺乏对整个业务流程上下文的感知。这一理念超越了传统RPA(机器人流程自动化)的局限,将AI智能体视为具有决策能力和上下文理解的智能实体,能够真正替代人类在特定业务角色中的职能,而不仅仅是执行预设的机械任务。比如,人力资源部门的月度薪酬计算,或者客服部门的工单分类与分配。当一个组织亲眼看到,一个自动化的工作流程,每周为团队节省了几个小时的时间,这种看得见的价值,就为后续的一切奠定了最坚实的基础。
2025-11-18 15:38:25
341
原创 高难度基准测试表现超GPT5!MiroThinker深度研究模型,单次任务多达600次工具调用
还记得今年9月,陈天桥的MiroMind AI,发布了登顶未来预测基准的深度研究框架。时至今日,仍然稳居榜首。刚刚,MiroMind AI发布了深度研究模型MiroThinker-v1.0,基于Qwen3和Qwen2.5训练。在部分高难度基准测试中,其表现已经超越了GPT-5这样的顶级专有模型。
2025-11-17 18:19:46
518
原创 开发者必学!谷歌和Kaggle推出5天免费智能体课程,5份重磅报告,解构AI智能体未来
谷歌与Kaggle联手,用为期5天的强化课程和5份重磅报告,为全球开发者系统性地描绘了构建AI智能体的完整蓝图。课程地址:https://www.kaggle.com/learn-guide/5-day-agentsYouTube直播回放:https://www.youtube.com/playlist?该AI智能体强化课程,旨在帮助开发者掌握人工智能的下一个前沿领域,AI智能体。
2025-11-17 18:17:51
612
原创 MIT让大模型像人类学习一样将新知识内化到模型权重中
麻省理工学院(MIT)的研究者们,教会了大语言模型如何学习新知识。大语言模型的核心机制是静态的,像一本印刷完成后就无法修改的百科全书。它们无法根据新出现的任务,知识或范例来主动调整自身的权重参数。MIT的研究员们引入了自适应大型语言模型(SEAL)的框架,它赋予了大型语言模型一项前所未有的能力:通过生成自己的微调数据和更新指令,实现真正意义上的自我适应。当模型遇到一个新的输入时,它会主动生成一种自我编辑(self-edit)。
2025-11-17 18:09:13
783
原创 VLM 实现 10%的精度提高,13.1倍加速!纽约大学新算法让视觉语言模型更小、更快、更准确
纽约大学的研究团队通过QSVD的新方法,让视觉语言模型(VLM)实现了惊人的效率飞跃,在普通GPU上获得了高达13.1倍的运行速度提升。视觉语言模型是人工智能领域的一项杰出成就,它赋予了AI像人一样同时理解图像和文字的能力。无论是让AI看图说话,进行生动的图像描述,还是回答关于一张图片内容的复杂问题,这些都离不开VLM的核心支持。它就像是连接视觉世界和语言世界的桥梁,在医疗诊断、在线教育、互动娱乐等众多领域展现出巨大的应用潜力。然而,这种强大的能力背后,是巨大的计算代价。
2025-11-17 18:06:00
624
原创 复旦和阶跃让你无限分身:WithAnyone实现高保真、有灵魂且身份一致的单人或多人图像生成
复旦大学和阶跃AI发布了一个人物图像一致性编辑模型WithAnyone。能让你实现无限分身,而且表情自然可跟随情景控制变化。单人:多人:玩AI生图的人都知道,AI在生成图像,特别是人像参考方面,已经达到了令人惊叹的水平。你给它一张参考照片,它就能生成一张看起来几乎一模一样的人脸。但这种完美的相似性,正成为一个新的瓶颈。比如PuLID,InstantID等,表情生硬且无法泛化,生成多少图都是一个复制粘贴的脸,完全没有灵魂。当保真度高到一定程度后,反而会弄巧成拙。
2025-11-17 18:02:19
326
原创 李飞飞World Labs世界模型面向所有人推出;ChatGPT升级5.1,更高情商; 百度文心5.0发布,2.4万亿原生全模态
例如,输入一段描述:一个细节丰富、充满生活气息的霍比特人厨房,里面摆满了编织篮子和铜壶,沐浴在宁静淡蓝色的日光和柔和的环境阴影中,Marble就能将这幅画面从想象变为可供探索的3D场景。只需提供几张从不同角度拍摄的真实地点照片,或一段简短的视频,Marble就能将它们融合,生成一个包含现实空间元素的3D世界。例如,你可以先用简单的几何体搭建一个现代艺术博物馆的布局,然后通过文本提示:一个美丽的现代艺术博物馆,有木地板,充满了色彩斑斓的画作和曲线优美的雕塑,赋予其灵魂。这是创造世界最简单、最快捷的途径。
2025-11-14 17:46:38
1228
原创 节省98.7%的成本,MCP重大革新!用代码直接调用工具
Anthropic官方发布了一篇文章,介绍了MCP的重大革新,相当于重构了。让AI智能体通过编写代码调用工具,而非直接调用,能实现惊人的效率扩展,成本节省98.7%。模型上下文协议,即MCP,是一项旨在连接AI智能体与外部世界的开放标准。在它出现之前,每一种智能体与工具的连接,都需要一次定制化的开发。这种重复且分散的工作,极大地阻碍了构建真正互联互通的智能系统。MCP提供了一种通用语言,开发者只需在自己的智能体中实现一次MCP,便能解锁一个由无数集成组成的庞大生态系统。
2025-11-14 17:40:17
573
原创 百度ERNIE-4.5-VL用28B参数3B激活,比肩Gemini-2.5-Pro和GPT-5-High
百度开源了ERNIE-4.5-VL-28B-A3B-Thinking视觉模型,用用28B参数3B激活,达到了接近SOTA的水平,比肩Gemini-2.5-Pro和GPT-5-High。一个仅需激活3B参数的轻量级模型,在多项多模态权威基准测试中,其性能表现已能与业界顶级的千亿参数旗舰模型并驾齐驱。ERNIE-4.5-VL-28B-A3B-Thinking,代表了多模态智能领域在计算效率与高阶认知能力融合方向上的一次重要探索。
2025-11-14 17:35:08
966
原创 从氛围编程到上下文工程:2025软件开发者必须理解的上下文工程革命
全球性软件及咨询公司 Thoughtworks 的 CTO,Ken Mugrage 在《麻省理工科技评论》上发了一篇文章《从氛围编程到上下文工程:2025 年软件开发》。文章中,Ken Mugrage 阐述了 2025 年软件工程迎来了一个决定性的转折点,一个曾经让无数开发者沉醉的编码方式,正在被一种更严谨、更强大的方法论所取代。
2025-11-13 12:28:46
980
原创 成本不到8千美元!新浪微博1.5B小模型超越近万亿参数模型
VibeThinker-1.5B的成就不仅在于性能,更在于其极致的成本效益。整个后训练过程(包括SFT和RL阶段),在NVIDIA H800 GPU上总共只花费了约3900个GPU小时。按照当时的市场租赁价格,总计算成本不到8000美元。用不到8000美元的成本,达到了需要花费30万甚至50万美元才能企及的性能水平,成本效益比达到了惊人的30到60倍。这种成本上的巨大优势,意味着强大的AI推理能力不再是少数巨头的专利。
2025-11-13 12:25:27
425
原创 音画同步视频生成重磅开源!Character AI和耶鲁大学推出Ovi,让音、画在一个大脑里思考
OpenAI的Sora 2,谷歌的Veo 3.1能音画同步生成视频,但都是闭源产品。开发者们苦苦等待的的源神阿里的wan 2.5,也没选择开源。这不,终于有人打破了寂静。Character AI和耶鲁大学的研究团队联手推出OVI(Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation)。它没有遵循先生成画面再配声音,或反之的传统路径,而是将音频和视频这两种模态,视为一个不可分割的整体,在同一个生成过程中同步诞生。
2025-11-12 14:13:06
936
原创 1.8亿个岗位数据分析揭秘,AI究竟取代了什么工作
Sparktoro的创始人Rand Fishkin也承认,网红营销是数字营销领域为数不多的亮点之一:数字营销岗位近几年来处境艰难,特别是搜索引擎优化(SEO)、内容和社交媒体领域,因为搜索引擎和社交网络大幅削减了它们对外输出的流量,即所谓的‘零点击万物’(Zero Click Everything)现象。因为这些变化,最有可能直接反映出AI所带来的冲击。它的影响是选择性的,它重创了某些创意执行工作,而那些需要同理心、战略思维或复杂问题解决能力的岗位,如软件工程、创意总监和客户服务,则表现出惊人的韧性。
2025-11-12 14:09:22
836
原创 识别1600+种人类语言,支持少样本扩展到5400+种语言,Meta自动语音识别模型开源
Meta AI发布了名为Omnilingual ASR(自动语音识别),它能转录超过1600种人类语言。这其中,有500多种语言是历史上第一次被人工智能系统所理解和记录。语言,是文化的载体,也是沟通的桥梁。但在数字世界里,这座桥梁长期以来只为少数强势语言而架设。全球七千多种语言中,只有极少数能够被计算机处理,绝大多数语言和其背后的文化,都沉默在技术的阴影之下。自动语音识别(ASR)技术,这个旨在将声音转化为文字的工具,本应打破这种沉默,却因其对海量标注数据的依赖,反而加固了这道鸿沟。
2025-11-12 14:06:53
782
原创 聚焦教师 AI 能力升级!解锁多模态教学智能体实战指南【线上直播】
11月13日(周四)20:00,我们特别邀请东软教育集团内训师、广东东软学院电商专业副教授、算泥社区 MVP 刘云鹏老师,带来「AI 开发者之声」第三期直播,以《AI 时代的极客教师的修炼》为主题,从教学场景出发,带教师群体拆解 AI 工具落地教学的全流程。也可扫描下方海报二维码加入AI开发者之声的活动交流群,群内将同步发送直播相关通知及讲师课件资料,与同频开发者一起探讨进化之路,让技术成长更有方向!1、课程导入:聊聊教师与 AI 时代的相遇,破除 “AI 难用”“与教学脱节” 的认知误区;
2025-11-11 16:05:20
144
原创 三位AI殿堂级人物罕见同框:LeCun、李飞飞、谢赛宁团队用空间超感知让AI像人一样理解三维世界
一个由谢赛宁领导,杨立昆(Yann LeCun)、李飞飞参与指导的团队,发布了一项名为Cambrian-S的研究。这项研究让AI学会了惊讶,这或许是人工智能从反应式感知迈向预测性理解的关键一步。这篇论文的核心,不是一个更强的模型,而是一种全新的思考方式。研究指出,当前顶尖的多模态大语言模型(MLLMs)在理解视频时,本质上可能更像在阅读图文摘要,而非真正理解三维空间。我们以为AI在看视频,但它们处理的往往是几张孤立的、被抽取的帧。
2025-11-11 11:08:19
803
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅