活动回顾丨 北大/清华/Zilliz/MoonBit共话开源,覆盖视频生成/视觉理解/向量数据库/AI原生编程语言

当下,AI 产业正迎来一个前所未有的发展周期。大模型的规模化应用、AI 原生软件体系的重构、多模态基础模型的加速演进,让学界与产业界的边界变得愈发模糊。无论是视频生成对音画同步的精细化要求、终端侧视觉模型的高效推理优化,还是新一代 AI 原生编程语言的出现,都在推动一个清晰的趋势——产研协同与开源生态,正在成为 AI 时代最关键的创新范式。

过去数十年,科研驱动产业,产业反哺科研的循环并不鲜见,但在如今这个模型、算力、数据指数级增长的阶段,单点式创新已难以满足需求。开源已从工具共享演变为基础设施协同,成为连接高校、企业、社区、个人开发者的关键纽带。 尤其在视觉、多模态、向量数据库、AI 编程语言等前沿领域,开源不仅加速了技术传播速度,也重塑了研发组织方式,催生了更多「共建式创新」。

在此背景下,HyperAI超神经作为 COSCon’25 的联合出品社区,于 12 月 7 日举办了「产研开源协同论坛」。 我们有幸邀请到了北京大学研究员施柏鑫、Zilliz 首席开源布道师李成龙、清华大学助理研究员陈辉和 MoonBit 社区核心开发者雷正宇,共同探讨前沿研究在开源生态中的落地路径、开源项目在产业实践中的迭代范式,以及未来 AI 应用将如何通过社区力量不断扩展边界。

01 施柏鑫:构建全新数据集,实现视频生成与音画同步技术新范式

当前,视频生成技术在图像质量和短时序连贯性上已取得进展,能生成高保真短片段,并实现一定程度的音画同步,但传统方法仍面临经纬度失真、视角拼接不连续、运动目标一致性差和长时序稳定性不足等问题。同时,音频与视觉内容之间存在高度关联,若要让模型真实捕捉语音、音乐、环境声等多类信息,就必须构建能够理解多轨信号的生成框架。

在这里插入图片描述

施柏鑫老师

在此背景下,施柏鑫老师团队在音画同步方面提出了区间流技术,使模型在学习过程中能够「前后多看几帧」,从而建立跨时间的注意力连接。 而结合内部的 block 模块,模型能够在不同音轨上实现自注意力机制,以更准确地处理说话声、环境声等不同类型的音频信息。音乐部分由于具有更强的全局性,团队通过全局特征注入等方式实现情绪渲染,使模型能够根据音乐氛围生成相应画面。

施柏鑫老师介绍了团队在该项目中作出的突破:

  • 提出多功能的音频同步视频生成框架,通过解混的音频实现精确的视听映射和准确的时间对齐。

  • 构建了一个由 5 个重叠子集组成的音频同步视频生成数据集新数据集,含有约 39.2 万段、时长约 1,200 小时的音视频数据。基于该数据集,模型能够在多轮训练中分别学习人脸口型同步,事件时序控制,以及情感氛围渲染。

  • 提出了多流时间控制网络处理去混的音频轨道,精确控制口型同步,事件时序以及情感氛围。

相关成果以「Audio-Sync Video Generation with Multi-Stream Temporal Control」为题已入选 NeurIPS 2025。

除此之外,施柏鑫老师团队还实现了可生成包含真实运动目标的全景视频,且支持长视频、语义编辑、超分辨率与视角外插等任务。 该方法设计了纬度感知采样技术,有效降低等距矩形投影引起的画面畸变;同时,通过旋转语义去噪与边界填充逐像素解码策略,解决了经度边界处视觉语义不连贯的问题。

相关成果以「PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms」为题,同样已经收录于 NeurIPS 2025。

02 李成龙:基于首个开源向量数据库 Milvus 构建商业化服务

2019 年 10 月,Milvus 正式开源,作为全球首个开源向量数据库,其目前已经在超过 1 万家企业的项目中实现落地,在 GitHub 上累积获得 40K stars。 具体而言,Milvus 覆盖了丰富的数据类型,支持 Float、Sparse、Binary 等多种向量数据,还能够实现动态删减,即增即查,实时落盘。同时,其还支持标签 + 向量的过滤以及关键词 + 向量检索等功能。

在这里插入图片描述

李成龙老师

李成龙老师回顾了 Milvus 的架构演进,在 2021 年 3 月发布的 LTS 版本中,团队围绕数据的持久化、数据分片以及不同异构硬件的支持做了大量工程化的工作。 但该版本还是存在一个明显的劣势,即所有的数据写入、索引等都是 all in one,在一个组件内完成的,形成了单机版本的架构,其主要缺陷就是当数据规模较大时,或者访问的 QPS 比较高时,其扩展能力是非常受限制的,难以应对大企业的大数据量需求,或是双十一等查询流量高的场景。

目前,团队已经在最新的 Milvus 2.6 版本的架构中进行了大量优化,例如增加 StreamingNode 用以处理增量数据,合并 DataNode 与 IndexNode,在对象层消息队列中增加自研的 Woodpecker 等等。

在开源领域取得成功后,Zilliz 也开始思考如何实现商业转化,最终发现,开源 Infra 领域的商业化,基本上就只有一条出路,就是在公有云上提供 Saas 服务。 所以公司目前除了开源的 Milvus 外还基于前者打造了一个全托管的 Zilliz Cloud。目前的很多企业级客户最初也是通过开源项目 Milvus 才了解到公司的,进而认可产品,推进后续的 SaaS 服务。

03 陈辉:构建轻量化主干网络,实现高效精准的端侧视觉理解

视觉理解技术是人工智能领域的热门方向,具有重要的学术研究和应用价值。当前,视觉理解技术已广泛应用于移动端、机器人、自动驾驶等终端场景,但由于国产芯片算力不足、传统模型结构严重冗余等局限,加之复杂场景对模型提出了高通用性的需求,高效视觉模型的研究显得尤为迫切。

在这里插入图片描述

陈辉老师

面向实际终端应用的需求,陈辉老师的团队从基础模型的通用性能力和推理高效两方面出发,构建了轻量化的主干网络,建立了高效通用的视觉基础模型,实现高效精准的端侧视觉理解。 其主要技术点包括 3 个方面:

  • 非对称深度学习结构以及轻量化动态网络结构设计;

  • 实时端到端目标检测模型 YOLOv10;

  • 开放域通用视觉理解。

针对深度学习模型「训练—推理」对称结构导致的冗余问题,团队提出「非对称深度学习结构」的概念, 在训练阶段采用更复杂的结构充分学习,推理阶段则通过等价转换压缩计算路径,实现轻量快速部署。在此框架下,团队推出了 RepViT(CVPR 2024),LSNet(CVPR 2025) 等多项有影响力的主干网络。

在目标检测方面,团队则重点攻克了 YOLO 系列模型的多框融合导致 NMS 依赖,以及模型结构的冗余性两大痛点。 对此,团队提出一致性双重标签匹配策略,训练时一对一检测头和一对多检测头同频优化,推理时仅用一对一检测头,从而保证精度无损的NMS-free检测识别。

此外,构建了效率驱动和精度驱动的模型设计方法,解决了模型结构冗余带来的计算复杂度高的问题。基于上述方法,构建了新一代 NMS-free 的高效高精度目标检测模型 YOLOv10(NeurIPS 2024),取得了最先进的性能和推理效率的平衡。

在模型的场景应用方面,传统目标检测模型往往受限于预定义的标签集,难以适应实际开放场景。对此,团队推出了面向开放场景的视觉理解基础模型 YOLOE(ICCV 2025),语言大模型提供可泛化跨模态表征,利用结构重参数化技术降低推理复杂度,实现了同时支持开放检测和分割的统一模型,支持文本、视觉等多模态开放提示,突破了传统受限的视觉理解模式。

04 雷正宇:MoonBit,在 AI 原生时代重构软件生产力的开源实践

MoonBit 的探索源自一个越来越清晰的行业现实:大模型正在深度融入软件开发全过程,但现有工程体系并不能完全适应这种变化。在大模型深度融入开发流程的当下,软件工程正迎来新的范式转变,AI 不再只是工具,而正在成为代码生成、重构与验证过程的核心参与者,逐渐从传统「人写代码+机器辅助」走向「AI 生成、开发审校」的模式。 IDEA 研究院 MoonBit 团队正是这一趋势下的先行者。

在这里插入图片描述

雷正宇博士

MoonBit 社区核心开发者雷正宇博士介绍,传统编程语言在设计之初并未面向 AI 交互进行优化,而 AI 生成的代码往往存在可读性弱、难以调试、难以复用的问题。MoonBit 的目标正是以 AI 原生编程语言的方式,重新构建一套适配智能时代的软件生产体系, 旨在让 AI 生成的代码更易于人类理解、更符合工程实践,并提升开发、重构与调试的整体效率,以开源的方式构建面向未来的AI云原生开发平台。

在分享中,雷正宇提到,MoonBit 的语言设计、编译工具链和生态建设,都强调 3 个核心目标:

  • 追求极致的编译速度、生成目标体积,具有静态分析工具功能;

  • 具有平滑的学习曲线和复杂度;

  • 构建不依靠 convention 的丰富表达能力。

在这一方向驱动下,MoonBit 社区围绕 Web 开发、数值计算、开源中间件 SDK 等各种方向积累了数千个开源包,形成了一个蓬勃发展的社区生态。 在产业协同方面,MoonBit 正积极与 Python、JavaScript 以及 WebAssembly 建立技术连接。通过自动化封装、跨语言调用和统一的模块接口工具链,开发者不仅可以在 MoonBit 中直接复用 Python 的成熟生态,也能无缝调用 JavaScript 代码或集成 WASM 组件,大幅减少跨语言场景中的重复开发与兼容成本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值