活动回顾丨北大/清华/Zilliz/MoonBit共话开源，覆盖视频生成/视觉理解/向量数据库/AI原生编程语言

最新推荐文章于 2025-12-12 21:08:38 发布

原创最新推荐文章于 2025-12-12 21:08:38 发布 · 726 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #AI #人工智能 #视频生成 #视觉理解 #向量数据库 #编程语言

人工智能专栏收录该内容

118 篇文章

订阅专栏

当下，AI 产业正迎来一个前所未有的发展周期。大模型的规模化应用、AI 原生软件体系的重构、多模态基础模型的加速演进，让学界与产业界的边界变得愈发模糊。无论是视频生成对音画同步的精细化要求、终端侧视觉模型的高效推理优化，还是新一代 AI 原生编程语言的出现，都在推动一个清晰的趋势——产研协同与开源生态，正在成为 AI 时代最关键的创新范式。

过去数十年，科研驱动产业，产业反哺科研的循环并不鲜见，但在如今这个模型、算力、数据指数级增长的阶段，单点式创新已难以满足需求。开源已从工具共享演变为基础设施协同，成为连接高校、企业、社区、个人开发者的关键纽带。 尤其在视觉、多模态、向量数据库、AI 编程语言等前沿领域，开源不仅加速了技术传播速度，也重塑了研发组织方式，催生了更多「共建式创新」。

在此背景下，HyperAI超神经作为 COSCon’25 的联合出品社区，于 12 月 7 日举办了「产研开源协同论坛」。 我们有幸邀请到了北京大学研究员施柏鑫、Zilliz 首席开源布道师李成龙、清华大学助理研究员陈辉和 MoonBit 社区核心开发者雷正宇，共同探讨前沿研究在开源生态中的落地路径、开源项目在产业实践中的迭代范式，以及未来 AI 应用将如何通过社区力量不断扩展边界。

01 施柏鑫：构建全新数据集，实现视频生成与音画同步技术新范式

当前，视频生成技术在图像质量和短时序连贯性上已取得进展，能生成高保真短片段，并实现一定程度的音画同步，但传统方法仍面临经纬度失真、视角拼接不连续、运动目标一致性差和长时序稳定性不足等问题。同时，音频与视觉内容之间存在高度关联，若要让模型真实捕捉语音、音乐、环境声等多类信息，就必须构建能够理解多轨信号的生成框架。

在这里插入图片描述

施柏鑫老师

在此背景下，施柏鑫老师团队在音画同步方面提出了区间流技术，使模型在学习过程中能够「前后多看几帧」，从而建立跨时间的注意力连接。 而结合内部的 block 模块，模型能够在不同音轨上实现自注意力机制，以更准确地处理说话声、环境声等不同类型的音频信息。音乐部分由于具有更强的全局性，团队通过全局特征注入等方式实现情绪渲染，使模型能够根据音乐氛围生成相应画面。

施柏鑫老师介绍了团队在该项目中作出的突破：

提出多功能的音频同步视频生成框架，通过解混的音频实现精确的视听映射和准确的时间对齐。
构建了一个由 5 个重叠子集组成的音频同步视频生成数据集新数据集，含有约 39.2 万段、时长约 1,200 小时的音视频数据。基于该数据集，模型能够在多轮训练中分别学习人脸口型同步，事件时序控制，以及情感氛围渲染。
提出了多流时间控制网络处理去混的音频轨道，精确控制口型同步，事件时序以及情感氛围。

相关成果以「Audio-Sync Video Generation with Multi-Stream Temporal Control」为题已入选 NeurIPS 2025。

除此之外，施柏鑫老师团队还实现了可生成包含真实运动目标的全景视频，且支持长视频、语义编辑、超分辨率与视角外插等任务。 该方法设计了纬度感知采样技术，有效降低等距矩形投影引起的画面畸变；同时，通过旋转语义去噪与边界填充逐像素解码策略，解决了经度边界处视觉语义不连贯的问题。

相关成果以「PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms」为题，同样已经收录于 NeurIPS 2025。

02 李成龙：基于首个开源向量数据库 Milvus 构建商业化服务

2019 年 10 月，Milvus 正式开源，作为全球首个开源向量数据库，其目前已经在超过 1 万家企业的项目中实现落地，在 GitHub 上累积获得 40K stars。 具体而言，Milvus 覆盖了丰富的数据类型，支持 Float、Sparse、Binary 等多种向量数据，还能够实现动态删减，即增即查，实时落盘。同时，其还支持标签 + 向量的过滤以及关键词 + 向量检索等功能。

在这里插入图片描述

李成龙老师

李成龙老师回顾了 Milvus 的架构演进，在 2021 年 3 月发布的 LTS 版本中，团队围绕数据的持久化、数据分片以及不同异构硬件的支持做了大量工程化的工作。 但该版本还是存在一个明显的劣势，即所有的数据写入、索引等都是 all in one，在一个组件内完成的，形成了单机版本的架构，其主要缺陷就是当数据规模较大时，或者访问的 QPS 比较高时，其扩展能力是非常受限制的，难以应对大企业的大数据量需求，或是双十一等查询流量高的场景。

目前，团队已经在最新的 Milvus 2.6 版本的架构中进行了大量优化，例如增加 StreamingNode 用以处理增量数据，合并 DataNode 与 IndexNode，在对象层消息队列中增加自研的 Woodpecker 等等。

在开源领域取得成功后，Zilliz 也开始思考如何实现商业转化，最终发现，开源 Infra 领域的商业化，基本上就只有一条出路，就是在公有云上提供 Saas 服务。 所以公司目前除了开源的 Milvus 外还基于前者打造了一个全托管的 Zilliz Cloud。目前的很多企业级客户最初也是通过开源项目 Milvus 才了解到公司的，进而认可产品，推进后续的 SaaS 服务。

03 陈辉：构建轻量化主干网络，实现高效精准的端侧视觉理解

视觉理解技术是人工智能领域的热门方向，具有重要的学术研究和应用价值。当前，视觉理解技术已广泛应用于移动端、机器人、自动驾驶等终端场景，但由于国产芯片算力不足、传统模型结构严重冗余等局限，加之复杂场景对模型提出了高通用性的需求，高效视觉模型的研究显得尤为迫切。

在这里插入图片描述

陈辉老师

面向实际终端应用的需求，陈辉老师的团队从基础模型的通用性能力和推理高效两方面出发，构建了轻量化的主干网络，建立了高效通用的视觉基础模型，实现高效精准的端侧视觉理解。其主要技术点包括 3 个方面：

非对称深度学习结构以及轻量化动态网络结构设计；
实时端到端目标检测模型 YOLOv10；
开放域通用视觉理解。

针对深度学习模型「训练—推理」对称结构导致的冗余问题，团队提出「非对称深度学习结构」的概念， 在训练阶段采用更复杂的结构充分学习，推理阶段则通过等价转换压缩计算路径，实现轻量快速部署。在此框架下，团队推出了 RepViT（CVPR 2024），LSNet（CVPR 2025）等多项有影响力的主干网络。

在目标检测方面，团队则重点攻克了 YOLO 系列模型的多框融合导致 NMS 依赖，以及模型结构的冗余性两大痛点。 对此，团队提出一致性双重标签匹配策略，训练时一对一检测头和一对多检测头同频优化，推理时仅用一对一检测头，从而保证精度无损的NMS-free检测识别。

此外，构建了效率驱动和精度驱动的模型设计方法，解决了模型结构冗余带来的计算复杂度高的问题。基于上述方法，构建了新一代 NMS-free 的高效高精度目标检测模型 YOLOv10（NeurIPS 2024），取得了最先进的性能和推理效率的平衡。

查看论文：https://hyper.ai/papers/2405.14458

在模型的场景应用方面，传统目标检测模型往往受限于预定义的标签集，难以适应实际开放场景。对此，团队推出了面向开放场景的视觉理解基础模型 YOLOE（ICCV 2025），语言大模型提供可泛化跨模态表征，利用结构重参数化技术降低推理复杂度，实现了同时支持开放检测和分割的统一模型，支持文本、视觉等多模态开放提示，突破了传统受限的视觉理解模式。

04 雷正宇：MoonBit，在 AI 原生时代重构软件生产力的开源实践

MoonBit 的探索源自一个越来越清晰的行业现实：大模型正在深度融入软件开发全过程，但现有工程体系并不能完全适应这种变化。在大模型深度融入开发流程的当下，软件工程正迎来新的范式转变，AI 不再只是工具，而正在成为代码生成、重构与验证过程的核心参与者，逐渐从传统「人写代码+机器辅助」走向「AI 生成、开发审校」的模式。 IDEA 研究院 MoonBit 团队正是这一趋势下的先行者。

在这里插入图片描述

雷正宇博士

MoonBit 社区核心开发者雷正宇博士介绍，传统编程语言在设计之初并未面向 AI 交互进行优化，而 AI 生成的代码往往存在可读性弱、难以调试、难以复用的问题。MoonBit 的目标正是以 AI 原生编程语言的方式，重新构建一套适配智能时代的软件生产体系， 旨在让 AI 生成的代码更易于人类理解、更符合工程实践，并提升开发、重构与调试的整体效率，以开源的方式构建面向未来的AI云原生开发平台。

在分享中，雷正宇提到，MoonBit 的语言设计、编译工具链和生态建设，都强调 3 个核心目标：

追求极致的编译速度、生成目标体积，具有静态分析工具功能；
具有平滑的学习曲线和复杂度；
构建不依靠 convention 的丰富表达能力。

在这一方向驱动下，MoonBit 社区围绕 Web 开发、数值计算、开源中间件 SDK 等各种方向积累了数千个开源包，形成了一个蓬勃发展的社区生态。 在产业协同方面，MoonBit 正积极与 Python、JavaScript 以及 WebAssembly 建立技术连接。通过自动化封装、跨语言调用和统一的模块接口工具链，开发者不仅可以在 MoonBit 中直接复用 Python 的成熟生态，也能无缝调用 JavaScript 代码或集成 WASM 组件，大幅减少跨语言场景中的重复开发与兼容成本。