百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流

百度把他们全新的视觉理解模型Qianfan-VL直接开源了。

Qianfan-VL系列一共有三个版本,3B、8B和70B,参数量从小到大,分别对应不同的应用场景。

模型从头到尾,都是在百度自己家的芯片昆仑芯P800上训练出来的。

模型的性能和应用

Qianfan-VL是一个多模态大模型,就是那种既能看懂图片又能理解文字的AI。一张复杂的图表,它能分析出里面的数据和趋势。

它最核心的两个本领是OCR(光学字符识别)和教育场景的深度优化。

你拍一张身份证,系统自动把你的姓名、证件号填好,这就是OCR。Qianfan-VL把这项能力做到了全场景覆盖,不管是印刷体、手写字,还是藏在街边招牌、商品包装袋上的艺术字,甚至是数学卷子上的复杂公式,它都能识别。发票、单据里的信息也能自动抽出来,变成结构化的数据。

而在教育场景,特别是K12(从幼儿园到高三)阶段,它的目标就是成为一个超级学霸。拍照解题、几何推理、函数分析,这些都是它的强项。

Qianfan-VL和国际上几个主流的多模态模型跑分对比。

在科学问答测试ScienceQA里,70B版本的Qianfan-VL拿到了接近满分的98.76,把一众对手甩在身后。

尤其是在中文多模态基准测试CCBench中,Qianfan-VL-70B拿到了80.98分,而同级别的对手只有70分出头。这说明它在理解中文语境下的图文内容时,优势非常明显。

在数学解题相关的几项测试,比如Mathvista-mini,Math Vision和Math Verse里,Qianfan-VL-70B几乎是碾压式的领先。

纯血国产芯片训练

支撑Qianfan-VL模型训练的,是百度自研的昆仑芯P800芯片。

2025年4月,百度点亮了国内首个全自研的3万卡昆仑芯P800集群。Qianfan-VL的所有训练任务,都是在一个超过5000张昆仑芯P800卡的集群上完成的。

昆仑芯P800有一个非常突出的优点,就是功耗控制得极好,150W到160W的功耗,远低于竞争对手。这意味着在组建大规模集群时,能耗和散热成本会更有优势。

昆仑芯P800真正的杀手锏在于它的架构设计。

P800的XPU-P架构,从硬件上就把计算单元和通信单元分开了。这就好比把单行道改成了双向八车道,旁边还修了条专门给行人走的人行道。计算和通信各走各的路,互不干扰,可以同时进行。

百度把这个技术叫做“通算融合”。通过精巧的调度,可以让数据传输的等待时间,完全被计算过程所掩盖。比如,在计算第一块数据的时候,第二块数据已经在传输的路上了,等第一块算完,第二块正好无缝衔接。这样一来,芯片的利用率被大大提高了。

基于这种能力,百度还推出了“昆仑芯超节点”方案,能把64张昆仑芯P800塞进一个机柜里。卡与卡之间的数据交换从速度较慢的“机间通信”变成了速度飞快的“机内通信”,带宽直接提升8倍,单机训练性能提升10倍。

模型是这么炼成的

它的底层架构融合了业界的优秀成果。语言模型部分,小参数的3B版本基于Qwen2.5,而主力8B和70B版本则基于Llama 3.1。视觉编码器用了InternViT,最高能处理4K分辨率的超高清图像。

精髓在于它的训练方法,百度设计了一套创新的“四阶段训练管线”,像一个精密的四步升级程序。

“跨模态对齐”。这个阶段的目标很简单,就是先让模型的语言部分和视觉部分认识一下,建立最基础的连接。训练的时候,只更新它俩之间的连接件(一个叫MLP Adapter的东西),语言和视觉模块本身都先冻结,避免互相影响。

“通用知识注入”。这个阶段开始给模型疯狂“喂”数据,总共投喂了2.66T tokens的通用知识数据。同时,模型的全部参数都放开进行训练。这个阶段的目标是为模型打下坚实的通识基础,让它成为一个见多识广的“通才”。

“领域增强知识注入”。在成为“通才”之后,就要开始培养它的“专长”了。百度精选了大量高质量的OCR、文档理解、数学解题等领域的数据,对模型进行专项强化训练。为了防止模型在学习专业知识时忘记了通用知识(这个现象在AI训练中被称为“灾难性遗忘”),训练时还会掺入一部分通用数据。

“后训练”。经过前三个阶段,模型已经能力很强了,但可能还不太“听话”。这个阶段就是通过大量的指令微调数据,教模型如何更好地理解和遵循人类的指令,让它变得更像一个得力的助手。

第三阶段使用的专业数据,是百度通过一套高精度数据合成管线自己“造”出来的。

目前,Qianfan-VL的全系列模型已经在GitHub和Hugging Face等平台全面开源,企业和开发者可以自由下载使用。

百度智能云的千帆平台也提供了在线体验和部署服务。

GitHub:

https://github.com/baidubce/Qianfan-VL

Hugging Face:

https://huggingface.co/baidu/Qianfan-VL-70B

https://huggingface.co/baidu/Qianfan-VL-8B

https://huggingface.co/baidu/Qianfan-VL-3B

ModelScope:

https://modelscope.cn/organization/baidu-qianfan

参考资料:

https://baidubce.github.io/Qianfan-VL/

https://www.kunlunxin.com/product/2873.html

END

MATLAB主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性内容概要:本文主要介绍了一种在MATLAB环境下实现的主动噪声和振动控制算法,该算法针对较大的次级路径变化具有较强的鲁棒性。文中详细阐述了算法的设计原理与实现方法,重点解决了传统控制系统中因次级路径动态变化导致性能下降的问题。通过引入自适应机制和鲁棒控制策略,提升了系统在复杂环境下的稳定性和控制精度,适用于需要高精度噪声与振动抑制的实际工程场景。此外,文档还列举了多个MATLAB仿真实例及相关科技术服务内容,涵盖信号处理、智能优化、机器学习等多个交叉领域。; 适合人群:具备一定MATLAB编程基础和控制系统理论知识的科人员及工程技术人员,尤其适合从事噪声与振动控制、信号处理、自动化等相关领域的究生和工程师。; 使用场景及目标:①应用于汽车、航空航天、精密仪器等对噪声和振动敏感的工业领域;②用于提升现有主动控制系统对参数变化的适应能力;③为相关科项目提供算法验证与仿真平台支持; 阅读建议:建议读者结合提供的MATLAB代码进行仿真实验,深入理解算法在不同次级路径条件下的响应特性,并可通过调整控制参数进一步探究其鲁棒性边界。同时可参考文档中列出的相关技术案例拓展应用场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值