探讨深度学习框架在端侧 OS 中的角色

5 月 24 日,OSC 源创会第 113 期活动在上海成功举办,本期活动以《LLM 与操作系统:协同进化》为主题。百度飞桨硬件生态产品负责人王凯发表《探讨深度学习框架在端侧 OS 中的角色》主题演讲。

首先从市场与技术双重维度分析,王凯指出,当前端侧部署工具呈现开源与硬件专用方案并行的格局。开源方案如 MLC-LLM (TVM) 和 llama.cpp,凭借轻量化设计、广泛的硬件覆盖(支持 CPU/GPU)、丰富的量化方案以及在 PC 端的优秀体验,展现出强大的生态属性,为用户提供了开箱即用的便利。而另一方面,硬件巨头纷纷推出专用方案以最大化利用其硬件潜能:Intel 的 BigDL-LLM 可调用专用神经网络加速核;Apple 的 CoreML/MLX 能高效利用苹果 NPU;高通的 QNN-HTP 及其 AI Hub、联发科的 NeuroPilot 及其 Model Hub,均专注于调用自家 HTP/APU 加速内核,并通过构建模型库和集成框架,打通从模型到推理的闭环体验。成功的端侧生态策略在于提供多硬件、多模型支持,充分借助生态力量扩大规模、提升体验、拓展场景,并通过对接或自建关键模型库,结合硬件市场份额和更优性能形成正反馈循环。

在端侧性能方面,王凯强调了几个关键点:普遍采用 int4 数据类型以降低模型体积和计算需求;开源方案依赖 CPU/GPU 运行可能面临功耗挑战;闭源方案则能通过如 “投机解码器(lookahead decoder)” 等创新方法,实现高达 30-50% 的额外性能提升。目前业界普遍认为,端侧推理速度达到每秒 20 个 token(20 tok/s)即可满足流畅使用的体验要求。

王凯重点展示了当前大模型在端侧设备上的丰富应用场景,这些场景的核心价值在于本地化处理带来的隐私保护、低延迟和离线可用性:

  • 生产力与辅助功能: 如轻量级模型(如 Phi-Silica)驱动的 PC 端应用提升效率;为视障用户提供的本地文本转语音服务;实时生成音频视频字幕,提升听障用户的可访问性。

  • 智能交互与理解: 功能有限的离线语音助手执行本地语音命令或回答简单问题;设备上的情绪分析,本地解析邮件或文档语气保障隐私;安全语音搜索在本地文件或数据库中检索;智能听写软件利用本地上下文理解进行纠错。

  • 语言处理: 实时语言翻译无需网络连接;离线场景下的正确书写辅助与长文档本地摘要,确保用户快速掌握要点;个性化的语言学习工具提供本地词汇建议和翻译。

展望未来,王凯指出了巨大的机遇所在。现有硬件方案虽在持续优化,但仍可能限制端侧大模型想象力的边界。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值