骁龙大赛技术分享第4期来了

Q1:使用 Qualcomm AI Stack 做端侧部署时,如果模型精度出现下降,该从哪些环节排查?量化、算子兼容性、编译参数之间有什么调优建议?
A1:出现精度下降时,通常需要做逐层对比,确认从哪一层开始偏差。可以检查该层的量化参数(如 encoding 是否异常)、activation 的分布,以及该层在量化转换过程中的输出情况。根据这些信息进一步定位是否是量化参数、算子支持情况或中间结果导致的问题。

Q2:能否用一个真实的模型部署流程来解释 QAIRT 各模块如何协同工作?例如从 PyTorch 模型到最终在设备上运行,会经历哪些步骤?
A2:以 PyTorch 模型为例,流程通常是:
1)先将 PyTorch 模型导出为 ONNX;
2)使用 qairt-converter 转换成浮点 DLC;
3)对 DLC 进行量化,使其能够运行在 HTP 上;
4)使用 QNN 的 context / binary generator 工具将量化后的模型生成最终的 Bin 文件;
5)该 Bin 文件就是最终部署到设备端运行的模型。

Q3:设备端跑多模态或个性化的 GenAI 应用时,延迟有时候会比较高。有没有推荐的优化方法?比如模型拆分、缓存策略、或者 Python API 的调用方式有没有最佳实践?
A3:可以先确认语言模型是否已成功从多头转换成单头;其次适当减小 context length可明显提升速度;另外增加如 SSD 这类并行投机解码策略,也能加速 token 的生成过程。

Q4:GenAl新特性里,有没有一些针对Stable Diffusion这类文生图模型的特殊优化?比如推理速度或者内存占用方面的
A4:对于 Stable Diffusion,我们会先检查模型是否也从多头成功转为单头,同时也有一些蒸馏(distillation)策略,可减少生成步骤,从而提升推理速度。

Q5:老师,当模型部署到手机上之后,效果和在PC上不一样,咱们的调试工具有没有什么“一键诊断”之类的便捷功能,帮我们快速定位问题?
A5:目前没有“一键诊断”工具。如果遇到精度问题,主要还是需要逐层检查,通过层级输出对比来定位是哪一层的计算出现偏差。

Q6:老师,GenAl在端侧的个性化微调 (Fine-tuning) 具体是怎么实现的?需要的数据量和训练时间大概是什么量级?在手机上能完成吗?
A6:目前还是不支持端侧训练的。

Q7:QAIRT 2025 相比之前的版本,对开发者来说最直观、最明显的提升是什么?
A7:最明显的提升是整合了 QNN 和 SNPE,同时新增了大量 Python API,使转换、调试都更方便。现在既能支持传统模型,也能支持大模型的转换,调试工具也比之前版本更完善。

Q8:QAIRT 的生态建设如何?是否有类似 Hugging Face 的社区,能找到已优化并可直接在骁龙平台运行的模型?
A8: 可以选用高通Hugging Face (https://huggingface.co/qualcomm) 或 模型广场 (https://www.aidevhome.com/data/models/) 的预量化模型。

Q9:QAIRT 支持所有主流 AI 框架,是不是表示 TensorFlow、PyTorch 这类模型可以开箱即用?还需要额外转换吗?
A9:需要经过 converter、量化流程和 context/binary generator 等步骤,转换完成后才能在 HTP 上实际运行。

Q10:新模型比如GLM4.6,YOLO13,也可以直接转换和量化么?
A10::的,这些模型都有过部署。

Q11:端侧 GenAI 的隐私保护是如何实现的?模型和数据是完全离线的吗?
A11:是完全本地化的。模型与用户数据都在设备上运行,不依赖网络,也不会与云端交互,因此隐私能得到很好保障。

Q12:HTP 是否有计划支持 grouped quantization?
A12:支持per channel和blocked quantization,不知道跟你所表达的grouped是不是一个概念。

Q13:做性能分析时,可视化工具能否看到每一层在 NPU 上的耗时和内存占用?
A13:可以。工具能够显示每一层的执行耗时,以及具体的内存读写情况,并以 summary 文件的形式呈现,方便开发者优化。

Q14:除了常规算子融合、量化外,QAIRT 2025 在编译器上是否有独特优化策略?
A14:是的,可以配置不同的优化编译选项。

Q15:目前端侧运行大语言模型 (LLM) 是否靠谱?例如 7B 模型在最新骁龙平台上的 token 速度、功耗大概是什么水平?
A15:目前在第五代骁龙8至尊版上主要以3B和4B模型为主;在PC端,7B模型大致是 20 Token/s。

以上内容来自2025骁龙人工智能创新应用大赛

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值