
端侧部署
文章平均质量分 92
JasonLiu1919
微信公众号《小窗幽记机器学习》。却顾所来径,苍苍横翠微。个人微信号:onepieceand
展开
-
LLM端侧部署系列 | PowerInfer-2助力AI手机端侧部署47B大模型 (论文解读)
为啥大模型要做端侧部署?除了常说的端侧数据安全隐私,其实还有系统上的原因。PowerInfer-2是一个专为智能手机如何高速推理大型语言模型(LLM)而设计的框架,特别适用于模型大小超过设备内存容量的场景。PowerInfer-2的关键思路是将传统的矩阵计算分解为细粒度的神经元集群计算。具体而言,在PowerInfer-2中设计多态神经元引擎,能够根据LLM推理的不同阶段自适应采用不同的计算策略。此外,引入了分段神经元缓存(neuron caching) 和细粒度神经元集群级流水线。原创 2024-10-05 14:13:42 · 1965 阅读 · 0 评论 -
LLM端侧部署系列 | 手机上运行47B大模型?上交推理框架PowerInfer-2助力AI手机端侧部署
近日,上海交大为大模型能够在智能手机上部署提出PowerInfer-2,该框架是专为智能手机设计且高度优化的推理框架。目前PowerInfer-2支持的最大模型是Mixtral 47B MoE模型,在inference的时候每秒可生成11.68个token,这比其他最先进的框架快22倍。即使是使用7B模型,PowerInfer-2只需将50%的FFN权重放置在手机上,在7B这个模型参数上,仍然是目前最快的推理框架!更多大模型相关,如模型解读、模型微调、模型部署、推理加速。原创 2024-10-04 12:13:56 · 1413 阅读 · 0 评论 -
LLM端侧部署系列 | 如何将阿里千问大模型Qwen部署到手机上?环境安装及其配置(上篇)
引言下载待部署模型安装minconda安装tvm和mlc-llm安装 JDK安装 Android SDK下载mlc-llm仓库设置环境变量安装Rust。原创 2024-06-23 14:49:59 · 2191 阅读 · 3 评论