【llm】——香橙派AIPRO跑qwen2.5-0.5B

qwen2在Ascend310B4上的评测

代码/模型:https://github.com/chenjun2hao/qwen-ascend-llm

依赖

  • 香橙派AIPRO:http://www.orangepi.cn/html/hardWare/computerAndMicrocontrollers/details/Orange-Pi-AIpro.html
  • CANN8.0(自己手动安装的,参考:https://www.hiascend.com/forum/thread-0295148017012941005-1-1.html)
  • 64GB内存卡(最好是更大,不然几个模型就满载了)
  • 其他一些疑问可参考原始项目readme
  • kv_cache_length改为1024了

Ascend npu推理

npu推理采用ACL调用npu,float16的npu模型会比float32的onnx模型会更快。npu模型下载, 提取码: mbbq
请添加图片描述

onnx推理

onnx推理采用onnxruntime作为推理引擎。onnxruntime采用float32推理会比float16更快(原因未知)。修改node之后的float16 onnx模型下载连接 提取码: mbbq
请添加图片描述

注意

  • 最初的onnx需要导出为float16,如果导出为float32会有问题。onnx float32,“–precision_mode=must_keep_origin_dtype”, “–precision_mode_v2=origin”,都试过,转换出来的om文件推理都不正确。
欢迎使用Qwen聊天机器人,输入exit或者quit退出,输入clear清空历史记录
Input: hello
Output: 日起草一份周恩爱证罪数集除公共舞台是时候会显示界面会报错乘集选二取二二三丿同义警告示板卡。为人民服务是

其他

1.因为要用kvcache,看起来用python来进行部署会更快,后续尝试c++的部署方式,看速度是否更快

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值