- 博客(15)
- 收藏
- 关注
转载 昇腾 msmodelslim w8a8量化代码解析
最近有很多朋友都在部署deepseek模型,而且都用到了模型量化这个功能,目的是减少显存占用、提升推理速度。量化算法流程上图是算法流程,主要包含4步:①,使用昇腾 msmodelslim 仓库提供的量化接口对原始模型权重进行量化,生成int8格式的权重文件,以及后续在推理的时候要用到的激活值的量化参数和 matmul 结果的反量化参数;②,推理执行过程中,把Matmul的激活值(也就是输入X)进行int8量化;③,执行int8格式的Matmul计算;④,把int8的乘法结果进行反量化。
2025-03-31 09:46:03
15
转载 qwen2.5 7b w8a8量化推理
但是执行的时候,遇到如下报错:linear type not matched, please check ‘config.json’ ‘quantize’ parameter。说实话,如果经验不足,看到这个报错,会去检查config哪里有问题,这样的可能花费很久也找不出原因。由于我们权重转换时。于是决定采用w8a8量化进行推理性能优化。
2025-03-24 14:34:44
37
原创 llama2 70B mindie推理开箱报错问题
所以,不管是帮忙他人排查问题,还是自己排查问题,先从基本的检查开始,先检查卡有没有被占用,有的话就kill掉(如果是别人的任务,先知会一下哈)!其次,不要自己随意组合版本,否则会因为经验不足卡在莫名其妙的问题上。当然,也可以从产品本身出发,做得更好用一些,比如说,报错信息里面给出一些解决问题的提示、增加版本不匹配提示等等。好用的产品需要精雕细琢,任重而道远!本文由博客一文多发平台OpenWrite发布!
2025-02-17 15:45:01
387
转载 昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
Conformer 模型的输出是一个整形数组,如 [12, 22, 40, ..., -1, -1],非 -1 的每个整数都是一个拼音对应的 token id,如 “yun2 xu3”、“mei2 you3”,而 -1 代表不包含语音信息。至此,你已经成功完成了基于 Conformer 和 Transformer 模型的中文语音识别的全部实验流程,希望你能够熟练掌握这套技术方案,并将其应用到实际的项目中去!原始的语音数据是音频的时间序列,不能直接给AI模型处理,需要进行一系列的预处理得到二维频谱矩阵。
2025-01-17 16:31:23
30
原创 mindspeed-llm源码解析(一)preprocess_data
mindspeed-llm是,原来叫"modelLink"。这篇文章带大家阅读一下数据处理脚本preprocess_data.py(基于1.0.0分支),数据处理是模型训练的第一步,经常会用到。首先来看一下main函数可以看到,main函数处理逻辑主要由这几个函数组成:build_splitter、build_tokenizer、build_dataset、get_dataset_handler、serialize_to_disk。
2025-01-10 10:12:44
376
原创 昇腾AI行业案例(六):基于 PraNet 的医疗影像分割
欢迎学习《基于 PraNet 的医疗影像分割》实验。在本实验中,你将深入了解如何运用计算机视觉(CV)领域的 AI 模型,搭建一个高效精准的医疗影像分割系统,专注于息肉分割任务,并利用开源数据集对模型效果加以验证。学习目标医疗影像数据的预处理方法采用 PraNet 模型对息肉区域进行分割的方法图像分割的后处理方法端到端深度学习工作流目录本实验分为四个核心部分。第一部分主要介绍案例的应用场景,阐述遥感影像地块分割的重要性及意义;第二部分会详细阐述端到端的解决方案,搭建起技术实现的整体框架;
2025-01-09 09:37:30
1030
原创 Torch-npu报错定位技巧
第二步:如果调用栈是libtorch_npu.so内的函数为问号,则将libtorch_npu.so.debug拷贝到/root/miniforge-pypy3/envs/cbn/lib/python3.8/site-packages/torch_npu/lib。第三步:不停地打torch.npu.synchronize(),直到找打这一行:它前面的torch.npu.synchronize()没有报错,它后面的torch.npu.synchronize()报错了。
2025-01-06 11:02:03
650
原创 昇腾集群PFC现象分析
如上图所示,红框截图就是1号卡的通信域的算子执行时序,每个卡有多个通信域,因为这个卡可能同时参与了多种并行,蓝框的每个plane反馈的也是通信行为,只是它反馈的是task粒度,Group xx communication 反馈的是算子粒度。1,版本开发的同学正在做一个需求,就是显示每个communication group对应哪些卡,这样我们就可以知道是不是跨机通信域了,比如说4机32卡的集群,[0, 8, 16, 24]组成的一个通信域就是跨机的(的同学可能都遇到过PFC现象,那么PFC到底是啥?
2025-01-06 10:07:11
745
原创 昇腾AI行业案例(五):基于 DANet 和 Deeplabv3 模型的遥感图像分割
遥感图像在众多领域有着广泛的应用,如土地利用分类、城市规划、农业监测、环境评估、灾害监测等。然而,原始的遥感图像数据量大且复杂,其中包含了各种地物信息,如建筑物、道路、水体、植被、农田等,这些地物在图像上呈现出不同的特征和模式。准确地将这些地物从遥感图像中分割出来,对于后续的分析和决策具有至关重要的意义。例如,在城市规划中,通过对遥感图像的分割,可以清晰地了解城市的建筑分布、道路网络以及绿地面积等信息,从而为合理规划城市布局、优化基础设施建设提供有力依据。
2024-12-20 08:52:54
1006
原创 昇腾AI行业案例(四):基于 Bert 模型实现文本分
在当今数字化信息爆炸的时代,文本分类技术的应用场景无处不在且至关重要。在新闻媒体行业,每天产生的海量新闻稿件需要快速准确地分类到不同的主题类别,如政治、经济、文化、科技、体育、娱乐等,以便读者能够迅速找到自己感兴趣的内容,同时也方便媒体机构进行内容管理和推荐。社交媒体平台上,用户发布的海量帖子和评论需要进行情感分析和主题分类,企业可以借此了解公众对其产品或品牌的看法,及时发现潜在的危机,并制定相应的营销策略。
2024-12-20 08:51:40
389
原创 昇腾AI行业案例(三):基于 AI 图像处理的铝板缺陷检测
在铝板的生产制造以及后续使用过程中,铝板的质量把控至关重要。然而,由于生产工艺、原材料质量、存储环境等诸多因素影响,铝板表面可能会出现各种各样的缺陷,例如 non_conduct(不导电)、abrasion_mark(磨损痕迹)、corner_leak(边角泄漏)、orange_peel(橘皮)、leak(泄漏)、jet_flow(喷射流)、paint_bubble(漆泡)、pit(凹坑)、motley(杂色)、dirty_spot(脏污)等。
2024-12-20 08:50:28
980
原创 昇腾AI行业案例(二):基于 AI 图像处理的安全帽检测
在各类建筑工地、工厂车间等生产作业场所,安全问题始终是重中之重。安全帽作为保护工作人员头部免受意外伤害的关键防护装备,正确佩戴与否直接关乎生命安全。然而,现实场景中,因人员疏忽、管理不善等因素,未佩戴或未正确佩戴安全帽的情况屡见不鲜,这无疑极大地增加了安全事故发生的风险。据相关统计数据显示,在建筑行业,因头部受伤导致的伤亡事故占比颇高。每年,全球范围内都有众多工人因未规范佩戴安全帽,在高空坠物、设备碰撞等意外发生时,遭受重创甚至失去生命。这些惨痛的教训凸显出安全帽检测技术的迫切性与重要性。
2024-12-20 08:47:48
950
原创 昇腾AI行业案例(一):基于AI图像处理的疲劳驾驶检测
在21世纪,汽车已经成为人类生活中不可或缺的工具,它给人们带来便利的同时,也会产生交通事故,交通事故通常是由驾驶员的疲劳驾驶和不规范驾驶造成的。疲劳驾驶是指驾驶员在长时间连续行车后,由于缺乏必要的休息,导致在心理技能和生理机制上发生变化,客观上表现为驾驶技能的下降。这种状态的驾驶员往往会出现打瞌睡、反应迟钝、注意力不集中等现象,极大地增加了交通事故的风险。根据世界卫生组织(WHO)的统计,全球每年约有124万人死于交通事故,而疲劳驾驶是导致这些事故的主要原因之一。
2024-12-16 17:35:07
838
原创 Trusted AI SIG 一指禅
Trusted AI SIG(Special interest groups) 聚焦于人工智能领域的模型、数据可信技术,致力于打造安全可靠的AI计算框架、创建一个开放共赢的交流合作平台。
2023-08-01 19:03:26
116
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人