- 博客(13)
- 收藏
- 关注
原创 大模型推理精度问题快速分析案例(1)——检查配置与Logits采集比对
当选取了合适的BadCase后,则需要采集其推理过程的中间数据,用于定位引入精度问题的具体token。在定位精度问题时,通常采用“自下而上”的分层比对方法,从模型每个token最后一层输出的Logits开始比对,找到首个与标杆数据比对精度不达标的输出token。
2025-06-09 16:53:33
851
原创 使用AscendFFmpegPlugin转换mp4为h264,h265格式
准备芯片及环境 -> 安装CANN版本包 -> 下载开源FFmpeg代码 -> 拉取FFmpeg-Plugin代码 -> 应用patch -> 编译 -> 执行。mxVison ascend 硬件平台内置了视频相关的硬件加速解码器, 为了提升用户的易用性,插件支持264/265编解码,不用另外装x265程序。原因与解决:h264编码的mp4视频用了。原因与解决:h264编码的mp4视频用了。现象:Ubuntu缺少so包。现象:Ubuntu缺少so包。现象:输入视频解码错误。
2025-05-19 20:22:32
1016
原创 使用MindX Vision SDK进行图片应用开发
Vision SDK是MindSDK中面向图片和视频视觉分析的SDK,提供了基本的视频、图像智能分析能力及编程框架。通过API接口方式开发:提供原生的推理API以及算子加速库,用户可通过调用API接口的方式开发应用。对于有固定应用开发流程的用户,建议采用此方式,借用Vision SDK提供算法加速能力构建CV应用。通过流程编排方式开发:采用模块化的设计理念,将业务流程中的各个功能单元封装成独立的插件。用户可以用流程编排的方式,通过插件的串接快速构建业务,进行应用开发。
2025-05-19 19:37:49
719
原创 算力紧张?昇腾虚拟化实例AVI实现最大化分配卡资源
昇腾虚拟化实例功能是指通过资源虚拟化的方式将物理机配置的NPU(昇腾AI产品)切分成若干份vNPU(虚拟NPU)挂载到容器中使用,虚拟化管理方式能够实现统一不同规格资源的分配和回收处理,满足多用户反复申请/释放的资源操作请求。昇腾虚拟化实例功能的优点是可实现多个用户按需申请共同使用一台服务器,降低了用户使用NPU算力的门槛和成本。多个用户共同使用一台服务器的NPU,并借助容器进行资源隔离,资源隔离性好,保证运行环境的平稳和安全,且资源分配,资源回收过程统一,方便多租户管理。
2025-04-18 18:14:41
638
原创 多机无法拉起DeepSeek-R1模型,昇腾服务器NPU通信问题解决办法
4. 检测多节点的每个卡TLS开关是否一致。6. 检测无误后,重新执行AI任务。3. 检测卡的IP是否配置。NPU网络通信存在问题。5. 本机卡间通信检测。
2025-04-03 22:00:00
394
原创 昇腾DeepSeek模型部署优秀实践及FAQ
推荐参考配置如下,部署DeepSeek-V3/R1量化模型至少需要多节点Atlas 800I A2(8*64G)服务器。本方案以DeepSeek-R1为主进行介绍,DeepSeek-V3与R1的模型结构和参数量一致,部署方式与R1相同。
2025-04-03 21:45:00
900
原创 基于昇腾工具的Resnet50模型性能调优方法
首先,我们强调了迁移或开发基于昇腾的大模型时可能遇到的精度和性能问题,并推荐使用Ascend PyTorch Profiler接口工具来采集性能数据。文本将主要针对昇腾环境下的PyTorch训练场景,推荐通过Ascend PyTorch Profiler接口工具采集并解析性能数据,使用mstt的msprof-analyze工具统计、分析以及输出相关的调优建议,使用MindStudio insight工具对性能数据进行可视化展示。完成模型开发&迁移后,得到可正常执行训练任务的GPU和NPU环境。
2025-02-17 12:04:07
1136
原创 基于昇腾工具的Resnet50模型精度调优方法
msprobe比对功能依赖dump工具采集的数据,计算模型整网NPU侧和标杆设备(如CPU、GPU等,以下标杆设备以GPU为例))的误差指标(如余弦相似度、相对误差小于千分之一的比例、最大值误差等),标记可疑的精度异常API或Module,快速定位精度问题根因。精度数据采集即msprobe的dump功能,可以采集模型训练过程中API或Module层级的前反向输入输出数据,支持采集的数据包括Module的层次关系、Module或API的输入输出的真实数据和统计值信息、Module或API的调用栈等等。
2025-01-19 17:43:52
736
原创 Cosmos-Tokenizer模型昇腾推理适配
Cosmos Tokenizer是英伟达推出的一套图像和视频的标记器,推动了视觉标记化的最先进技术,为大规模、稳健和高效地开发大型自回归变换器(如LLMs)或扩散生成器铺平了道路。选取源码中的测试视频图片(cat.mp4、flower.mov)及自定义视频图片(mouse.png、rose.jpg)作为输入,参考源码测试demo,分别对10个不同版本的模型进行推理测试。Pytorch GPU2Ascend工具是非常好用、便捷的昇腾迁移工具,关于该工具的使用,后续将专门讲解,敬请期待。
2025-01-06 16:26:46
975
原创 Sora技术进展解析
例如,当生成一个包含人物对话和动作的视频场景时,Transformer 能够同时关注人物的表情、语言、动作以及周围环境的变化,确保每个元素的变化都符合逻辑和现实情境,从而提升视频的整体质量和观赏性。通过构建大规模、多样化的训练数据集,并采用有效的数据处理和标记技术,Sora 能够让模型学习到丰富的视觉特征和语义信息,从而提升模型的泛化能力,使其能够应对各种不同类型的视频生成任务,无论是简单的场景描述还是复杂的叙事性视频创作,都能够生成高质量、符合用户需求的视频内容。
2025-01-06 16:21:48
889
原创 检索增强生成RAG与MxRAG
此外,还对嵌入模型进行优化,提供高效的检索增强生成功能,帮助用户构建面向特定应用场景的问答系统,增强系统实用性与可靠性。而且,它在应用开发上具有优势,提供模块化功能接口和预置工作流模板,能够让用户更快搭建起问答服务应用,为大语言模型知识增强应用提供了有力支持,助力用户在多种领域快速构建并部署高效的问答系统。o 或者,可以使用知识图谱等技术,将文档中的实体和关系提取出来,构建一个结构化的知识表示,以便更好地为生成过程提供支持。o 生成过程中,模型会结合输入的查询和融合后的外部知识,生成连贯、准确的文本回答。
2025-01-06 16:18:45
975
原创 如何使用昇腾迁移分析工具进行模型迁移?
将原本设计用于GPU或其他三方平台的深度学习模型训练代码,经过模型代码修改等适配操作,来适应NPU的架构和编程,让模型能在NPU上进行高性能运行。
2025-01-03 18:40:48
1310
原创 昇腾Chatglm3-6b模型微调迁移实践
例如,通过 “--model-type” 参数指定模型类型,像 “--model-type GPT”;同时,还有一些与并行相关的参数设置,像 “--target-tensor-parallel-size” 和 “--target-pipeline-parallel-size”,要保证其参数与微调配置保持一致,例如 “--target-tensor-parallel-size 1 #参数与微调配置保持一致”“--target-pipeline-parallel-size 2 #参数与微调配置保持一致”。
2024-12-23 16:11:35
799
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人