- 博客(3009)
- 收藏
- 关注
转载 显卡中的“TI“到底代表什么
显卡,这个电脑硬件界的明星,负责将数据转化为我们能看到的图像。就像CPU一样,显卡也有自己的处理器,不过它处理的是图形数据,被称为图形处理器(GPU)。在显卡的命名中,你可能会看到“TI”这个后缀,那么它到底代表什么呢?
2025-04-02 17:41:24
6
原创 docker run 本地镜像tar
tar在Docker中,你可以通过多种方式来运行本地镜像。如果你有一个镜像已经保存为.tar文件,你可以先加载这个镜像文件,然后再运行它。
2025-04-02 16:15:21
184
转载 【22token/s|又提升20%】榨干ktransformers的每一滴性能
前一阵子,我用2片9275f,24条6000MHz内存,以及一张4070tis,将DeepSeek R1 671b Q4跑出了18token/s的decode速度,已经达到了流畅的程度。同时我也在尝试运行Q8,但发现只能跑12-13token/s,比较膈应,属于能用但比较慢的程度。由于我本身是做DPDK相关开发的,对软件性能优化也有一定经验,所以我决定尝试对ktransformers进行一些外围优化。为什么说是“外围”,因为ktransformers的核心是tensor运算。
2025-04-02 11:39:01
25
转载 鲲鹏920各型号处理器参数
基于鲲鹏 CPU,打造鲲鹏生态体系。鲲鹏 920 处理器是华为在 2019 年 1 月向业界发布的高性能数据中心处理器,具有高性能,高吞吐,高集成,高能效四大特点。鲲鹏 920 采用 7nm 工艺,有四个典型版本,性能最高的 7260 有 64 个内核,工作频率高达 2.6GHz,支持 8 个或者 4 个内存通道 DDR4,典型主频下 SPECint Benchmark 评分超过 930,超出业界标杆 25%。同时能效比优于业界标杆 30%。
2025-04-02 10:27:44
5
转载 Atlas 800 推理服务器(3000)
图3-1 左右挂耳连线表3-1 左右挂耳连线编号接口和线缆1主板(J6030)到右挂耳板的信号线2主板(J92)到左挂耳板的信号线。
2025-04-02 09:55:22
6
转载 国产化大模型适配~华为鲲鹏服务器~300I-pro
今天收到一个大模型进行国产化适配的任务,服务器是华为鲲鹏服务器(300I-pro),由于之前没有接触过该服务器,为了进行适配,就开始了摸索之路。
2025-03-31 13:43:11
16
转载 自回归语言模型(Causal Language Modeling)
在生成过程中,模型只能根据已经生成的内容预测下一个词,无法使用未来词的信息。会根据序列中已经生成的词预测下一个词,生成的过程是逐步完成的。它依赖前面的词来生成后续的词,形成一个因果关系,因此被称为“Causal”(因果的)。是一种从左到右逐步生成词的语言模型,只能基于前面的词预测后续词,广泛用于文本生成和生成式任务。强调了生成过程中预测的因果性,即只能基于已经生成的内容来生成新的内容,而不能使用未来的信息。的,这意味着在生成每个词时,只能依赖已经生成的词,而不能使用未来的信息。这使得 BERT 模型在。
2025-03-31 11:19:18
7
转载 华为MindIE初体验:Qwen1.5-14B-Chat模型40并发推理实测
最近发现华为NPU的生态里多了一个成员——MindIE,部分解决了大模型推理的问题,下面简要介绍下Mind华为昇腾NPU卡的生态。1)华为NPU生态新增了MindIE,CANN对应对应对应对应vLLM(使用910B4卡):并发数:40首token平均延迟:66毫秒每秒生成token数:约1200单请求每秒生成token数:约30模型:Qwen 1.5-14B-Chat硬件:4卡910B4测试条件:测试结论:测试结果显示,MindIE的推理性能基本可以满足生产环境需求。
2025-03-31 09:43:51
9
转载 生成式人工智能常识之:什么是MCP
在 AI 大模型飞速发展的当下,它们正逐渐渗透到我们生活的各个角落,从智能客服到内容创作,从图像生成到数据分析,展现出强大的能力。然而,当前 AI 大模型却面临着一个严峻的困境 —— 数据孤岛问题。就像一个个被困在孤岛上的巨人,虽然拥有巨大的潜力,但由于难以获取多种数据,导致应用受限。想象一下,当你向大模型询问明天的天气以及你的日程安排时,它却可能因为无法获取实时天气数据和你的日程信息而陷入困境。这是因为。
2025-03-30 17:07:37
20
转载 MindIE量化介绍(w8a8、w8a16、w8a8s、w8a8sc)
此量化方式对权重和激活值均进行量化,将高位浮点数转为8 bit,减少模型权重的体积。使用int8格式的数据进行计算,可以减少MatMul算子计算量,以提升推理性能。说明。
2025-03-28 15:31:47
63
原创 git目录结构
在Git中,目录结构通常指的是一个仓库(repository)中的文件和文件夹的组织方式。Git仓库可以包含一个或多个项目,这些项目通常分布在不同的目录和子目录中。了解如何组织你的Git目录结构可以帮助你更好地管理你的代码和版本控制。
2025-03-27 08:22:45
358
原创 .git可删除吗
。.git文件夹是Git版本控制系统的本地仓库目录,包含了项目的版本历史和元数据。删除.git文件夹会移除项目的版本控制功能,但不会影响项目文件本身。
2025-03-27 08:17:12
185
转载 MindIE Server 配置参数说明
更新时间:2025/03/20说明配置项取值请参考《MindIE安装指南》中“配置MindIE > 配置MindIE Server >”章节的步骤3。系统读取配置文件时,会先校验文件大小,若文件大小范围不在(0MB, 10MB],将读取失败。
2025-03-21 16:14:08
101
转载 Grafana k6 - 新一代性能测试工具
简介k6 是一个免费、开源、高性能的负载测试工具,能有效提高性能测试的生产力。它总结了LoadImpact在负载和性能测试行业的多年经验,提供了简洁、方便的脚本API,支持本地和云端执行,可进行灵活的配置。
2025-03-21 15:59:13
124
转载 打造高性能大模型推理平台之Prefill、Decode分离:微软新作SplitWise,通过将PD分离提高GPU的利用率
由上图可以看到Prefill和Decode时延都会随着token的数量增多而增多,而(c)更可以看出在E2E(end-to-end)的时延中,TTFT(Prefill阶段)时延仅占一小部分,尤其在Conversation中可以看到,只产生129个tokens所花的时间都比处理1020个Prefill的token时间多的多。可以看到这两个阶段的特征完全不同,即便使用很好的batching技术,也无法解决两个如此明显不同阶段所带来的问题,比如:由于硬件资源利用不足,使得为用户提供服务将产生更高的花费。
2025-03-21 14:16:29
32
转载 大模型推理阶段KV计算分析:prefill和decode
二是对decode阶段的计算过程简单分析发现,该过程可以复用prefill阶段的KV结果,也可以复用docode阶段已经产生的KV结果。阶段,大模型一次性对prompt中所有token进行计算QKV,由于不同token的计算是独立的,因此该过程可以并行。对于Q矩阵,每次需要计算的只是Q的最后一行q,计算关于qKV的attention,而不是关于QKV的attention,这样复杂度降低了一个量级,实现以存换算。计算原理和prefill完全相同,但计算方式和decode是不能一样的。
2025-03-21 13:10:41
65
转载 DDR内存芯片基础知识
DDR的全称为Double Data Rate SDRAM(双倍速率的SDRAM),就是我们平时说的内存颗粒,也就是内存芯片。DDR在原有的SDRAM的基础上改进而来,SDRAM在一个CLK周期传输一次数据,而DDR在一个CLK周期传输两次数据,分别在上升沿和下降沿各传输一次数据。随着技术的发展,DDR经历了多轮技术迭代,发展出了DDR2、DDR3、DDR4、DDR5,从DDR到DDR5主要的区别是在于传输速率的不同,随着时钟周期的不断降低,传输速率也不断提高。
2025-03-20 10:21:42
139
转载 理解内存的Rank、位宽以及内存颗粒内部结构
内存标识字符串中的第二段是非常重要的表示内存物理结构的标识。它清楚地写明了当前内存条总共有几个 Rank,每个 Chip 中的位宽是多少。进而也能推算出 1 个 Rank 中有多少个 Chip 组成。例如2R*4 表示的是内存条有 2 个 Rank,每个 Chip 的位宽大小是 4。可以推算出每个 Rank 需要 64/4 = 16 个 Chip 颗粒。这种内存常见于服务器内存。内存颗粒越多,就可以组成更大容量的内存条。2R*8 表示的是内存条有 2 个 Rank,每个 Chip 的位宽大小是 8。
2025-03-20 09:03:02
70
转载 DDR的Controller、Channel、Chip、Rank、Bank、Row、Column、Sided
先从半导体生产开始,生产出来还没切割的叫晶圆(wafer)。切割出来还没封装的叫裸die(bare die)。封装好的叫颗粒(component)。做成内存条后叫模组(module)。下文我们也会按这样的称呼去区分。
2025-03-20 08:51:06
68
原创 海力士内存条参数解析
参数:32GB 2Rx8 PC4-3200AA-RE2-14HMAA4GR7CJR8N-XNT4 AD 2237以下为“32GB 2Rx8 PC4-3200AA-RE2-14”及相关编码的详细解析,结合市场常见参数及公开信息整理:容量:32GB内存条总存储容量为32GB,适用于服务器或高性能计算场景。Rank与Bank结构:2Rx8表示内存包含2个Rank,每个Rank由8个Bank组成,支持高密度数据传输。传输类型:DDR4(PC4-3200)“PC4”对应DDR4标准,等效传输速率为
2025-03-20 08:40:33
450
转载 linux交换区如何创建与删除
在Linux中,交换区(swap space)是用于虚拟内存的一种技术。swap(交换分区)是一种特殊的磁盘空间用于扩展系统的物理内存(RAM)。当系统的物理内存不足时,操作系统会将一些不常用的内存页转移到swap空间中,从而释放更多的物理内存给当前需要运行的应用程序使用。
2025-03-19 13:41:47
21
转载 昇腾 910 与 310 基础芯片族
该服务器面向公有云、互联网、运营商、政府、交通、金融、高校、电力等领域,具有高计算密度、高能效比、高网络带宽、易扩展、易管理等优点,支持单机和整机柜销售, 支持风冷和液冷应用,满足企业机房部署和大规模数据中心集群部署。LPDDR4X 24 GB,总带宽 204.8 GB/s,融合“通用处理器、AI Core、编解码” 于一体,提供超强 AI 推理、目标检索等功能,具有超强算力、 超高能效、高性能特征检索、安全启动等优势,可广泛应用于 OCR 识别、语音分析、 搜索推荐、内容审核等诸多 AI 应用场景。
2025-03-19 10:40:26
34
转载 基于昇腾MindIE推理工具部署Qwen-72B实战(推理引擎、推理服务化)
MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。主要包括模型推理引擎 MindIE和模型服务化 MindIE-Service。从算子、模型、应用三大维度,全面加速推理部署。模型推理引擎:MindIE。
2025-03-19 10:09:33
188
转载 什么是张量并行TP
通俗来说,如果你有一个非常大的神经网络模型,单个GPU的内存无法装下所有的模型参数,你就可以使用多个GPU来共同存储和计算这个模型。启用张量并行后,模型的不同部分会被分配到不同的GPU上,多个GPU协同工作,共同完成模型的训练或推理任务。:这意味着GPU的数量必须是2的幂次方,比如1、2、4、8、16等。:默认情况下,如果不设置这个参数,那么就只有1个GPU用于计算,也就是说没有启用张量并行。的方法,特别是用于大型模型,这些模型太大以至于不能在单个GPU的内存中完全容纳。表示参与张量并行的GPU数量。
2025-03-18 10:00:19
25
转载 fp32、fp16、bf16介绍与使用
上述三种数据类型的间隔单位即计算的最小正值是不一样的,间隔单位的大小取决于一个小值是否被舍弃,如表达一个数值+1.4E-45,采用fp32,这个小值会被看到,但是bf16,由于其间隔单位是9.2E−41,这个小值就会被舍弃。fp16的动态范围是5.96E−8~ 65504,bf16的动态范围是9.2E−41~3.38E38,fp32的动态范围是1.4E-45 ~ 3.40E38,可以看出。最好的是采用fp32单精度,但电脑性能有限,完全采用半精度会出现数据溢出和舍入误差的问题,因此引入了混合精度。
2025-03-18 09:50:13
58
转载 部署模型提示:Setting OMP_NUM_THREADS environment variable for each process to be 1 in default
OMP:Open Multi-Processing,OpenMP是由OpenMP Architecture Review Board牵头提出的,并已被广泛接受,用于共享内存并行系统的多处理器程序设计的一套指导性编译处理方案(Compiler Directive)。在环境变量中 OMP_NUM_THREADS 的默认值为1,但实际使用场景可能支持多个线程,所以建议根据需求配置线程数。
2025-03-18 09:40:37
64
转载 Linux系统之jq工具的基本使用
jq是一款轻量级的命令行json处理工具,可以帮助用户轻松处理json格式的数据。2)灵活和强大:jq具有丰富的功能和灵活的语法,能够处理复杂的JSON数据结构和进行高级的JSON数据操作。6)支持管道:jq支持从一个命令输出管道到另一个命令作为输入,使得数据处理更加灵活和高效。1)快速和高效:jq使用C语言编写,处理JSON数据非常快速和高效。3)命令行工具:jq是一个命令行工具,可从终端中直接调用,方便快捷。5)开源:jq是一个开源工具,用户可自由修改和分发。下载jq工具的软件包。
2025-03-18 08:12:10
35
转载 Docker Run
docker run命令用于在 Docker 中运行一个容器。它可以基于指定的镜像创建并启动一个新的容器实例。docker run其中,OPTIONS是一系列用于配置容器运行方式的选项,IMAGE是要运行的容器镜像,COMMAND是在容器内部执行的命令,ARG是传递给命令的参数。docker run 执行流程首先在指定镜像上创建一个可写的容器层然后使用指定的命令(COMMAND)启动它常用参数option作用-i以交互模式运行容器,通常与 -t 同时使用(interact)-t。
2025-03-17 15:37:08
29
转载 Atlas 800 推理服务器(型号:3000)24.0.0 昇腾软件安装指南
本文主要向用户介绍基于Atlas 800 推理服务器(型号:3000)配置Atlas 300推理卡,如何快速完成昇腾NPU(Neural-Network Processing Unit,神经网络处理器单元)驱动固件、CANN(Compute Architecture for Neural Networks,AI异构计算架构)软件的安装,各软件说明如所示。表1-1 昇腾软件介绍软件类型软件介绍昇腾NPU固件固件包含昇腾AI处理器自带的OS 、电源器件和功耗管理器件控制软件,分别用于。
2025-03-17 11:56:45
95
转载 华为CANN介绍及与英伟达 CUDA区别
CANN和CUDA之间的主要区别在于它们针对的硬件、生态系统成熟度、跨平台能力和开发者资源。随着华为对CANN的持续投入和昇腾处理器的市场渗透,CANN的影响力和市场份额有望进一步扩大。然而,CUDA由于其历史和广泛的应用,仍然在高性能计算和AI领域占据主导地位。华为CANN介绍及与英伟达 CUDA区别 - 53AI-AI生产力的卓越领导者(大模型知识库|大模型训练|智能体开发)
2025-03-17 11:09:37
127
转载 FinalShell
FinalShell 相当于 xshell + ftp 的组合,即:FinalShell = xshell + ftp;FinalShell 只用一个程序,将xshell 、ftp同屏显示,既可以输入命令,也可以传输数据,还能以树的形式展示文件路径;
2025-03-17 08:34:52
68
转载 Nvdia通信库NCCL概念
就是说NCCL kernel在等待数据到来的期间如果有任何CUDA operation进入了队列就会导致死锁,因为NCCL也会执行CUDA调用,而NCCL的CUDA调用会进入队列中等待前一个CUDA操作执行完毕,因此很快就会导致死锁。来创建一个unique的ID,通过广播给所有相关的线程和进程,这个Unique ID被所有进程和线程共享,让他们进行同步,并理解它们是同一个communitor的一部分(这里的broadcast使用的是cpu的通信机制, 比如MPI或者socket)。
2025-03-14 11:07:35
45
转载 WSL2,NCCL报错RuntimeError: NCCL Error 2: unhandled system error
pytorch1.7.1使用的是NCCL version 2.7.8+cuda11.0,NCCL版本不够高,这个问题在NCCL2.11.4中解决了,但从网站下载安装的pytorch是事先编译好的,即使系统中安装了2.11.4版本的NCCL,pytorch调用的仍然是编译时的版本2.7.8,因此,在WSL2中文件的结构和普通的linux系统稍有不同,导致NCCL无法找到相关信息。) ,以获得更为详细的出错提示。随即在环境变量里添加了。再次训练,这次打印出了更为详细的错误信息。这个问题的主要原因是。
2025-03-14 10:50:44
119
转载 ragflow 多张 4090 GPU 初始化文档报错 NCCL Error 2: unhandled system error
ragflow 多张 4090 GPU 初始化文档报错 NCCL Error 2: unhandled system error
2025-03-14 09:42:33
77
转载 nvme和sata区别是什么
NVMe(Non-Volatile Memory Express)和 SATA(Serial Advanced Technology Attachment)都是存储设备与计算机之间进行数据传输的接口协议,但它们之间存在一些重要的区别。本文将介绍NVMe和SATA的区别,包括性能、功耗、可靠性以及应用场景等方面。
2025-03-12 14:53:40
84
转载 服务器智能管理系统iBMC
华为服务器智能管理系统(Huawei Intelligent Baseboard Management Controller,以下简称iBMC)是面向服务器全生命周期的服务器嵌入式管理系统。提供硬件状态监控、部署、节能、安全等系列管理工具,标准化接口构建服务器管理更加完善的生态系统。iBMC基于华为自研的管理芯片Hi1710/Hi1711,采用多项创新技术,全面实现服务器的精细化管理,具有高可靠、高能效、高可用、高安全、高开放的优势。
2025-03-12 14:01:33
40
转载 从DeepSeek到Manus
等专业模块,跨领域处理金融分析、学术研究等场景,甚至能自主优化流程(如第二次简历分析直接生成。从竞品分析、用户画像到病毒式传播设计,最终生成可落地方案,预估首月用户增长。的能力:不仅能理解需求,还能自主规划、调用工具并交付完整成果。幻觉的造法、造案例会严重影响我们的判断,所以这个时候。协作框架),或将激发开发者生态,催生垂直领域超级应用。等海外大模型,降低用户使用门槛,积累超千万用。)调度,缺乏底层突破,可能被大厂快速复制。不靠谱”的能力,才是我们不被取代的关键。,我们或许正站在人机协作的奇点门前。
2025-03-07 14:21:25
50
转载 昇腾AI处理器--Ascend310
昇腾AI处理器本质上是一个片上系统(System on Chip,SoC),主要可以应用在和图像、视频、语音、文字处理相关的应用场景。其主要的架构组成部件包括特制的计算单元、大容量的存储单元和相应的控制单元。该芯片大致可以划为:芯片系统控制CPU(Control CPU),AI计算引擎(包括AI Core和AI CPU),多层级的片上系统缓存(Cache)或缓冲区(Buffer),数字视觉预处理模块(Digital Vision Pre-Processing,DVPP)等。
2025-03-07 09:49:08
71
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人