
存内计算技术
文章平均质量分 92
存内计算(Computing in memory)是一种革命性的计算架构,存储器中完成计算的形式,打破存储墙,减少数据来回搬运,有效提升算力20X。本专栏专注存内技术原理解析到存内技术生态共创,
存内计算开发者社区
专注存内计算
展开
-
ISSCC 25 14.3论文详解:面向卷积神经网络与 Transformer 的 28 纳米、17.83 - 62.84TFLOPS/W 广播对齐浮点存内计算宏单元
东南大学司鑫教授团队在ISSCC 2025上发表了一篇关于存内计算(CIM)的论文,提出了一种新型的广播对齐非二进制补码浮点存内计算宏(B-A-N2CMAC FP-CIM)。该研究针对高精度和高能效边缘AI芯片的需求,解决了传统浮点计算中的精度损失、性能损失和面积开销问题。通过创新的广播输入、嵌入式区域高效自适应对齐方案和格式混合的N2CMAC,该芯片在28nm工艺下实现了64kb的B-A-N2CMAC FP-CIM宏,支持BF16和INT8两种数据类型。原创 2025-05-12 14:56:17 · 994 阅读 · 0 评论 -
探索Witin-NN Tools量化开源项目:模拟神经网络映射映射到存内芯片的计算过程
如上所示,输入 x 量化为 uint8 的 NPU_x,权重 weight 量化为 int8 的 NPU_weight,偏置 bias 量化为 128 的整数倍,即 NPU_bias,已知 NPU_x,NPU_weight,NPU_bias,可计算出 NPU_y',其中引入模拟电路噪声,得到 NPU_y,最终量化为 int8。它不仅支持从8位到12位的输入和输出量化,还实现了权重的8位量化,通过精确的量化策略,显著提升了模型在硬件上的运行效率,同时最大限度地保留了模型的原始精度。原创 2024-08-16 12:42:15 · 1120 阅读 · 0 评论 -
工具链工具——映射与调度、模拟与验证、开发与测试工具
OpenVINO是英特尔开发的一套优化深度学习性能的工具集,是一款可轻松实现“一次写入,处处部署”的开源AI工具套件,可以缩短延迟,提高吞吐量,加速AI推理过程,同时保持精度,缩小模型占用空间,优化硬件使用,支持多种类型的英特尔硬件。因此,在存算一体芯片的设计过程中,前仿和软件仿真是非常重要的内容。本篇文章将重点介绍工具链的工具相关知识,我们将从工具链的基本概念出发,重点介绍工具链中的映射和调度工具、模拟与验证工具、开发和测试工具,最后提出对工具链发展的展望,从而对工具链的工具进行一个较为系统的讲解。原创 2024-04-29 17:18:02 · 1623 阅读 · 0 评论 -
ISSCC论文详解:ISSCC 2024 34.3 “闪电”数模混合存内计算,适应transformer和CNNs架构
图中蓝色为数字计算部分,黄色为模拟计算部分,通过将高位、低位数字单元(HDU与LDU)与高位、低位模拟单元(HAU、LAU),如图所示对其进行排列组合(两个子阵列与HDU和LDU对组合,四个子阵列与HDU和LAU对组合,其余两个子阵列与HAU和LAU对组合),以此来进行高效的INT 8的MAC操作。接下来我们将以创新点2:近似压缩器的设计为重点,从本论文的近似电路仿真出发,介绍近3年的近似计算技术相关的高水平论文,旨在为读者详细介绍近似计算技术的原理和特点等[1]。(2)压缩器的设计(采用近似方法);原创 2024-04-23 13:57:39 · 2604 阅读 · 1 评论 -
存内领域前沿,基于忆阻器的存内计算----浅析忆阻存内计算
存内计算(In-Memory Computing,简称 IMC)是一种将数据处理和存储紧密结合在一起的计算方式。它的主要思想是在存储设备中直接进行计算,而不是像传统计算那样,在处理器和内存之间频繁地传输数据。 存内计算的优势在于可以大大减少数据移动的次数,从而降低能耗和延迟。由于数据处理在存储设备内完成,不需要将数据传输到处理器进行计算,因此可以提高系统的效率和响应速度。此外,存内计算还可以通过原创 2024-04-01 17:18:56 · 1107 阅读 · 0 评论 -
窥探向量乘矩阵的存内计算原理—基于向量乘矩阵的存内计算
这一系列存内计算的代表性工作,如同一群勇敢的鹿群,勇敢地探索着计算领域的未知领域。DPE、ISAAC、PRIME、PipeLayer、TIME、LerGAN、PCM+CMOS等工作,各自带有独特的特点,共同构筑起存内计算技术的辉煌画卷。未来,存内计算技术将继续与创新者携手前行,挑战更大的计算难题。这不仅是对技术的不懈探索,更是对计算领域的一次颠覆性的变革。在这个充满激情和创造力的时代,我们期待存内计算技术与计算领域共同书写新的传奇。携手向前,踏上计算的无限征程。原创 2024-03-26 17:33:15 · 1604 阅读 · 1 评论 -
探索未来:集成存储器计算(IMC)与深度神经网络(DNN)的机遇与挑战
内存计算(IMC)的主要优势在于减少或抑制数据移动,从而提高了能效。减少数据移动的方法有多种,其中主要包括近内存计算、基于静态随机存取存储器(SRAM)的内存计算以及利用新兴的非易失性存储器(NVM)技术进行内存计算。下面将详细介绍这些技术及其优势。原创 2024-03-29 12:46:24 · 1151 阅读 · 0 评论 -
深度神经网络中的BNN和DNN:基于存内计算的原理、实现与能量效率
基于二值化值和激活的MNIST分类的BNN实现,利用标准6T SRAM位单元进行内存计算。通过使用这种方法,将神经网络中通常需要的MAC操作减少为逐位操作,从而大大减小了模型的大小,节约了能量,同时保持了存储在内存中的重量不变随着人工智能和大数据时代的到来,深度神经网络(DNN)在计算机领域中得到了广泛应用。DNN具有较高的准确度和广泛的应用领域,如语音识别、图像识别等。然而,DNN的计算成本较高,需要大量的标记样本和计算时间。为了解决这一问题,随机梯度优化算法被提出,用于加快DNN的训练速度。原创 2024-03-26 17:29:34 · 1281 阅读 · 0 评论 -
一种新的基于STT-MRAM的时域内存计算单元
在里面虽然在不同的内存内逻辑应用中探索TBS的工作有限,但我们提出的方法建立在最近基于时域计算的架构工作[23]的基础上,这是一个基线。然而,早期的工作遇到了几个问题,例如利用更多周期和增加的存储器位单元数量的连续读写操作,进一步加剧了vonNeumann问题,源极退化,由于级联延迟方法,需要两个感测放大器(SA)来执行两位操作,以及将输入进位表示为全加器(FA)实现的延迟,这引入了波动性。首先,由于列写入能力有限,它对双SA的依赖阻碍了有效的两位操作,需要连续的写入操作来形成所需的组合。原创 2024-04-02 15:40:32 · 796 阅读 · 0 评论 -
“超越摩尔定律”,存内计算走在爆发的边缘
目前,存内计算提供了多种技术,但迄今为止最重要的是存内数据库(以下简称IMDB),市场上已有相关软件及其应用。早在1984年,市场上就出现了存内数据库,最早的产品之一是IBM TM1 - OLAP数据库。然而,由于操作系统和可用硬件的限制,这些系统无法发挥其优势。近年来,这些限制逐渐被淘汰,市场上出现了几种来自主要供应商的IMDB解决方案。2008年,IBM推出了SolidDB作为IMDB,它通过两个独立但永久同步的数据库副本以及硬盘上的永久日志来提供数据的完整性。原创 2024-04-02 17:12:09 · 907 阅读 · 1 评论 -
深度学习编译工具链中的核心——图优化。
WITIN_MAPPER工具链可以完成算子和图级别的转换和优化,将预训练权重编排到存算阵列中,并针对网络结构和算子给出存算优化方案,同时将不适合MPU运算的算子调度到CPU上运算,实现整网的调度,让神经网络开发⼈员高效快捷的将训练好的算法运行在WTM2101芯片上,极大缩短模型移植的开发周期并提高算法开发的效率。在部署深度神经网络的过程中,为了适应硬件平台的优化、硬件本身支持的算子等,需要调整优化网络中使用的算子或算子组合,这就是深度学习编译工具链中的核心——图优化。知存科技是全球领先的存内计算芯片企业。原创 2024-03-27 18:23:49 · 1498 阅读 · 0 评论 -
从MRAM的演进看存内计算的发展
随着人工智能、物联网、智能传感等应用的快速兴起,数据以爆发式的速度增长。海量数据的高效存储、迁移与处理成为当前信息领域的重大挑战。受限于经典的冯诺依曼计算架构存储与处理分离的特性,在面向大数据分析等应用场景中,数据总线的带宽严重制约了处理器的性能与能量效率,并且数据的频繁迁移带来严重的传输功耗问题。存内计算架构在此基础上应运而生。如图-1b所示,通过赋予存储器计算功能,以数据为中心,避免不必要的数据频繁搬运,降低系统的功耗和延时。图1 (a)经典冯诺依曼架构图;(b)主处理器+存内计算的架构示意图;原创 2024-03-29 12:53:22 · 1425 阅读 · 0 评论 -
ISSCC论文详解-2024 ISSCC 34.4 台积电3nm[1]
在这种运算模式中,相较于模拟存算使用模拟值进行累加运算,数字存算电路中的加法树电路消耗巨大的面积,以图中所示电路为例,权重4bit、输入1bit,加法树的第一级就需要采用3个全加器和1个半加器才能完成运算,若电路为64并行度,则需要64个这样的电路,传统意义上1个全加器需要28个晶体管,1个半加器需要20个晶体管,这在电路面积层面的消耗是巨大的,而后续层电路中的加法器个数会在此基础上增加;过去几十年来,半导体行业一直按照摩尔定律的规律发展,凭借着芯片制造工艺的迭代,使得每18个月芯片性能提升一倍。原创 2024-03-18 11:40:28 · 2599 阅读 · 0 评论 -
探索未来:集成存储器计算(IMC)与深度神经网络(DNN)的机遇与挑战
内存计算(IMC)的主要优势在于减少或抑制数据移动,从而提高了能效。减少数据移动的方法有多种,其中主要包括近内存计算、基于静态随机存取存储器(SRAM)的内存计算以及利用新兴的非易失性存储器(NVM)技术进行内存计算。下面将详细介绍这些技术及其优势。原创 2024-03-26 17:31:22 · 1348 阅读 · 0 评论 -
存内计算生态环境搭建以及软件开发
此外,还需开发专门的算法和工具,以优化数据的存储和检索过程,确保计算任务的高效执行。存内计算环境的搭建和软件开发正处于一个快速发展的时期,随着技术的进步,这两个领域都展现出了显著的潜力和多样化的发展趋势。随着存内计算技术的发展,TensorFlow也在调整其算法以适应这一新的计算模式,例如通过优化其底层数据处理和神经网络训练算法来利用存内计算的优势。例如,在大数据分析领域,某些企业利用存内计算来处理大规模的数据集,通过在存储设备内部进行初步的数据处理,降低了对传统CPU的依赖,加快了整个数据分析过程。原创 2024-03-05 17:02:45 · 1309 阅读 · 6 评论 -
存内计算奔跑前进—— 现有模型与算法如何适应存内计算架构
这样,更大的神经网络模型可以存储在相同大小的ReRAM阵列中,同时还减少了数据在处理单元和存储单元之间的传输需求,从而降低了能耗并提高了计算速度。在存内计算架构中,精度调整对计算效率的影响是显著的。在这种架构中,量化技术不仅改进了数据存储的密度和效率,而且由于直接在存储介质内部进行计算,还大大加快了数据处理速度,尤其是在执行大规模并行运算时。这些技术通过减少算法对存储和计算资源的需求,不仅提高了存内计算的效率,还拓宽了其应用范围,对于推动存内计算架构的发展和优化现代数据处理流程至关重要。原创 2024-02-21 16:52:44 · 695 阅读 · 4 评论 -
存内计算技术工具链——量化篇
QAT量化,是将训练过的模型进行量化并再训练。如图5所示,为标准的QAT量化流程,包括跨层均衡(CLE)、添加量化器(Add Quantizers)、范围设置(Range Estimation)、量化参数可学习(Learnable Quantization Params)等步骤,其中在量化参数可学习中,需要直接学习量化参数,而不是在每个周期中更新它们,从而带来更高的性能,特别是在处理低比特量化时,这种设计效果更好。因此,在量化过程之后,通常需要对网络进行重新训练和权重参数的微调,以确保量化后网络的效果。原创 2024-03-11 14:30:40 · 989 阅读 · 1 评论 -
存内计算芯片研究进展及应用
因此,阈值电压漂移的影响非常大。此外,为了同时实现低功耗计算与低功耗控制, WTM2101结合了RISC-V指令集与NOR Flash存内计算阵列,其阵列结构与芯片架构如图8所示,包括1.8 MB NOR Flash存内计算阵列,一个RISC-V核,一个数字计算加速器组, 320 kB。尤其2020年,清华大学研发出基于多个ReRAM阵列的存内计算系统,该系统在手写数字集上的识别准确率达到96.19%,与软件的识别准确率相当,证明了存内计算架构全硬件实现的可行性,其测试芯片如图5(c)所示。原创 2023-12-15 18:15:31 · 2132 阅读 · 0 评论 -
存内计算——助力实现28nm等效7nm功效
就是在光刻时使用光照拼接技术,实现两个曝光区域的物理连接,来把芯片做大,通过计算架构的优化设计,保证晶圆中晶体管的可用性,Cerebras公司和Tesla公司已经实现了晶圆级芯片。而我国当前的算力供给上仍面临巨大的挑战,一方面,国外的高端算力芯片被美国禁售,另一方面,国内的芯片产业仍处于发展阶段[1]。尝试在芯片内布设可编程的计算资源,根据计算任务的数据流特点,动态构造出最适合的计算架构,国内团队设计并在12nm工艺下制造的CGRA芯片,已经在标准测试集上实现了和。在计算架构的优化方面,有。原创 2024-01-31 18:48:32 · 1200 阅读 · 4 评论 -
基于向量矩阵的存内计算架构研究以及应用
外围电路的优化和复用;存算一体技术应作为我国先进计算产业发展的重 点之一,需保持长期关注,要做好中长期路线制定,在支持现有Nor Flash的基础上加强对ReRAM等新型非易失存储的研究,并对存算一体相关基础材料、设计工具等加强研发,此外,要加快推进存算一体应用融合,在未来3-5年内通过自主创新开发专门的存算一体芯片设计工具等基础性产品,提升综合性能,加强“器件—芯片—算法—应用” 跨层协同,构建存算一体芯片的产业化应用与生态.阵列的个数和其他电路单元的设计考虑了向量乘矩阵的计算延迟以及片上网络的带宽。原创 2023-12-29 10:37:14 · 1415 阅读 · 2 评论 -
存内计算——发展史与近期成果
近年来,随着大数据、人工智能等应用的兴起以及摩尔定律的“失效”,英伟达、三星等世界知名的IC企业与高效都已将目光转向存内计算,并已有广泛布局和应用落地,目前,存内计算已成为“兵家必争之地”,在AI时代如何实现性能、算力、功耗的突破?随着深度学习热潮的到来,存内计算由于其结构特点,被认为具有加速深度学习运算的能力,高校开始了存内计算的相关研究,国外开始出现以存内计算为卖点的处理器制造公司,如。除了以上研究热点,存内计算技术还有很多其他的研究应用方面,比如AI加速卡、3D存内计算芯片设计等。原创 2024-01-23 17:24:16 · 961 阅读 · 2 评论 -
存内计算原理分类——数字存内计算与模拟存内计算
该成果已发表在《Science》上。2022年,国内的知存科技率先量产商用WTM2101芯片,结合了RISC-V指令集与NOR Flash存内计算阵列,使用特殊的电路设计抑制阈值电压漂移对计算精度的影响,可实现低功耗计算与低功耗控制,其阵列结构与芯片架构如图4所示,包括1.8 MB NOR Flash存内计算阵列,一个RISC-V核,一个数字计算加速器组,320 kB RAM以及多种外设接口[5]。,如上图3所示,将模型的输入数据设为矩阵[V],模型的参数设为矩阵[G],运算后的输出数据设为矩阵[I]。原创 2024-01-09 16:53:32 · 4714 阅读 · 0 评论 -
技术前沿:传统计算与存内计算的较量,谁将引领未来计算新篇章?
冯诺依曼架构提供了计算机系统的基本组成和工作原理,为计算机的发展奠定了基础,它的简洁性、通用性和可扩展性使得计算机能够执行广泛任务,成为现代科技和信息时代的基石。同样的,数据在计算单元和存储单元之间频繁的移动也会带来不小的功耗,冯·诺依曼架构要求数据在存储器单元和处理单元之间不断地“读写”,这样数据在两者之间来回传输就会消耗很多的传输功耗。在冯诺依曼架构被提出的70余年后,随着处理器算力与存储器储量的提升,架构的局限性逐渐体现,由此,存内计算模式应运而生,原创 2023-12-25 16:36:36 · 2027 阅读 · 0 评论 -
存内生态构建重要一环- 存内计算工具链
根据知存科技官网信息,WITIN_MAPPER是知存科技自研的用于神经网络映射的编译软件栈,可以将量化后的神经网络模型映射到WTM2101 MPU加速器上,是一种包括RISC-V和MPU的完整解决方案,可以完成算子和图级别的转换和优化,将预训练权重编排到存算阵列中,极大地缩短模型移植的开发周期并提高算法开发的效率[10]。[5]然而,存内计算作为一种新型计算范式,将存储单元和计算单元融合,其存储和计算特性不同于传统硬件,使得现有神经网络工具链并不适用于存内计算。自带预编译参考模型,方便用户直接使用;原创 2024-01-26 15:59:27 · 925 阅读 · 2 评论 -
基于不同存储介质的存内计算
如图4所示,上下为电极层,中间为绝缘的电阻转变层。即相变存储器,是一种由硫族化合物材料构成的非易失存储器件,因为相变材料的两种相在切换之后,即使在断电的情况下也可以相对稳定地保持,这是因为相变涉及材料的结构重排,而这种结构变化是物理上的,并不依赖于持续的电源供应。存储器繁多、各具特点。需要注意的是,以下信息均源于企业的公开资料,由于作者能力有限,未罗列全基于SRAM做存算一体芯片的企业,列举的可能并非该企业的最新产品,而企业往往也只会公开产品发布时间点对其有利的部分数据,数据带有宣传性质,请酌情采信。原创 2023-12-28 14:46:34 · 1784 阅读 · 1 评论