自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 收藏
  • 关注

原创 华为磁电融合MED vs 铁电/闪存:存储技术新赛道!

这项技术融合了固态硬盘 (SSD)的高速度和磁带存储的大容量的优势,旨在大幅降低数据中心存储的成本和功耗,并为应对 AI 时代的海量数据存储需求提供更优解决方案。华为 MED 存储的推出,正值数据中心面临海量数据存储和绿色节能双重挑战的关键时期。从电存储 (闪存、铁电存储)、磁存储到磁光电融合存储,数据存储技术不断演进,以适应不断增长的数据量和多样化的应用需求。得益于磁电融合的技术特性,华为 MED 存储展现出显著的优势,尤其在。未来,随着技术的不断成熟和应用场景的拓展,我们有理由相信,

2025-04-02 15:14:39 548

原创 ISSCC 2025 14.2 一款16nm, 216kb, 188.4TOPS/W, 133.5TFLOPS/W的微缩放多模式增益单元存内计算宏单元边缘人工智能设备

在神经网络的实际应用中,ADT(AdderTree,ADT)的输入数据往往不是完全随机的,而是存在一定的统计特性。在软硬件协同优化方面,研究团队提出了SS-VAF技术,通过在CIM内部实现FP2MX和SS处理,并结合方差信息提升输入尾数的稀疏性,有效降低了数据传输开销和计算能耗,克服了传统CIM设计中系统到CIM数据传输的瓶颈难题;此外,A2-DF累加感知数据流技术的提出,实现了动态可重配置的数据写入路径和计算流,增强了写入路径的灵活性,并能根据工作负载动态调整数据流,进一步降低了数据传输能耗。

2025-04-02 15:01:09 551

原创 STT-MRAM CIM 赋能边缘 AI:高性能噪声鲁棒贝叶斯神经网络宏架构详解

该研究提出的22nm STT-MRAM CIM宏芯片,通过SCWT写入方案、μN-ΔI异构架构和2D-CVS-SMC读取方案等多项创新技术的集成,在能效、速度、精度和噪声鲁棒性方面均取得了显著进展。在未来,高性能、低功耗和高噪声鲁棒性的CIM宏芯片能够支持在资源受限的边缘设备上部署更复杂、更强大的神经网络模型,从而提升边缘设备的智能化水平,拓展边缘AI应用的范围。此外,噪声鲁棒性是评价CIM芯片性能的重要指标,尤其是考虑到边缘设备的工作环境往往充斥着复杂噪声,比服务器型芯片具有更高的要求。

2025-03-18 14:40:58 742

原创 IEDM 2024年会:复旦大学刘明院士团队展示融合非易失性铁电和易失性电荷俘获的动态存算类脑阵列

在短时状态下,图5从左至右分别展示了:a)在1.5V的VG脉冲下的PPD情况,在连续脉冲情况下,通道电流由于CT的积累而减小,导致第二脉冲峰A2低于第一个峰A1,右面板显示ID中峰值电流的逐渐下降,而在不同的长期FS状态下增加了刺激脉冲;自动驾驶中,轨迹预测是一个至关重要的功能,通常使用LSTM类型的网络来实现,已有的静态存内计算技术对长期参数(long-term parameter)进行了加速,但短期参数(short-term parameter)的推理计算仍面临较大的缓存开销。

2025-03-18 11:14:28 678

原创 智源Emu3发布,验证多模态模型新范式

具体来说,作者在MSCOCO-30K、GenEval、T2I-CompBench和DPG-Bench等流行的文本转图像地测试中进行了评估,四个评测基准分别针对不同的文本生成图像任务的能力,MSCOCO数据集主要用于图像描述和文本到图像生成任务的通用的评估,GenEval提供了一个多维度、多任务的NLG评估框架,强调全面性和细粒度,T2I-CompBench专门用于评估文本到图像生成模型在组合性方面的能力,DPG-Bench专注于评估文本生成模型在生成多样化释义方面的能力,评测结果如上表所示。

2025-03-17 11:19:21 737

原创 VLSI 2024论文详解:具有紧凑型MAC-SIMD和自适应竖式加法数据流的1T1C DRAM存内计算加速器Dyamond

其次,传统比特串行输入数据流需对每个输入比特执行多次模数转换(ADC)和数字累加,导致能效严重受限(每输入比特生成多比特部分和行,需N×B次ADC操作),同时难以维持复杂DNN模型(如ResNet、BERT)所需的信号量化噪声比(SQNR >30dB),阻碍其在先进AI场景中的部署。此外,SS-ADC可以实现更高的能效。SS-ADC的核心思想是通过信号偏移(Signal Shift),将ADC的输入信号分布零中心化,从而可以使用较低位宽的ADC,在保证精度的前提下,显著降低ADC的功耗。

2025-03-07 16:19:19 994

原创 MWSCAS 2024 论文详解-PSB方法加速模拟存内计算中的乘加法

而在本文中,如图5所示,作者们没有调整参考电压范围,是直接根据推理部分和(Partial Sum)的MAC分布以及前文提到的VCUCM技术,通过缩放计算放电电流来增强(Boost)信号摆幅,这个技术就叫做部分和增强技术(PSB),他可以用忽略不计的功耗提升为代价(<1% ADC功耗),并使SAR-ADC能以更小的面积更低的功耗和更高的转化率来读取,来提升信号摆幅。如图1所示,传统的6T-SRAM在写入操作时需要两个传输门和两条位线,结构复杂且功耗较高,同时会占用较大的布局面积,不利于模拟存算的电路实现。

2025-03-05 17:16:08 886

原创 DeepSeek爆火登顶,下一代AI大模型深度解析

近日火爆科技圈,对决Open AI登顶海外App下载量第一的科技新秀Deepseek,引发媒体关注。在海内外一众大模型公司中为何脱颖而出,本博文展开深度解析。DeepSeek-V3是由中国公司深度求索(DeepSeek)开发的一款先进的大规模语言模型。用户可以通过官方网站进行注册和使用,注册过程简单便捷,仅需手机号即可完成。DeepSeek-V3在训练效率、成本控制、评测表现以及高并发支持等方面展现了显著的优势,使其在与主流大模型的对比中脱颖而出。从训练效率来看,DeepSeek-V3拥有6710亿参数,相

2025-01-27 21:41:30 2730 1

原创 机器人奇点:从宇树科技看2025具身智能发展

在3C、汽车、新能源等行业,这些机器人凭借高精度的视觉检测和精准的运动控制能力,实时感知并适应复杂变化的工业环境,大幅提升生产效率和产品质量,降低人力成本和生产周期。随着技术的成熟和成本的降低,具身智能机器人有望实现从专业领域向大众消费市场的普及,成为人们生活中不可或缺的一部分,深刻改变人类的生产生活方式,推动社会的智能化发展进程。Google DeepMind的RT-2模型是VLA的典型代表,它能够从网络数据和机器人数据中学习,将知识转化为机器人控制的通用指令,显著提升了机器人的泛化能力和语义推理能力。

2025-01-23 18:18:46 6922 1

原创 论文:高速模数转换器 ADC 芯片-基于亚稳态提升性能的研究与探索

并在22nm CMOS工艺下进行了流片研制,该芯片在1GS/s的采样率下实现了47.2dB SNDR的精度和4.15mW的功耗,在相近分辨率的单通道模数转换器中达到了较高的精度和保持了较高的能效(22.23fJ/conv.-step FoMw)。比较器对输入电压进行比较,同时异步逻辑通过 MRSE 监测每个位的比较时间 t_comp:如果 t_comp 小于Ts,表明比较器处于小亚稳态(S 亚稳态),META LOGIC检测到这一情况,并输出相应的标志信号,这将为最终输出提供额外的两位信息;

2025-01-22 12:12:57 948

原创 论文:深度可分离神经网络存内计算处理芯片

相较于传统的卷积神经网络,深度可分离卷积具有如下四个优势:1,更少的参数:可减少输入通道数量,从而有效地减少卷积层所需的参数;2,更快的速度:运行速度比传统卷积快;3,更加易于移植:计算量更小,更易于实现和部署在不同的平台上;4,更加精简:能够精简计算模型,从而在较小的设备上实现高精度的运算。

2025-01-22 11:49:00 1324

原创 加速具身智能,英伟达推出的Cosmos世界基础模型

cosmos是一个用于加速物理AI开发的平台,可以预测与生成未来虚拟世界物理感知视频的神经网络,以帮助开发者进一步构建未来机器人与自动驾驶应用。WFM如大语言模型,属于一个基础性模型,WFM 通过学习大规模视频数据集中的物理规律和自然行为,能够生成与现实世界具有一定相似性的3D高清视频场景。同时通过扩散模型和自回归模型,对预训练的 WFM 进行微调,可以使其适应特定的物理 AI 任务。对于当下的具身智能模型训练,提供了新的支持。

2025-01-09 18:51:04 1263

原创 基于集成非互易磁光的超高耐久性光存内计算技术

光子计算利用光而非电子来进行数据处理的特性有望解决人工智能和机器学习领域对硬件能在超低功耗下实现超高计算吞吐量的需求,然而当前的光子存内计算架构面临存储阵列更新速度慢、能耗高以及耐久性不足等挑战。本文将从需求背景出发,逐一讲述该项研究的工作原理、实验验证以及未来展望等内容。

2025-01-07 11:21:01 931

原创 IS-2T2R存储器:AWS精度下降问题的解决方案

通过这一系列的改进,IS-2T2R结构有效地解决了AWS问题,提高了权重感测的准确性和存内计算的精度。》这篇文献,它提出了一种对称式的2T2R忆阻器结构,通过引入隔离晶体管解决了传统2T2R忆阻器非对称结构带来的权重感知问题,结合工艺优化,实现了42.2%的集成度提升和8.8fJ/op的能效,下面是详细介绍。2T2R结构中,用于存储正负权重的两个晶体管,它们的源极一个连接到RRAM单元,另一个通过SL接地,导致在读取过程中,即使两个RRAM单元存储了相同的权重值,由于一个晶体管的栅源电压V。

2024-12-30 11:07:41 1278

原创 让AI来设计芯片,指日可待?

Synopsys.ai Copilot是新思科技规划中的生成式AI系列的首款产品,其特色在于学习全新的技能并与团队的需求一起成长,让芯片设计与制造厂商可以更轻松地提升生产力,并达成芯片设计从架构的探索、设计到制造的所有阶段的设计目标。AI驱动的芯片自主设计;不管怎样,AI已经证明了其在芯片设计辅助领域的强大能力,作为芯片领域的从业者,也许在不久的将来,我们就能见证AI for EDA,通过商业化AI软件辅助芯片设计,降低设计难度和成本,实现真正的“AI for All Chip Design”。

2024-12-24 11:07:28 1406

原创 存内架构IR-DROP问题详解-电容电导补偿

对于更复杂的电路,如广义逆电路,ConCom 方法同样适用,通过在左右阵列中进行行和列的电导补偿,实现电路输入节点的负载平衡,从而解决线性方程组问题。在 MMVM 电路中,通过确定补偿电导的值,使每个位线(BL)的电阻负载相等,可使电路可作为构建模块用于解决更复杂的问题,如基于局部竞争算法(LCA)的压缩感知(CS)恢复电路,通过将 MMVM 电路与模拟反相器、跨阻放大器(TIA)和软阈值模块相结合,实现从压缩输入信号中重建原始信号的功能。为满足复杂计算需求,。(b) 在125°C退火1小时后的分布。

2024-12-05 15:32:46 1397

原创 AI Top 100-AI 行业资讯网站

涵盖了各种技术主题,包括人工智能 (AI) 如何彻底改变网络和医疗保健等多个行业。如果您想了解人工智能的最新趋势和发展,这些网站时绝佳资源

2024-11-26 19:34:36 1088

原创 电容、电导补偿在存内计算架构优化中的应用

对于更复杂的电路,如广义逆电路,ConCom 方法同样适用,通过在左右阵列中进行行和列的电导补偿,实现电路输入节点的负载平衡,从而解决线性方程组问题。在 MMVM 电路中,通过确定补偿电导的值,使每个位线(BL)的电阻负载相等,可使电路可作为构建模块用于解决更复杂的问题,如基于局部竞争算法(LCA)的压缩感知(CS)恢复电路,通过将 MMVM 电路与模拟反相器、跨阻放大器(TIA)和软阈值模块相结合,实现从压缩输入信号中重建原始信号的功能。为满足复杂计算需求,。(b) 在125°C退火1小时后的分布。

2024-11-26 11:22:00 827

原创 15W奖金!首届知存科技杯高校存内计算创新大赛 正式启动

WTM-8系列芯片基于知存科技自主设计的第二代3D存内计算架构,实现了极低功耗下的8K/120FPS视频实时处理,是知存科技存内计算技术创新、工艺创新取得突破性进展的又一里程碑。为了让客户更便捷高效的基于存内计算芯片开发AI应用,知存科技一直致力于完善和优化存内计算生态,不仅搭建了首个官方存内计算开发者中心,还利用Github将自主研发的软件、工具链正式开源。今年5月,知存科技更是升级了产学研融合战略,联合国内顶级高校,从技术创新、学术交流、人才培养等多方面积极推动存内计算发展。作为产学研融合的又一尝试,

2024-11-21 14:03:56 267

原创 豆包大模型团队开源RLHF框架,破解强化学习训练部署难题

其次,初始化RLHF数据流中的模型并分配虚拟资源池;在这个游戏中,小鸟充当智能体,动作是让小鸟用力向上飞一下或者保持不动,状态包括小鸟的位置、高度、速度等,奖励是获得的积分,回报是获得的奖励的总和,策略是小鸟选择避开水管而飞得更远的依据。基于 Ray 的分布式编程,动态计算图,异构调度能力,通过封装单模型的分布式计算、统一模型间的数据切分,以及支持异步 RL 控制流,HybridFlow 能够高效地实现和执行各种 RL 算法,复用计算模块和支持不同的模型部署方式,大大提升了系统的灵活性和开发效率。

2024-11-08 15:17:14 2126

原创 ISSCC 34.9 面向塑性神经网络集片上自学习与推理一体

为了配合上述PCA更好地工作,本文设计了一种差分阵列融合ADC(DMA-ADC),并配备了多元素稀疏感知(MESA)控制机制:通过ADC重用CSAM采样电容,减少面积开销,通过检测输入数据的稀疏性动态调整ADC的感测步数,进一步降低功耗。本文将5T-LF单元和SRAM集成在一起,将长期和短期信息存储集成在同一个计算阵列(PCA,Plastic Cell Array)中,减少数据传输的延迟和功耗,MVM和MEM协同工作,可以在一个周期内完成计算。是学习率,该式表达了塑性神经网络的权重更新方式。

2024-11-05 14:27:26 841

原创 城市极客,存内先锋-存内社区主理人招募令

存内计算社区面向杭州,北京,上海,深圳,招募城市站主理人,与我们一起构建创新的存内计算社区。我们在这里等你,一起开启技术的新篇章,一起成为引领未来的力量!

2024-10-25 16:40:41 251

原创 1024程序员节- AI智能时代,码出未来

在 1024 程序员节这个特殊的日子里,探讨了 AI 技术在不同领域的应用与发展。上海和深圳作为科技创新的前沿阵地,相关活动中的演讲内容更是聚焦了 AI 技术的核心要点,为我们展示了 AI 时代的新趋势和新机遇。

2024-10-24 17:27:42 541

原创 “AI教父”获诺贝尔物理学奖|神经网络究竟有什么魔力?

2023年,OpenAI推出GPT-4,实现了多模态大语言模型的进一步突破,参数量达到了1.76万亿,与GPT-3相比,GPT-4展示了更强的多模态处理能力,能够处理文本、图像等多种数据形式[11]。在MLLM领域,存内计算技术可以在MLLM训练和推理时提供显著的计算加速,由于神经网络巡礼和推理的核心是大规模的矩阵乘法和卷积操作,存内计算可以在存储单元中直接进行矩阵乘加运算,并在进行大量并行计算时表现出色。同时,存内计算等新兴硬件架构的出现,为大规模神经网络的计算提供了全新的解决方案[10]。

2024-10-21 11:20:12 1079

原创 3D-IC——超越平面 SoC 芯片的前沿技术

如何在不影响设计精度的前提下,在早期阶段实现有效的热分析,是3D-IC面临的一个重要挑战。3D-IC设计流程一般包含系统架构设计、芯片层面设计、TSV规划、热管理设计、先进布局布线、封装和堆叠、仿真验证等设计步骤,虽然目前有多种单一工具可以用来设计3D-IC,但要依靠每个设计团队开发自己的方法来整合流程。“3D-IC”,顾名思义是“立体搭建的集成电路”,相比于传统平面SoC,3D-IC引入垂直堆叠芯片裸片(die)和使用硅通孔(TSV)等先进封装技术,再提高性能、降低功耗和增加集成度方面展现了巨大的潜力。

2024-10-21 10:55:48 2249

原创 IGZO基底无电容DRAM单元前景看好

这种持久的数据保持能力在图中的存储节点电压(SN)变化中得到了清晰的展示,其中不同的数据级别在写入后保持稳定的电压状态,直到下一次写入操作。在制造工艺的角度上,DRAM的微缩存在多个方面的问题 [2]。如图3所示:DRAM的制造工艺受到图形微缩化(如何创建越来越密集的图案)、电容器(从圆柱体演变为柱状结构,需要对高深宽比进行构图)、电阻/电容(位线和字线需要提高电阻/电容才能提高访问速度)以及外围晶体管(从含氧化硅的多晶硅栅到高K金属栅的演变)的多重限制,传统方案已经不宜缩小工艺制程。

2024-09-27 16:15:42 1668

原创 ISSCC 34.8 用于AI边缘设备的22nm,31.2TFLOPS/W,16Mb ReRAM存内浮点计算架构

未来,存储技术的发展前景广阔,将迎来一系列突破性进展。首先,在存储器架构优化方面,通过进一步优化ReRAM阵列结构,可以显著提升并行计算能力。研究新型存储单元设计将大幅提高存储密度和计算效率,满足日益增长的计算需求。

2024-09-27 16:03:05 1260

原创 活动报名| 探索存内计算的未来,共话AGI时代

探索存内计算的未来,共话AGI时代,包含存内计算技术架构以及最新趋势,AGI开源项目交流,存内计算实操上板体验;

2024-09-23 18:02:10 332

原创 ISSCC34.7解析一种具备内存编码与刷新功能的eDRAM查找表数字存内计算芯片

数字存内计算(Digital Computing-in-Memory, DCIM)是一种将计算操作直接集成到存储单元中的新兴计算架构。传统计算模型(冯·诺依曼架构)中的计算和存储是分离的,数据必须频繁在存储器和处理单元之间移动,在大数据和人工智能应用中会导致显著的延迟和能耗开销。数字存内计算的目标是通过在存储单元中直接执行计算任务,减少数据移动,提高系统整体的能效。在DCIM架构中,存储单元不仅用于存储数据,还可以直接执行简单的计算任务,如加法、乘法、逻辑操作等。

2024-09-20 11:36:26 1534

原创 率先搭载存内计算AI芯片,维迈通引领骑行通讯降噪革新

以降噪性能举例,此次发售的三款新品均率先采用了先进存内计算芯片来部署AI降噪算法,在性能测试阶段通过了193km/h赛道极速测试、12000km路测,并记录了400余组数据,在超低功耗下完美运行消噪算法、风向风压算法、男女生算法、麦克风偏离算法等。未来,知存科技将继续推动存内计算技术的创新,为更多行业领域带来智能、高效的AI解决方案。随着维迈通XR、V10S、V10X三款新品的全平台正式发售,我们相信技术的进步能够为每一位骑行爱好者提供更智能、更高效的骑行体验,让每一次骑行都成为一次难忘的旅程。

2024-09-13 16:52:29 757 1

原创 【ISSCC】论文详解-34.6 28nm 72.12TFLOPS/W混合存内计算架构

在基于外积的双模CIM架构中,文章使用了多种方法以提升能效EF,使用CSR格式存储数据以处理稀疏矩阵、执行外积运算以避免使用大扇入的多级加法器树,但是文章在进行双模计算时有着组件空闲的问题,在INT模式下,有关指数、符号数等计算组件处于空闲状态,双模情况下的硬件利用率仍是一个具有挑战性的问题。以具体的乘累加操作为例,如下图2所示,对于W[7:0]×A[7:0]的乘累加操作,首先通过如下所示的公式转换可以将其分为乘法和累加两种操作,分别用橙色和蓝色标注,橙色部分用模拟CIM执行,蓝色部分用数字CIM执行。

2024-09-04 16:47:02 1899

原创 具身智能 | CCF专家谈术语

在2023年即将举办的CVPR 2023具身智能研讨会上,组织了包括基于AI Habitat、AI2-THOR、iGibson、Sapien仿真器的物体重排列、具身问答、具身导航和机器人操作挑战赛,这些具身智能任务与其他线上AI任务具有完全不同的范式,即:基于一个具身智能体(如机器人),通过该智能体的“看”、“说”、“听”、“动”、“推理”等方式,与环境进行交互和探索任务目标,从而解决环境中的各项挑战性任务。现阶段的重点任务主要包括具身导航、问答和包括物体重排列在内的、多种多样的物体操纵任务等。

2024-09-02 13:50:24 1543

原创 智谱携基座大模型 GLM-4-Plus 亮相 KDD,清言全新升级视频通话功能

GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本,它标志着智谱继续瞄准通用人工智能,持续推进大模型技术的独立自主创新。最新推出的基座大模型,和此前发布的 CogVideoX 等模型一道,完善了智谱自主原创的全栈大模型谱系,推动智谱实现面向世界先进水平的全面对标。清言作为第一批 C 端上线的大模型产品,过去的一年,常常以文字和语音的形式和大家交流。在发布并开源 2B 版本后,5B 版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。长文本能力比肩国际先进水平。

2024-08-30 17:49:38 1118

原创 【知识库系列】MPR/多模态方向观察:图像视频与3D生成

随着技术的发展,多模态,3D,视频生成这三个领域不断融合,由NUS PHD团队共创多模态图像知识库,涵盖多模态综述,多模态工程化工具和平台,产品生成形式,以及商业化产品。点击链接获取完整文档。

2024-08-30 16:54:23 1547

原创 中文大模型基准测评2024上半年报告

其中qwen2-7b(70亿参数)取得62分,打败了上一代版本的qwen1.5-32b(320亿参数),qwen2-1.5b(15亿参数)打败了Llama-2-13B-Instruct(130亿参数),展现了更小尺寸的模型的极致性能。国内模型也经历了波澜壮阔的14个月的迭代周期,其中Top1的模型经历了8次易主,不断提升国内模型的最强战力。国内大模型理科表现优异的模型,如Qwen2-72B、AndesGPT和山海大模型4.0稍落后于GPT-4-Turbo-0409,均取得76分的高分。

2024-08-30 15:46:46 1866

原创 GLM大模型 - CogVideoX:5B 开源,2B 转为 Apache 协议

为了促进社区的自主使用和开放式创新,我们现决定将参数规模更大、性能更强的产品级模型 CogVideoX-5B 开源,同时 CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议。为进一步支持开源社区的广泛使用与开发,我们已将 CogVideoX-2B 的协议调整为 Apache 2.0,任何企业与个人均可自由使用。同时,我们推出了在线体验,并将其源代码开源,涵盖了插帧、超分辨率等先进功能,均采用开源技术方案,实现全流程开源。同样支持多种推理精度;

2024-08-29 19:24:14 1188

原创 《黑神话:悟空》横空出世:人工智能加速下的视觉算法神话

不同于外置芯片对画面进行超分辨率得到的画面,显卡级的超分辨率可以获取到游戏生成该画面时使用的一系列数据,进行更准确的插帧,如DLSS帧生成的卷积自动编码器根据当前和之前的游戏帧由Ada Lovelace架构下的光流加速器生成的光流场、运动矢量和深度等游戏内部数据进行超分辨率操作。一类是缓解显卡压力的AI技术,如插帧、超分辨率,根据显卡制造商的不同,代表性的技术有英伟达的DLSS 3、AMD的FSR 3.0、英特尔的XeSS、苹果的MetalFX,这些技术往往同时包括超分辨率和插帧。

2024-08-27 14:12:16 743

原创 开源活动:Witin-NN引领存内计算量化的创新与共享

开源赋能:Witin-NN引领存内计算量化的创新与共享 1. 使用witin-nn工具,自由选择算法,实现量化训练部署2. 将引用witin-nn的项目发布至个人Github账号 1. 发布者将获得存内社区积分800,可兑换社区礼品2. 线下开源活动【Open Coding Day】参与名额

2024-08-20 10:36:56 298

原创 探索Witin-NN Tools量化开源项目:模拟神经网络映射映射到存内芯片的计算过程

如上所示,输入 x 量化为 uint8 的 NPU_x,权重 weight 量化为 int8 的 NPU_weight,偏置 bias 量化为 128 的整数倍,即 NPU_bias,已知 NPU_x,NPU_weight,NPU_bias,可计算出 NPU_y',其中引入模拟电路噪声,得到 NPU_y,最终量化为 int8。它不仅支持从8位到12位的输入和输出量化,还实现了权重的8位量化,通过精确的量化策略,显著提升了模型在硬件上的运行效率,同时最大限度地保留了模型的原始精度。

2024-08-16 12:42:15 1089

原创 论文分析|高效长文本生成的技术与应用

—计算时每一层时都需要储存:在模型的不同层,特别是多头自注意力(Multi-Head Attention)层和多层感知器(MLP)层中,计算过程中会产生中间值,如Q(Query)、K(Key)、V(Value)张量,以及MLP层的中间线性变换结果。传统的串行计算方法可能无法满足效率需求,长序列下模型训练和推理会出现新的瓶颈,需要从硬件出发设计算法进行并行优化,如利用现代硬件(如GPU、TPU)的并行处理能力,可以显著加速模型的训练和推理过程。分解过程都是类似的,都是 分解、计算、汇总。

2024-08-06 10:48:57 1260

新型存内计算架构的应用与挑战

该文档围绕新型存内计算架构展开,首先介绍研究背景,包括人工智能运算需求增长但面临AI与存储墙问题、摩尔定律放缓以及冯诺依曼架构的限制;接着阐述存内计算架构的原理与应用,如基于eNVM阵列实现多种运算及性能提升方案;然后指出新型存内计算架构面临模型权重与器件电导不匹配、计算噪声、边缘端学习能力缺失等挑战,并提出训练后量化、量化噪声感知训练、片上训练等解决方案;最后对存内计算架构的应用进行总结,包括多种神经网络及科学计算系统中的应用,以及提及训练后量化和硬件感知训练等内容。

2024-10-24

存内计算工具链论文合集

存内计算相关工具链,包括工具链量化,映射,研究背景及现有工具链、存内计算相关工具链发展现状、存内计算工具链未来展望。

2024-05-09

中国移动研究院-存算一体白皮书

本白皮书全面阐释了存算一体的核心技术、发展路线、应用场景和产业链生态。希望产学研各界能凝聚共识、加强合作、协同发展,推动存算一体技术成熟和生态繁荣,加快存算一体产业化进程,助力我国在先进计算领域实现高水平自立自强。

2024-05-09

基于忆阻器的存算融合计算架构论文合集

基于SRAM,MRAM,Nor Flash,DRAM等传统或新兴存储器做存算一体的计算架构详解,涵盖最新实验数据以及前沿公司项目论文。

2024-05-09

Session 34 Compute-In-Memory.pdf

Session 34 Compute-In-Memory.pdf

2024-05-01

存算上机位软件详情介绍

上机位软件是知存科技开发的一系列套件,包括Witmem Studio,SPI_Moniter,知存助听器控制台,存算芯片数据下载软件,FDSP自动化汇编指令生成器,FDSP调参软件,EQ及混响调参软件,WTM2系列芯片SDK,低功耗蓝牙显示系列芯片 SDK。 Witmem Studio是由知存科技开发的一款全功能集成开发环境,包含客户识别的SDK推送功能,SDK包自动更新下载安装功能,内核自动识别语法高亮编辑器,面向不同功能的个性化工程创建功能,以及常规IDE所具有的项目工程管理,文件编辑、编译、调试等功能。

2024-04-07

WTM2101编译工具链介绍

WITIN_MAPPER是知存科技自研的用于神经网络映射的编译软件栈,可以将量化后的神经网络模型映射到WTM2101 MPU加速器上,是一种包括RISC-V和MPU的完整解决方案,可以完成算子和图级别的转换和优化,将预训练权重编排到存算阵列中,极大地缩短模型移植的开发周期并提高算法开发的效率[10]。工具链配备五种可选的优化策略:参数放大、权重复制、高比特稀疏、多点卷积优化、正负(PN)优化,实际应用中,用户可根据权重大小、输入数据类型、精度要求、速度要求等多方面自行选择,一般来讲,权重复制+正负(PN)优化+多点卷积优化就可以满足大部分要求。

2024-04-07

WTM2101 ZT1 开发板用户使用手册

WTMDK2101-ZT1 是针对 WTM2101 AI SOC 设计的评估板。 WTMDK2101-ZT1 主要包含 WTM2101-S1 核心板接口,驻极体麦克风接口,音频模块接 口(如 ES8156/ES8311/ES8388/MAX98357 等),USB 串口,耳机接口,电池接口,电源监 测及控制接口等。 WTMDK2101-ZT1 评估板,可用于 WTM2101-S1 核心板测试,以及助听器通用方案的开 发。

2023-12-22

【基于存内计算架构语音算法开发】的实验环境安装包

AISHELL-WakeUp-1数据集是中英文唤醒词语音数据库,命令词为“你好,米雅” “hi, mia”,语音数据库中唤醒词语音3936003条,1561.12小时,邀请254名发言人参与录制。录制过程在真实家居环境中,设置7个录音位,使用6个圆形16路PDM麦克风阵列录音板做远讲拾音(16kHz,16bit)、1个高保真麦克风做近讲拾音(44.1kHz,16bit)。此数据库可用于声纹识别、语音唤醒识别等研究使用。 本demo以该数据集为例,用不同网络结构展示模型训练及移植过程。

2023-12-06

【基于存内计算架构的语音算法开发】工程软件安装包

步骤一:搭建 docker、mappper 环境: ①Linux 下通过 Docker 直接下载,获取指令: docker pull witin/toolchain:v001.000.034 ②Window 环境,可以通过 docker desktop 来使用 docker: 步骤⼆:搭建 IDE 环境 ①预先下载安装包,下载安装 ②默认安装路径,直接点击安装 ③从主菜单的 File->Open…菜单,或者点击工具栏的 按钮,打开选择文 件对话框,选择要打开的项⽬文件,即***.wmproject 文件即可,点击【打开】 按钮即可打开工程。

2023-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除