
论文解析
文章平均质量分 90
该专栏的博客主要分为作者介绍、摘要、正文、参考文献、评等章节,其中摘要、正文、参考文献均从原文摘抄或翻译,部分表述会基于原文重新组织,但基本均为客观描述,评章节为博主的主观评价。
KGback
一个ICer的搬砖生涯
展开
-
【论文解析】Ara2: Exploring Single- and Multi-Core Vector Processing with an Efficient RVV1.0... Processor
Ara向量部件设计论文阅读原创 2024-10-12 10:14:09 · 853 阅读 · 0 评论 -
【论文解析】A Vector Processing Unit implementation for RISC-V Vector Extension:Functional Verification...
VPU中Ring部件的验证原创 2024-10-07 19:55:58 · 1128 阅读 · 0 评论 -
【论文解析】基于开源 Matrix 指令集扩展(矢量点积)的高性能 RISC-V 处理器“香山”(nanhu 版本)的 LLM 加速的研究
新增矢量点积扩展指令集的的“香山”处理器的 LLM 加速的研究原创 2024-09-24 21:40:01 · 818 阅读 · 0 评论 -
【论文解析】ELSA: Hardware-Software Co-design for Efficient, Lightweight Self-Attention Mechanism in NN
ELSA: Hardware-Software Co-design for Efficient, Lightweight Self-Attention Mechanism in NN原创 2024-09-01 21:40:02 · 1061 阅读 · 0 评论 -
【论文解析】基于脉动阵列的层融合注意力模型加速器结构
基于脉动阵列的层融合注意力模型加速器结构原创 2024-08-30 21:35:57 · 963 阅读 · 0 评论 -
【论文解析】Sanger: A Co-Design Framework for Enabling Sparse Attention using Reconfigurable Architecture
Sanger: A Co-Design Framework for Enabling Sparse Attention using Reconfigurable Architecture原创 2024-08-29 21:00:29 · 1162 阅读 · 0 评论 -
【论文解析】SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning
SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning原创 2024-08-28 21:55:36 · 1218 阅读 · 0 评论 -
【论文解析】Optimizing Attention by Exploiting Data Reuse on ARM Multi-core CPUs
Optimizing Attention by Exploiting Data Reuse on ARM Multi-core CPUs原创 2024-08-18 23:17:26 · 1324 阅读 · 0 评论 -
【论文解析】A 28nm 27.5TOPS/W Approximate-Computing-Based Transformer Processor with Asymptotic Sparsity..
A 28nm 27.5TOPS/W Approximate-Computing-Based Transformer Processor with Asymptotic Sparsity Speculating and Out-of-Order Computing原创 2024-08-02 17:06:37 · 962 阅读 · 0 评论 -
论文解析——Full Stack Optimization of Transformer Inference: a Survey
Full Stack Optimization of Transformer Inference: a Survey原创 2024-07-08 22:33:55 · 1172 阅读 · 0 评论 -
【论文解析】FTRANS: Energy-Efficient Acceleration of Transformers using FPGA
FTRANS: Energy-Efficient Acceleration of Transformers using FPGA原创 2024-07-07 22:31:28 · 1521 阅读 · 0 评论 -
【论文解析】Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design原创 2024-07-06 22:14:25 · 1099 阅读 · 0 评论 -
【论文解析】A3: Accelerating Attention Mechanisms in Neural Networks with Approximation
A3: Accelerating Attention Mechanisms in Neural Networks with Approximation原创 2024-07-05 21:00:55 · 1227 阅读 · 0 评论 -
【论文解析】Transformer 模型压缩算法研究及硬件加速器实现
Transformer 模型压缩算法研究及硬件加速器实现原创 2024-07-04 21:04:09 · 2351 阅读 · 1 评论 -
论文解析——Manticore: A 4096-core RISCV Chiplet Architecture for Ultra-efficient Floating-point Computing
Manticore:一个用于超高效浮点计算的4096个riscv核的chiplet架构原创 2024-04-01 15:47:36 · 1251 阅读 · 0 评论 -
论文解析——Application Defined On-chip Networks for Heterogeneous Chiplets: An Implementation Perspective
应用定义片上网络的异构chiplet:实现前景。先进的2.5D和3D集成技术已经使得chiplet组合系统成为大芯片设计的一个替代,产业界的偏好是对chiplet系统最好的反应,领先的公司基于成本和可扩展的考虑已经在该领域采取行动。原创 2024-03-07 21:18:56 · 1616 阅读 · 0 评论 -
论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing
昇腾:一种用于DNN计算的可扩展的统一架构原创 2024-03-01 11:54:54 · 1854 阅读 · 0 评论 -
论文解析——Review of chiplet-based design: system architecture and interconnection
本文主要介绍了当前主要chiplet系统的分解方案及其优劣,对异构chiplets系统的互连拓扑做了详细分析,介绍了chiplets间的死锁原因和解锁策略,同时对不同chiplets系统的封装方案也做了辅助介绍,也特别强调了架构-封装设计的协同。整体来说,是一篇对chiplets架构设计做了全面论述的好文章。原创 2024-02-25 21:22:27 · 1922 阅读 · 0 评论 -
论文解析——In-DRAM Bulk Bitwise Execution Engine
很多应用都严重依赖逐位操作计算。在已有的系统中机型批量逐位操作需要处理器在内存通道上传输大量的数据,因此需要高延迟、内存带宽和能耗。在这篇文章中,我们介绍了Ambit,一种完全在主存中进行批量逐位操作(bulk bitwise operation)的机制,通过基于DRAM的内部的架构和模拟操作可以获得低成本、高性能和低功耗的效果。原创 2024-01-16 14:54:47 · 484 阅读 · 0 评论 -
论文解析——Debunking the 100X GPU vs. CPU Myth: An Evaluation of Throughput Computing on CPU and GPU
揭穿GPU相比于CPU 100倍性能的神话:一次CPU和GPU上的吞吐量计算的评估原创 2024-01-15 21:33:37 · 957 阅读 · 0 评论 -
论文解析——Kunpeng 920: The First 7-nm Chiplet-Based 64-Core ARM SoC for Cloud Services
鲲鹏920是海思基于ARM架构设计的第二代服务器处理器。利用大量的chiplets以及hybrid工艺技术,鲲鹏920在处理不同负载的同时获取截稿的成效。通过这些灵活的chiplet的重组可以构建新的设计。鲲鹏系列处理器混合各类技术来提升效率,消除瓶颈,提升价值和性能。其关键特征如下:支持向量扩展的超标量架构为高性能应用场景赋能;通过一致性cache子系统将多核基于超低延迟、非阻塞、bufferless的ring设计集成进单chiplet中;原创 2023-11-10 23:01:55 · 2663 阅读 · 0 评论 -
论文解析——Implementing Precise Interrupts in Pipelined Processors
当一条指令执行结束另一条指令开始前,如果保存的进程状态和程序执行的顺序模型相关时,中断要求非常精确。在一个流水线处理器中,由于上一条指令已经完成,下一条指令也许会被初始化,因此中断的精确控制通常是很困难的。本文描述和评估了在流水线处理器中的对精确中断问题的解决方案。首先将描述精确中断问题,然后将详细描述第一个解决方案。第一个是强制指令按照架构顺序完成和修改处理器状态,其他的四种将允许指令以任意的序完成,但是将需要额外的硬件,以致于当中断发生时,精确的状态很难恢复。所有的方法将在并行流水下讨论。原创 2023-11-01 13:09:22 · 360 阅读 · 0 评论 -
论文解析——一种面向Chiplet互连的高效传输协议设计与实现
本位内容来源于论文一种面向Chiplet互连的高效传输协议设计与实现原创 2023-10-16 09:45:29 · 458 阅读 · 0 评论 -
论文解析——一种多核处理器直连接口QoS的设计与验证
本文内容来源于论文:一种多核处理器直连接口QoS的设计与验证原创 2023-10-15 15:33:23 · 325 阅读 · 0 评论 -
论文解析——Pioneering Chiplet Technology and Design for the AMD EPYC™ and Ryzen™ Processor Families
本文详细解释了推动AMD使用chiplet技术的挑战,产品开发的技术方案,以及如何将chiplet技术从单处理器扩展到多个产品系列。原创 2023-10-10 22:27:52 · 729 阅读 · 0 评论 -
论文解析——异构多芯粒神经网络加速器
论文解析——异构多芯粒神经网络加速器原创 2023-10-09 23:31:52 · 2065 阅读 · 0 评论