Juice_Synopsys-优快云博客

原创【IC】多die设计的bump和TSV规划方法

https://www.synopsys.com/content/dam/synopsys/resources/multi-die/bump-tsv-planning-for-multi-die-designs-wp.pdf

2026-01-04 10:43:12 68

原创【IC】什么是芯片间接口 -- die 2 die interface

芯片间接口是一种功能模块，用于在同一封装内组装的两个硅芯片之间提供数据接口。芯片间接口利用极短的通道连接封装内的两个芯片，从而实现远超传统芯片间接口的功率效率和极高的带宽效率。芯片间接口通常由物理层 (PHY) 和控制器模块组成，可在两个芯片的内部互连结构之间提供无缝连接。芯片间 PHY 采用高速 SerDes 架构或高密度并行架构实现，这些架构经过优化，可支持多种先进的 2D、2.5D 和 3D 封装技术。芯片间接口是推动行业从单芯片SoC设计向多芯片SoC封装转变的关键因素。

2026-01-04 10:37:42 854

原创【AI】MCP和Skills

只需要把它们放到 Claude Desktop 的配置里，你的 Claude 就能瞬间学会“查你的资料”这个技能了。

2025-12-26 15:16:16 307

原创【AI】MCP、A2A和Skills：Agentic AI的最核心基础设施

底层用 MCP：先把公司里的数据库、Slack、Jira 全部变成 MCP Server，让 AI 能连得上。中间层用 Skills：编写各种 Skills（如“自动报修 Skill”、“周报生成 Skill”），把业务逻辑教给 AI。顶层用 A2A：搞一堆不同角色的 Agent（客服、运维、财务），用 A2A 协议把它们连成一个网，让它们自己开会解决问题。

2025-12-26 15:14:58 932

原创【IC】能效 2

层面指标名称公式适用人群宏观 (服务器)SPECpower数据中心运维、采购中观 (极客/评测)Cinebench 分/瓦硬件发烧友、评测媒体微观 (芯片设计)EDPP×t2P×t2芯片架构师策略 (移动端)1 / (Power×\times×Time)操作系统调度优化 (OS Scheduler)

2025-12-25 15:55:56 624

原创【IC】能效

应用场景关键能效指标典型单位关注点边缘 AI (手机/IoT)TOPS/WTOPS/W电池续航，发热控制数据中心 (训练)FLOPS/WTFLOPS/W电力容量限制，散热成本生成式 AI (推理)Token 能效单次服务成本 (Cost per query)芯片研发操作能耗pJ/MAC架构优劣，工艺制程 (如 3nm vs 5nm)AI 芯片的能效不再是单纯看“跑得有多快”，而是看**“搬运最少的数据，用最低的精度，算出用户满意的结果”**。

2025-12-25 15:51:40 911

原创【IC】功耗和能耗

能耗（能量消耗）取决于和两个因素。仅知道功率是 1mW（1毫瓦），无法直接得出一个固定的能耗数值，必须指定持续运行了多长时间。

2025-12-25 15:49:57 612

原创【IC】CiMLoop：存算AI Core量化仿真

没问题！这是 CiMLoop 的核心知识点清单，涵盖了我们刚才讨论的所有重要概念。你可以把它当作复习笔记。

2025-12-25 13:20:43 664

原创【IC】timeloop：AI Core量化仿真

AI 芯片设计很复杂，且极其依赖软件层面的“调度”（Mapping）。作者开发了Timeloop，这是一个能自动搜索最佳调度方案、并快速评估硬件性能的工具。它让芯片设计从这就“凭感觉的艺术”变成了“精确计算的科学”。它能帮助工程师在造出芯片之前，就知道这个芯片好不好，以及该怎么用才能发挥最大威力。这篇文章提出了一个“智能模拟器”，它能帮工程师在设计 AI 芯片时，自动找到让数据搬运最少、计算最快的最佳方案。

2025-12-24 18:02:45 889

原创【IC】LPDDR带宽

速度：单线按8.5 Gbps算。带宽：每 64bit 位宽提供68 GB/s。接口：准备好处理300+ 个 Pin的复杂 BGA 封装。

2025-12-23 15:45:26 419

原创【IC】英伟达显卡的超高显存带宽

电动车。省电、便宜、随便跑。F1 赛车。单圈极速（频率）最快，但车道少。高铁车队。虽然单车速度（频率）不快，但它一次能拉几百节车厢（位宽极大），总运力无敌。所以，做 AI 训练这种吞吐量极大的任务，HBM 是唯一的选择。

2025-12-23 15:44:29 608

原创【IC】UCIe-3D

UCIe-3D 是 Chiplet 的终极形态。它把两颗芯片之间的距离拉近到了“几乎相当于芯片内部连线”的程度。如果说 UCIe-2.5D 是把两栋楼连起来的走廊，那 UCIe-3D 就是直接打穿楼板的电梯。

2025-12-23 14:33:27 412

原创【IC】3D DRAM堆叠的互连方式

如果为了 Workaround (短期救急)可能会采用UCIe-3D或者类 UCIe 的简化版协议。因为这样可以复用现有的 Chiplet IP，研发周期短。如果为了追求极致性能 (长期布局)会走向“无 PHY 直连”。即逻辑芯片的控制器直接驱动上层 DRAM 的存储单元，把两颗芯片当成一颗芯片来设计。这需要极强的协同设计 (Co-Design) 能力。

2025-12-23 14:30:49 416

原创【IC】HBM被禁后的规避方案

如果 HBM 被禁，短期内最可行的Workaround是“GDDR7 + 芯片互连”单卡降级：接受单卡带宽下降的事实，用 GDDR7 替代，虽然带宽只有 HBM 的 1/3 ~ 1/2，功耗还高。集群补救：大力发展Scale-out能力。通过高速 SerDes (以太网/私有协议)把更多的卡连起来。逻辑：单卡跑得慢，我就用 10 张卡跑别人 1 张卡的工作量。只要互连够快，就能用数量弥补质量。既然单点（显存）被卡脖子，那就靠系统（集群互连）来突围。

2025-12-22 19:32:58 883

原创【IC】HBM的通信物理层

HBM 通信方式1024 位超宽并行总线 + 单端信号 + 源同步时钟。本质上是把 DDR 的物理层拍扁、缩小、加密后塞进了封装里。为什么不用 UCIe？因为 HBM 需要极低的访问延迟和特定的内存控制指令，目前的 UCIe 协议包结构对它来说还是太“重”了。

2025-12-22 19:27:33 649

原创【IC】UCIE与GDDR

不能用 UCIe 做 GDDR，是因为 GDDR 的定义就是“在 PCB 板上跑的显存”，而 UCIe 物理上跑不了那么远。但是，如果你把显存搬进 GPU 封装里，用 UCIe (或类似的物理层) 连起来，那就是HBM。未来，随着CPO (光电共封装)和Chiplet的普及，GDDR 这种“板级互连”可能会逐渐被边缘化，最终大家都变成“封装内互连”（也就是你说的用 UCIe 做内存）。

2025-12-22 19:26:46 723

原创【IC】DDR、LPDDR和GDDR

能不能互换？不能。你不能把 LPDDR 芯片焊在 DDR 插槽上，因为物理层电气规范（电压、阻抗、时序）完全不同。但是，控制器 (Controller)逻辑层有很多相似之处，所以很多手机芯片（如骁龙、天玑）的内存控制器经过简单配置，既能支持 LPDDR5，也能支持某些特殊封装的 DDR。谁最强？论带宽：GDDR 遥遥领先。论能效：LPDDR 独步天下。论容量：DDR 是当之无愧的霸主（服务器能插几 TB 内存，手机和显卡做不到）。

2025-12-22 19:25:30 668

原创【IC】以太网

以太网不是一根线，而是一套**“交通规则”**（协议）。只要你遵循这套规则（比如数据怎么打包、地址怎么写、撞车了怎么处理），不管你是在铜线上跑、光纤里跑，甚至在空气中跑（Wi-Fi 其实也算广义的近亲），你都属于以太网家族。当我们在芯片行业讨论“以太网”时，通常指的不是你插路由器的那个孔，而是IEEE 802.3 标准族中那个站在金字塔尖的、用于连接超级计算机和 AI 集群的超高速互连技术。它是目前人类数字基础设施的大动脉。

2025-12-22 19:24:37 369

原创【IC】芯片互连通信速率对比

因为以太网的物理环境相对最单纯，且为了速度不惜代价。技术堆料最猛：以太网 PHY 通常采用最先进的半导体工艺（3nm），也是第一个引入 PAM4、第一个引入强力 FEC (纠错码) 的协议。它的延迟可以很大（百纳秒级），这给 DSP 留出了巨大的运算空间去压榨信道容量。拓扑简单：相比 PCIe 要处理复杂的树状结构、热插拔、向后兼容；以太网通常就是点对点（Switch 到网卡），信道相对干净。极速之王。它代表了人类目前在铜线上传输数据的工程极限。最难搞定DDR。

2025-12-22 19:23:34 423

原创【IC】芯片IO物理层差异

长跑选手。不怕路远路烂，只要能送到就行，对延迟稍微宽容。UCIe短跑接力。在封装内极其省电地搬运数据，不仅要快，还要极度节能。DDR工厂流水线。就在 CPU 隔壁，要求极低的延迟和极大的吞吐，一点点延迟都不能忍。未来的趋势UCIe正在试图统一 Die-to-Die 的互连。CXL正在试图统一 CPU 到各种加速器/内存的互连（复用 PCIe PHY）。永远不会有一个能同时满足 1米传输、0.5pJ/bit 功耗、5ns 延迟的“万能 PHY”。

2025-12-22 19:22:13 880

原创【IC】插入损耗

频率范围主要损耗来源物理原因低频(< 1 GHz)导体损耗电流被挤到表皮，电阻变大高频(> 10 GHz)介质损耗绝缘材料里的分子剧烈摩擦发热任何频率反射损耗接头没接好，路不平所以在 SerDes 这种超高频应用中，我们不仅要用表面光滑的铜（解决导体损耗），还要用损耗角正切 (Df) 极低的板材（解决介质损耗），这也是高速板材贵的根本原因。

2025-12-22 19:21:01 811

原创【IC】互连中的信噪比

直译就是“信号与噪声的比例”。它描述了你想听到的声音（信号）比背景里的嘈杂声（噪声）大多少。：接收端接收到的有效信号功率（单位：瓦特 Watt）。：接收端混入的噪声功率（单位：瓦特 Watt）。SNPsignalPnoiseSNPnoisePsignal如果SN1000S/N = 1000SN1000，说明信号功率是噪声功率的 1000 倍（信号很清晰）。如果SN1S/N = 1SN1。

2025-12-22 16:41:12 655

原创【IC】铜互连通信速率理论极限

这是一个非常棒的“第一性原理”问题。当我们剥离掉所有复杂的电路名词（SerDes, CDR, DFE），通信的本质就回归到了物理学和数学。我们来详细拆解，并为你算一笔“铜互连”的账。

2025-12-22 16:40:10 514

原创【AI】私有 Agentic AI 知识库系统搭建指南

要搭建自己的 Agentic AI，

2025-12-19 15:30:21 820

原创【AI】LLM是如何求解复杂数学题的？decoder only的LLM为什么能解数学题？

擅长分解：通过“思维链”将复杂问题转化为它擅长的、一步接一步的文本生成任务。懂得求助：通过“工具使用”将自己不擅长的精确计算外包给计算器或代码解释器。见多识广：通过海量数据的训练，“记住”了大量的数学知识和解题模式，并进行模仿和套用。可以把LLM想象成一个记忆力超群、不知疲倦、但逻辑能力有限的“学霸”。它自己可能无法“顿悟”一个全新的数学定理，但它看过几乎所有人类已经解决过的题型，并且知道如何把新问题拆解成它见过的旧问题，再利用工具精确地计算出结果。这就是LLM解决数学题的奥秘所在。

2025-12-12 11:55:11 671

原创【python】使用python脚本进行gif压缩

【代码】【python】使用python脚本进行gif压缩。

2025-12-11 15:10:06 211

原创【IC】CCS和NLDM延时模型

CCS 库中包含 NLDM 的cell_delay表是为了兼容性和流程灵活性。但在启用 CCS 模式进行 Sign-off 分析时，工具会忽略这些 NLDM 延时表，转而使用向量表通过积分电流来计算延时。

2025-12-04 16:45:30 768

原创【IC】为什么没办法把芯片全部“打平“设计和实现？

总结来说，放弃层次化设计而采用完全打平的方案，会让我们在项目管理、性能达成、成本控制和IP复用这四个方面都陷入巨大的困境，这几乎必然会导致项目失败。我强烈建议，我们应该将您的自动化愿景，聚焦于如何打造一个世界级的、高度自动化的层次化设计平台。自动化层次切分和预算分配，减少人工决策。建立标准化的模块实现流程，让每个模块都能高质量、高效率地完成。开发智能化的顶层集成与验证脚本，确保拼接过程的顺畅和正确。

2025-12-01 17:23:02 868

原创【AI】INT V.S. FP 英伟达路线的失误与无奈

在大模型推理和训练时，作为底层数据的存储格式和计算格式。INT 的卖点：均匀、稳定、硬件极其高效（省电、省面积）。FP 的卖点：动态范围大（能忽大忽小），适合处理那些突然出现的极端数值（Outliers）。这篇论文的核心发现就是：虽然大家觉得 FP 这种“弹性袋子”适合装长短不一的货物（Outliers），但如果我们把货物切得足够碎（细粒度/Block-wise），每一小堆货物其实长短差不多，这时候用结构简单的“硬箱子”（INT）反而装得更好、更划算。INT8 优于 FP8。

2025-11-28 14:36:21 988

原创【AI】GPU编译器入门

首先要澄清一个常见的误解：LLVM 最初是“底层虚拟机”（Low Level Virtual Machine）的缩写，但随着项目的发展，它早已超越了这个范畴。LLVM 现在是一个总称，指的是一个庞大的、可重用的编译器和工具链技术的集合。前端 (Frontend) ：将各种高级语言（如 C++, Rust, Swift 等）编译成统一的 LLVM 中间表示 (IR)。最著名的 LLVM 前端是 Clang ，用于编译 C、C++ 和 Objective-C。

2025-11-27 17:56:14 2030

原创【IC】计算机体系结构-量化研究方法 -- 学习大纲

从“如何设计电路”上升到“如何设计系统”，理解硬件资源如何转化为计算性能，并掌握评估架构优劣的数学模型。

2025-11-27 15:06:30 760

原创【IC】SI问题的根源

摘自：信号完整性揭秘-于博士设计手记。

2025-11-27 10:52:31 121

原创【AI】LLM的硬件视角 -- 矩阵乘法的理想与现实差异

天生属性 ( N/6 ) : 矩阵乘法这个数学问题本身，其固有的计算量（ ~2N³ ）相对于其必须的数据量（ ~3N² ）来说，比例是 N/6。实际表现 : 但是，当你在真实的计算机上用一个朴素的 i,j,k 循环去实现它时，由于CPU缓存大小有限，你根本无法实现“只读一次A，读一次B，写一次C”这种理想情况。所以，引入分块技术，就是把一个“实际上是访存密集型”的程序，变成了“实际上是计算密集型”的程序，从而释放了CPU的强大算力。分块技术的核心目的，就是解决上述的“实际表现”问题。

2025-11-26 17:52:31 285

原创【AI】LLM的硬件视角 -- 算术强度

理解算术强度有助于程序员和系统设计师识别性能瓶颈，并针对性地进行代码和硬件优化。

2025-11-26 15:15:21 599

原创【AI】主流LLM的词表和嵌入维度

DeepSeek和Llama 3是标准参考，它们的配置（128k 词表，4096-8192 维度）是目前的黄金标准。Google走的是“超大词表”路线（256k），这对于多语言应用非常有参考价值。

2025-11-26 14:09:27 867

原创【AI】Word2Vec和现代LLM的embedding

砍掉了计算昂贵的非线性隐藏层。使用 Hierarchical Softmax 将输出层的计算复杂度从线性级降为对数级。利用 CBOW（上下文测中心词）或 Skip-gram（中心词测上下文）作为“假想任务”来训练权重，这些权重最终就是我们想要的词向量。Word2Vec 论文中之所以出现 100 万这样巨大的词表，是因为当时还没有广泛应用子词分词技术，必须“死记硬背”每一个单词的每一个形态。正如论文中自己承认的局限性：“目前的模型没有任何关于单词形态（morphology）的输入信息”。

2025-11-26 11:13:07 1041

原创【AI】LLM的硬件视角 -- 分块

在Prefill阶段，即便是处理一个Prompt，其产生的 Q 、 K 、 V 矩阵（例如 seq_len x d_model ）也常常因为太大而无法一次性放入片上内存（SRAM），更不用说一次性被计算单元处理了。因此，分块（Tiling / Blocking）是解决这个问题的核心技术。我们来详细拆解一下“一个大矩阵如何被拆分”以及“指令集该如何设计”。

2025-11-21 17:34:36 495

原创【AI】LLM的硬件视角 -- KV Cache

简单来说，答案是：因为在生成当前这一个token时，你只需要当前token的Q（Query），但需要用到前面所有token的K（Key）和V（Value）。而你必须存储过去所有的 K（关键词）和 V（内容），因为它们是你回顾历史、确保文章连贯性的全部资料库。因为你上一步写“小明”时的“想法”（过去的Q），对于你现在要写“跑”这个词时的“想法”（当前的Q）是没有帮助的。你永远只关心当下的想法。而K和V是构成历史上下文的“基石”，必须被永久保留（在当前生成序列的生命周期内），因此需要被缓存。

2025-11-21 17:18:39 932

原创【AI】LLM的芯片硬件视角

内存带宽是王道 : 对于追求低延迟、高吞吐量的LLM推理芯片（特别是用于聊天、实时翻译等场景），提升内存带宽（如采用更先进的HBM、增加带宽）比单纯堆砌计算单元（如MAC阵列）可能带来更显著的性能收益。大容量内存是基础 : 模型本身和不断增长的KV Cache都需要巨大的内存。设计时必须考虑如何支持足够大且快速的内存，否则会严重限制模型能处理的上下文长度。

2025-11-21 14:59:00 521

原创【AI】主流LLM的embedding维度

d_model 就是词嵌入（Embedding）的维度，并且这个维度在整个Transformer模型中保持一致，是信息流的主干道宽度。关于现在主流LLM的 d_model （或称为隐藏层维度 hidden_size ），并没有一个统一的标准，但它和模型规模密切相关。总的趋势是：模型越大，其 d_model 也越大，以便在向量中编码更丰富、更复杂的信息。

2025-11-21 14:21:07 417

ICCCS和NLDM延时模型

2025-12-04

Practical problems in VLSI physical design automation

Sung Kyu Lim - Practical problems in VLSI physical design automation-Springer (2008)

2025-04-25

Hardware Architectures for Deep Learning

内容概要：本文系统地探讨了针对卷积神经网络（CNN）和其他神经网络模型的硬件加速器设计与优化方法，特别关注降低功耗、提高运算速度和减少存储访问量。文中深入剖析了几种关键的技术手段，如FPGA上的低延迟推理加速器设计、多核心并行计算、计算复用以及内存带宽复用等。此外，书中还介绍了一些经典的CNN模型如AlexNet、VGG和ResNet的应用和发展历程，展示了它们从最初的简单结构演变为如今高度复杂的架构的过程。最后，探讨了二值神经网络（BNN）的发展及其面临的挑战，并提出了一些可能的改进方向。适合人群：从事嵌入式系统、FPGA加速器设计的专业技术人员，尤其是那些希望深入了解卷积神经网络及其他AI应用背后的硬件支撑的研究者。使用场景及目标：帮助读者掌握如何通过创新性的硬件设计来支持日益复杂的人工智能任务。具体来说，可以应用于需要高效能低能耗计算能力的实际产品开发当中，比如智能监控设备、移动终端设备以及物联网边缘计算节点等。此外也可以作为高校或者科研院所相关专业学生的参考资料。阅读建议：由于本书涉及多个学科领域的交叉融合，因此推荐先了解基础概念，再逐步跟随章节内容探索高级特性；同时鼓励实验操作验证理论知识点，以加深理解和促进实际项目应用中的迁移能力提升。

2025-01-21

Efficient Processing of Deep Neural Networks

This book provides a structured treatment of the key principles and techniques for enabling efficient processing of deep neural networks (DNNs). DNNs are currently widely used for many artificial intelligence (AI) applications, including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Therefore, techniques that enable efficient processing of deep neural networks to improve key

2025-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ICCCS和NLDM延时模型

Practical problems in VLSI physical design automation

Hardware Architectures for Deep Learning

Efficient Processing of Deep Neural Networks

IC3D blox：3DIC设计新范式

EDAfloorplanning

巴西坚果效应，描述了巴西坚果效应在带电胶体系统中的特性

DTCO，使用ML方法获得最佳的工艺recipe、std cell等等

EDAhmetis使用手册

CCF芯片大会芯片知识集

山东大学物理学院2010年基地班 力学 期末考试试题

MSP430G2553 DAC+ADC 简单应用，用nokia 5110显示 CCS6.0编写

Altium designer 18- PCB Logo Creator

求职简历集合

区块链资料礼包

FPGA/ASIC高性能数字系统设计_part2

诺基亚5110显示屏 MSP430G2553实例程序 CCS6.0编写

FPGA/ASIC高性能数字系统设计_part1

空空如也

山东大学物理学院2010年基地班力学期末考试试题