低功耗高速1位全加器设计

原创于 2025-10-22 04:28:34 发布 · 617 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#全加器 #低功耗 #高速 #混合逻辑 #PDP

用于VLSI应用的低功耗高速1位全加器单元的设计与分析

1. 引言

加法器是中央处理器（CPU）、算术逻辑单元(ALU)、浮点运算单元以及地址生成单元（如缓存或内存访问单元）中最重要的组件之一。它被广泛应用于许多超大规模集成电路系统中，例如专用数字信号处理器（DSP）架构和微处理器[1]。除了其主要任务——即对两个二进制数进行相加之外，加法器还参与多种操作，如减法、乘法、除法、地址计算等，已成为最关键的功能模块之一。在大多数这些系统中，加法器是关键路径的一部分，决定了系统的整体性能。因此，提升1位加法器单元的性能是一个重要目标。

近年来，由于移动通信和计算技术的快速发展，低功耗超大规模集成电路系统的构建已获得 momentum。然而，电池技术的发展速度并不像微电子技术那样快。因此，移动系统可用的能量有限[2]。因此，设计人员面临更多限制，例如高速、高性能、小硅面积，同时还要实现低功耗。因此，在当今不断发展的超大规模集成电路技术中，构建低功耗、高性能的加法器单元至关重要。

2. 现有技术

近年来，已提出多种不同的逻辑风格变体来实现1位加法器单元[3]‐[18]。从逻辑结构来看，加法器单元分为两种类型：一种是静态型，另一种是动态风格。完全静态逻辑（互补CMOS、互补传播逻辑、TGA、TFA和混合）通常比动态加法器更可靠、更简单且功耗更低。动态是一种用于设计逻辑功能的替代逻辑风格。与静态模式相比，它具有一些优势，如更快的开关速度、无漏电功耗、无冗余逻辑、完整的振荡电压电平以及更少的晶体管。许多研究人员已将这两种结构结合，提出了动态‐静态复合混合加法器。

1位加法器单元有标准应用，这些应用被用作本报告中比较的依据。部分标准实现如下。

互补CMOS（C‐CMOS）1位加法器单元基于通用的CMOS结构，使用28个晶体管[4],[9]。互补CMOS结构的优点在于其对电压缩放和晶体管尺寸具有较强的抗干扰能力，这对于在任意晶体管尺寸下实现稳定的低压操作至关重要。然而，它需要更多的晶体管来实现1位加法器单元，导致芯片面积较大和输入电容较高，且无法实现快速操作。

具有电平恢复的互补传递晶体管逻辑（CPL），使用32个晶体管[9],[10]。CPL加法器产生许多过渡节点，这些节点共同作用以产生输出。这种逻辑风格可提供快速且全摆幅输出，但由于存在大量内部节点和静态反相器，导致能量损耗较大。此外，由于输出反相器处为低摆幅，CPL还存在漏电功耗问题。双传递晶体管（DPL）逻辑[5]和电平恢复传递晶体管逻辑（SRPL）[5]与CPL相关。

基于CMOS（TG‐CMOS）传输门的全加法器是一种独特的逻辑[6],[12]。TG逻辑的主要缺点是它需要两倍数量在实现等效电路时，传输晶体管逻辑所需的晶体管数量较少，而其他方式可能需要更多。基于传输门（TG gate）的完整加法器单元需要20个晶体管。类似地，全加器传输函数（TFA）[10]的单元基于传输函数理论，由16个晶体管构成。由于晶体管堆叠高度较低，其速度更快，功耗低于常规CMOS加法器单元。

另一种逻辑类型是基于分支的逻辑和传输门晶体管（BBL‐PT）（[13],[14]和[17]）的电流漏全加法器，使用23个晶体管。它提供正常和最小化的设计结构，并减小了扩散电容（因为它促进了扩散共享）。基于BBL‐PT的全加法器的主要优点是静态功耗低。基于电流吸收的BBL‐PT全加法器[14]实现的缺点是功耗高且驱动能力低。

随后，研究人员专注于混合逻辑（hybrid logic）方法，该方法利用了不同逻辑类型的特性，旨在提升整体性能。这种逻辑（混合）类型提供了为每个模块选择理想电路的灵活性，以实现1位加法器单元的最佳性能。每个模块都经过专门设计，使得整个1位加法器单元电路在功耗、延迟和所需面积方面得到优化。

先前提出的技术中，新的14晶体管（14T）1位加法器[7]在实现时采用了多种逻辑方式。同样，混合传输逻辑（HPSC）[16]全加法器、新型HPSC[8]全加法器以及混合‐CMOS加法器[11],[15]在实现时也采用了多种逻辑方式。在这种 HPSC电路中，异或门和同或门电路通过仅使用六个晶体管的传输门晶体管逻辑同时生成，并进一步在CMOS模块中用于提供1位加法器单元的全摆幅输出，但代价是增加了晶体管数量并降低了速度。这些加法器通常缺乏驱动能力。它们作为1位加法器单元时性能优异，但当级联链长度增加时，性能会显著下降。尽管混合逻辑方式表现出有前景的性能，但大多数这类混合逻辑加法器存在驱动能力差的问题，在级联操作模式下，若未适当设计并加入缓冲器，其性能将明显退化。

本文提出了一种采用混合结构的1位加法器单元，通过结合集成CMOS反相器和稳定传输门，实现低功耗、高开关速度和低能耗（PDP）。

为了实现低功耗，必须使用少量晶体管和超出常规认知的单元内节点连接来实现单元原理图。提出的1位加法器电路满足了这些需求，同时在电压和器件尺寸缩放方面保证了鲁棒性。本文其余部分组织如下：第3节包含提出的全加器1及其对应的异或‐同或、和与进位电路的实现，第4节包含提出的全加器2电路的实现，第5节解释了仿真结果。第6节描述了基于提出的1位加法器的8位行波进位加法器的应用，最后第7节给出了结论。

3. 提出的1位全加器单元实现

提出的1位加法器电路由三个模块组成，如图1所示。模块I是一个异或‐同或电路，用于驱动其他两个模块。模块II和模块III分别为和电路与进位电路，它们利用模块I的输出以及第三个输入信号（Cin）作为输入，分别生成和输出与进位输出。

示意图0

数字系统中的基本单元是1位加法器单元，它具有三个1位输入（A、B、Cin）和两个1位输出（和与进位（Cout））。输入与输出之间的关系表示为

$$ B A Y \oplus = $$ (1)

$$ B A Y \oplus = $$ (2)

$$ Cin Y Sum \oplus = $$ (3)

$$ Y B A Cin Cout \cdot + \cdot = $$ (4)

在混合逻辑中，我们在模块I的输出处获得输入A和B的异或门和同或门作为中间信号。这些输入信号和Cin可作为模块II和III的输入。因此，我们利用异或输出Z和同或输出 Z得到新的和与进位表达式。

$$ Cin Cin Cin Z Z Z Sum \cdot + \cdot = \oplus = $$ (5)

$$ Z Z A Cin Cout \cdot + \cdot = $$ (6)

3.1 异或-同或电路

模块I的电路是一个异或‐同或电路，采用了传输管逻辑的概念。该电路由 CMOS电流源结构（M1‐M2）和输出晶体管（M3‐M4）组成，如图2所示。电流源采用共栅设计，利用一个栅极连接至固定偏置电源的p沟道晶体管；因此，P型晶体管可靠地处于导通状态；而N型晶体管则作为下拉网络。该结构实现了比动态负载结构更高的电压增益。

可以看出，输出信号在输入信号 (A, B) =(0, 0)、(0, 1)、(1, 1) 下具有良好的逻辑电平。对于 (A, B) =(0, 0) 的配置，每个 PMOS管都导通，并传递一个弱逻辑‘0’（即 Vtp). 。为了增强输出节点的驱动能力，使用了 CMOS反相器并提供同或门输出 Z。

示意图1

3.2 和电路

模块II表示一个加法电路，如图3所示。和表达式(5)表明，模块II电路仅是一个异或电路。对于一个异或门，当输入Z为逻辑‘0’时，输出将跟随另一个输入，可以通过使用一个NMOS管（M2）来传递逻辑‘0’，即将其栅极与 Z连接，源极端连接Cin ，漏极位于输出端；一个PMOS管（M1）用于传输逻辑‘1’，其源极连接Cin，栅极连接Z，漏极连接输出端。当Z为逻辑‘0’且 Z为逻辑‘1’时，两个晶体管（M1和M2）均处于导通状态，输出端与Cin相连。因此，当Cin为逻辑‘1’时，输出端连接至逻辑‘1’；当Cin为逻辑‘0’时，输出端也连接至逻辑‘0’。当Z为逻辑‘1’时，两个晶体管均处于截止状态。因此，通过使用传输门（M1和M2）逻辑，无论传输的是逻辑‘1’还是逻辑‘0’，都不会出现电压降问题，输出端可实现全电压摆幅。

示意图2

当Z和Cin输入为逻辑‘1’时，输出为低电平；这可以通过将两个nMOS晶体管串联实现，其栅极分别连接到Z和Cin。其中一个nMOS晶体管的源极连接到接地端，另一个nMOS晶体管的源极连接到输出端。同样，当Z为逻辑‘1’而 Cin为逻辑‘0’时，输出为逻辑‘1’，因此我们使用两个串联的pMOS晶体管，其中一个pMOS晶体管的源极接高电平（VDD），另一个pMOS晶体管的漏极接输出端，栅极分别连接到Z和Cin 。当两个输入（Z和Cin）均为逻辑‘1’时， nMOS晶体管处于导通状态，因此输出连接到地，即输出为逻辑‘0’。当Z为逻辑‘1’且进位输入为逻辑‘0’，或两个输入 Z和进位输入均为逻辑‘0’时， pMOS晶体管处于导通状态，输出直接连接到电源电压，即输出为逻辑‘1’。

一旦串联连接的nMOS/pMOS晶体管处于导通状态，输出和将直接连接到电源电压（逻辑‘1’）或地（逻辑‘0’）。由于这一点，在不降低和输出端电压电平的情况下，可以实现全幅输出。

3.3 进位电路

如果 A = B，则 Cout= B；否则，Cout= Cin。

示意图3

模块III的电路是一个多路复用器，当Z处于逻辑‘1’时选择Cin ，或如图4所示，当Z为逻辑‘1’或附加输入A和B存在时，选择A或B作为Cout的输出。在提出的电路中，我们分别利用传输门，将Z和Z连接到Mn1和Mp1的栅极，以在Z为逻辑‘1’时将Cin传递到Cout ，或在附加输入A和B存在时进行相应操作。

在不同的逻辑电平下，当Z处于逻辑‘0’或输入A和B处于相同的逻辑电平时，我们需要将其中任一输入传递到输出端。因此，我们使用一个pMOS (Mp2) 和一个nMOS (Mn2)，通过一个晶体管传递输入A，通过另一个晶体管传递输入B。通过从两侧引入这两个输入，提高了电路性能。输入进位信号（Cin)仅通过一个传输门（Mn1和Mp1）传播，显著缩短了整体的进位传播路径。采用稳定传输门（增大晶体管Mn1、Mp1、Mn2和Mp2的沟道宽度）确保了进位信号传播延迟的降低。

示意图4

如图5所示，提出了一种新的1位加法器电路1。该电路可利用图2、3和4中所示的异或‐同或、和以及进位电路来实现。所有这三个模块均可根据图1所示的提出的原理图结构进行互连。该电路仅使用16个晶体管，用于生成和与进位输出。

4. 所提全加器2的设计

为了减少晶体管数量，提出了全加器(FA)2，其仅使用14个晶体管。它是一种用于生成和输出与进位输出的替代逻辑。提出的1位加法器2和电路如图6所示，进位电路如图4所示。这两种加法器的异或‐同或及进位电路相同，仅和电路不同。

1位加法器的和输出由异或‐同或模块实现，仅使用6个晶体管。PMOS晶体管和nMOS晶体管构成第二级同或模块，以执行完整的求和功能。第二级同或模块可以利用传输门逻辑实现。它在输出端提供更强的1和更强的0，即可以在和输出中实现全幅输出，而不会导致电压电平下降。

示意图5

如图7所示的新1位加法器电路2。它可以通过使用图2、4和6中所示的异或‐同或、进位和和电路（如图6）来实现。该电路仅使用14个晶体管即可生成和与进位输出。在所提出的和与进位电路设计中采用串联连接的nMOS/pMOS晶体管和强传输门，可实现全电压摆幅，使本设计优于论文[9],[10]和[14]中已报道的加法器。

示意图6

5. 仿真结果

所提出的1位加法器的瞬态分析使用Mentor Graphics原理图编辑器以及0.18‐μm CMOS技术的模型参数进行仿真。仿真在电源电压Vdd= 1.2伏特和100 MHz频率下进行。与现有或已报道的设计进行了比较，结果表明所提出的1位加法器具有良好的功耗延迟积，相关结果见表1。晶体管尺寸经过优化以最小化PDP。在优化1位加法器的晶体管尺寸时考虑到这一点，可以在不显著增加功耗的情况下降低所有1位加法器的延迟。所提出的1位加法器的所有晶体管尺寸（除晶体管Mn1、Mp1、Mn2和Mp2外）如下所示，并采用MOS晶体管的54级模型，其中Vtn≅ 0.34 伏特，且Vtp ≅ – 0.39 伏特。

W = 0.5 μm and L = 0.18-µm for pMOS
W = 0.3 μm and L = 0.18-μm for nMOS

为了在超大规模集成电路应用中实际使用时分析所提出的1位加法器的性能，建立了如图8所示的实际仿真环境。为了提供一个实际的环境，在测试平台 [3],[11]的输入端和输出端添加了缓冲器。输入和输出缓冲器由两个具有相同宽长比（W/L）的反相器构成。缓冲器的晶体管尺寸为PMOS管取2，NMOS管取1。

示意图7

表1总结了版图前仿真结果。可以看出，互补传播逻辑全加器与CMOS全加器相比表现出更优的延迟和PDP。相反，由于其晶体管数量较多，导致总功耗和静态功耗最高。BBL‐PT和电流沉降全加器具有最低的漏电功耗；因为这种逻辑单元的设计完全采用由串联连接在电源线和栅极输出之间的晶体管支路构成。至于TFA和TGA全加器，由于和模块中关键路径上的晶体管数量较多，其延迟和 PDP高于所有其他全加器。提出的全加器具有最小的漏电功耗，并且在延迟和 PDP方面优于其他全加器；这是因为在电源线与输出节点之间的路径上晶体管数量较少，同时和与进位输出节点处的寄生电容也有所降低。

负载分析 ：输出负载是影响电路功耗和性能的重要参数之一。在此，我们将输出负载从 2 fF 更改为 10 fF。在缓冲区电路的输出端添加了一个固定的 1 fF 电容。所有仿真的最小输出负载为2飞法拉。提出的电路已在1.2伏特电源电压和2飞法拉输出负载下进行了优化。16T在功耗方面是最佳电路，因为在所有输出负载值下其功耗最低。

表1。在0.18‐μm CMOS工艺下，Vdd= 1.2 V时提出的与替代实现的1位全加器单元的性能比较和版图前仿真结果。

设计	功耗(μW)	延迟(Ps)	PDP (fJ)	漏电流功耗(nW)	晶体管数量
CMOS [4],[9]	6.28	304.25	1.91069	0.9	28
互补传播逻辑 [9],[10]	7.795	194.41	1.51542	1.4	32
BBL‐PT [13]	7.265	290.48	2.11033	0.66	23
电流沉降全加器 [14]	7.859	231.56	1.82700	0.76	23
TFA [10]	8.346	288.51	2.407904	1.3	16
TGA [12]	8.534	295.32	2.52203	1.2	20
1位加法器 [19]	4.153	224	0.931	1.4	16
提出的全加器 1	4.266	214.65	0.9156	0.95	16
提出的全加器2 全加器2	5.164	221.34	1.1429	1.1	14

通过对提取的电路网表进行布局后仿真，可以最好地分析提出的加法器电路。表2总结了版图后仿真结果。使用提取的网表进行的详细（晶体管级）仿真将清晰评估电路的速度与功耗、电路寄生参数（如寄生电容和电阻）的影响，以及由于信号延迟失配可能产生的毛刺。

表2. 在0.18‐μm CMOS工艺下，电压为Vdd= 1.2伏特时，提出的与替代实现的1位全加器单元的性能比较及版图后仿真结果。

设计	功耗(μW)	延迟(Ps)	PDP (fJ)	漏电功耗(nW)	晶体管数量
CMOS [4],[9]	8.137	318.36	2.590	1.82	28
互补传播逻辑 [9],[10]	9.862	205.61	2.027	2.54	32
BBL‐PT [13]	9.423	304.88	2.872	1.054	23
电流沉降全加器 [14]	10.153	244.35	2.480	1.85	23
TFA [10]	10.562	299.85	3.167	2.45	16
TGA [12]	10.854	312.67	3.393	2.64	20
1位加法器[19]	5.785	242.546	1.403	2.23	16
提出的全加器 1	5.893	228.85	1.348	1.61	16
提出的全加器2 全加器2	6.972	242.62	1.691	2.37	14

延迟参数是从输入达到电源电压的50%的时间到输出达到相同电压的时间计算得出的，如图9所示。所有仿真中输入信号的上升时间和下降时间均为脉冲宽度的5%。分别测量和与进位的上升传播延迟和下降传播延迟。取所有转换中的最大延迟作为单元延迟。传播延迟时间 $\tau_{PHL}$ 和 $\tau_{PLH}$ 分别确定输出在高电平到低电平和低电平到高电平转换期间的输入到输出信号延迟[18]‐[21]。

$\tau_{PHL}$ 定义为输出电压从$V_{OH}$下降到50%$V$电平所需的时间，而 $\tau_{PLH}$ 则成为输出电压从$V_{OL}$上升到50%$V$电平所需的时间。

$$
V_{50\%} = \frac{1}{2}(V_{OH} + V_{OL}) = V_{OL} + \frac{1}{2}(V_{OH} - V_{OL})
$$ (7)

因此，传播延迟时间 $\tau_{PHL}$ 和 $\tau_{PLH}$ 如图9所示。

$$
\tau_{PHL} = t_1 - t_0
$$ (8)

平均传播延迟 $\tau_p$ 由以下给出：

$$
\tau_p = \frac{\tau_{PHL} + \tau_{PLH}}{2}
$$ (9)

$$
\tau_{PLH} = t_3 - t_2
$$

示意图8

提出的1位加法器在和与进位上的仿真输入和输出波形如图10和图11所示。在仿真波形中，输入（A、B和C）涵盖了所有可能的组合，即从000到111。电路在1 到2.4伏特的电源电压范围内进行仿真。提出电路的电源电压为1.2伏特。

示意图9

示意图10

6. 8位行波进位加法器的性能

8位行波进位加法器（RCA）由提出的1位加法器扩展实现。本文设计的全加法器电路现在可作为8位行波进位加法器的基本构建单元，如图12所示。

示意图11

在0.18‐μm工艺下，对8位并行加法器的性能进行了评估，评估过程中在适当阶段（经过三个阶段后）使用和未使用中间缓冲器。仿真延迟结果总结于表3。

表3. 在0.18‐μm CMOS技术下，电压为Vdd= 1.2伏特时，提出的和替代实现的 8位行波进位加法器的性能比较。

设计	延迟(ns)	晶体管数量
CMOS [4],[9]	2.253	224
互补传播逻辑 [9],[10]	1.289	256
BBL‐PT [13]	2.19	184
电流漏全加法器 [14],[17]	1.642	184
TFA [10]	2.184	128
TGA [12]	2.237	160
提出的全加器1	1.411	128
提出的全加器2	1.689	112

因此可以看出，基于提出的混合逻辑的8位行波进位加法器和CPL 8位行波进位加法器[9]相比已有的和报道的8位行波进位加法器具有最佳的延迟性能，如表3所示。这两种提出的电路均具有良好的驱动能力通过强传输门实现了较强的驱动能力；由于输入进位信号（Cin）在1位中仅通过单个传输门传播，显著缩短了整体的进位传播路径。此外，CPL 8位行波进位加法器具有良好的驱动能力。但是，基于CPL的全加器晶体管数量较多，且功耗较高。

提出的全加器电路的版图使用Mentor Graphics IC Station版图工具和台积电0.18‐μm CMOS技术设计而成。所有器件均采用最小沟道长度，且每个器件的最佳沟道宽度被精确确定，以实现经功能验证的低功耗和最低可行传播延迟。

全加器1（不包括缓冲器）电路的硅面积为7.585 ㎛ × 6.840 ㎛（≈51.88 平方⋅㎛），如图13所示。全加器2（不包括缓冲器）电路的硅面积为6.545 ㎛ × 7.410㎛（≈48.498 平方⋅㎛），如图14所示。从版图获得的实现面积来看，可以观察到提出的1位加法器需要更小面积。由于涉及更小寄生电容，这同样可被视为导致更低延迟和功耗的因素之一，因为这些电容在1位加法器内部被驱动。当前设计的设计面积（不包括缓冲区）比TFA大（5.34%），而TFA也包含16个晶体管[10]。然而，提出的1位加法器1结构的主要关注点是功耗延迟积(PDP)的最小化，结果相比TFA设计显著改善（≈63%）[10]。

示意图12

示意图13

所提出的1位加法器电路在电源电压从1.0 V到2.4 V变化时的传播延迟性能如图15所示。可以看出，所提出的电路、基于电流吸收的以及基于CPL的全加器相比其他1位全加器实现方式具有更优的延迟性能。仿真结果表明，CMOS、TFA、TGA、CPL以及提出的全加器均可在低至0.8 V的电源电压下可靠工作。尽管 TFA和TGA的晶体管数量较少，但由于缺乏驱动能力，每个输出端都需要额外的缓冲器，从而增加了其漏电功耗和开关功耗。

与其它仿真加法器电路相比，提出的1位加法器1具有最低的功耗。结果如图16所示。在1.2伏特电源电压下，通过使用集成CMOS反相器结合稳定传输门，提出的1位加法器电路1的平均功耗为4.266 μW，功耗显著降低。为了获得平均功耗和在施加所有可能的输入模式下测试最坏情况延迟。结果表明，所提出的电路和 CMOS全加器是功耗效率最高的单元。所提出的电路比CMOS更快，因此表现出更小的功耗延迟积，结果如图17所示。功耗延迟积是一个基本参数，常用于衡量电路的质量和性能。平均功耗是在与传播延迟估计相同的输入设置和相似输入范围内测得的。在所有全加法器电路中，提出的全加器1具有最小的PDP，相较于 CMOS和CPL实现，其显著改进了52%；相较于基于分支逻辑的传输晶体管实现，改进了57%；相较于TFA和TGA电路，改进了62%。

7. 结论

混合CMOS设计风格为设计者提供了更大的自由度，可根据应用需求在电路中选择不同的模块。本文提出了一种低功耗混合1位全加法器，并将该设计扩展至8位情况。仿真结果表明，由于本文提出的新颖设计模块，所提出的混合全加法器电路在1.0 V至2.4 V电源电压范围内的功耗、延迟和PDP性能方面优于大多数标准全加法器单元。在所有加法器中，所提出的新混合全加器1在功耗、速度和节能（PDP）方面表现最佳。因此，它在设计具有低功耗和降低能耗的大型算术电路时仍是最具竞争力的候选方案之一，同时将面积增加保持在最小程度。