低功耗全数字多相DLL设计

使用可扩展数字相位转换器的低功耗全数字多相延迟锁定环设计

尼科·安杰利 和 克劳斯·霍夫曼,IEEE会员

摘要

本文提出了一种基于异步采样的可扩展数字相位转换器(PDC)的低功耗全数字多相延迟锁定环(DLL)设计方法。该PDC用作线性相位检测器(PD),能够测量任意相位差,从而实现更短的延迟线并降低功耗。文中研究了两种不同的延迟单元实现方案。数字控制的并联电容逆变器(SCI)延迟单元实现了极小面积的设计,其中延迟线是唯一的模拟组件;而电压控制的电流饿递逆变器(CSI)延迟单元则具有更低的功耗和更小的抖动。所提出的基于SCI的DLL设计流程允许使用基于Verilog的模型进行快速仿真,因为无需模拟低通滤波器。通过所提出的PDC建模技术,可根据输入时钟抖动规格估算DLL的行为特性。

基于SCI和CSI的多相DLL设计均在65纳米CMOS工艺上实现,采用1.2 V电源供电。所提出的基于SCI的DLL仅有源面积为0.0048mm²,在2.5 GHz输入频率下消耗2.25 mW功耗,采样时钟为622.6 MHz。该电路的DLL环路和相移器环路的均方根抖动分别为1.2 ps和1.4 ps。基于CSI的DLL将均方根抖动显著降低至0.86 ps,在4吉赫输入频率下功耗为2.64 mW,采样时钟为996.1 MHz,相比基于SCI的DLL具有更高的功率效率。作为一种权衡,由于采用了ΣΔ调制器和模拟低通滤波器,面积增加至0.0085 mm²。

索引术语 —全数字延迟锁定环(DLL)、多相位发生器、数字相位转换器、抖动、低功耗、分流电容反相器、电流饥饿反相器。

一、引言

功耗是现代计算机系统中满足高速链路日益增长的带宽需求时面临的主要障碍之一,尤其是对于移动应用而言。在并行I/O链路中,时钟的生成与分布是总功耗的主要来源[1]。采用四相时钟进行串行化和/或解串的四分之一速率架构被广泛使用,以保持较低的功耗。当各个相位对齐

对于并行数据链路,需要本地电路以精细分辨率精确调整时钟信号的相位。对于多千兆比特收发器,最可行的方法是使用相位插值器。常见的实现方式是基于电流模式逻辑或互补金属氧化物半导体的相位混合器,它们分别需要四相或甚至八相时钟。由于在多GHz范围内实现低偏斜的时钟分配功耗很高,因此本地多相生成成为一种常见解决方案 [2]。

生成多相时钟信号最简单的方法是使用频率分频器。这种方法的缺点是输入时钟频率需要是输出时钟频率的n倍,其中n是要生成的相位数量。为了避免产生和分布比所需更高的时钟频率,延迟锁定环(DLL)被广泛用于多相位生成。越来越多的研究致力于全数字DLLs [2]–[12]的开发,因为与模拟实现相比,它们在现代工艺节点中具有更好的面积效率。

全数字DLL的一个问题是抖动性能。数字部分会产生显著的电源噪声,可以通过为延迟线供电使用低压差稳压器(LDO)来将该噪声与延迟线隔离[3],[4],[13]。另一个主要的抖动来源是相位检测器(PD)的量化噪声。已有若干文献提出了对典型早/晚相位检测器的改进实现方式,例如自适应窗口相位检测器[5]、无抖动相位检测器[10]、迟滞砰砰相位检测器[3]以及1位时间数字转换器(TDC)[4]。全局去偏斜DLL通常依赖TDC进行相位检测,因为它们能够实现快速锁定[2],[5],但由于面积和功耗较高,因此不适用于局部DLL。在本研究中,提出了一种在[14]中介绍的完全综合的相位到数字转换器(PDC)作为线性相位检测器。传统的早/晚相位检测器需要来自延迟线的360°反馈,而PDC则能以相同的精度测量任意相位差。因此,多相延迟锁定环中的延迟线可以更短,从而降低功耗。与TDC相比,PDC所需面积小得多,可低功耗运行且无需校准。由于整体结构主要由数字部分主导,因此能够很好地随工艺技术扩展,并对工艺电压温度变化具有较强的鲁棒性。其主要缺点是需要一个额外的异步时钟信号用于对DLL输出进行采样。该时钟必须由一个锁相环(PLL)生成,且该锁相环需锁定到待测时钟所用的同一参考信号。PDC的概念允许采样时钟具有更低的频率,并结合降低的抖动限制,

采样时钟的分布可以以低功耗实现。

数字控制延迟线(DCDL)也是全数字DLL设计中的关键组件。在低至中等频率范围内的数字去偏斜DLL通常依赖于基于NAND门粗调延时线和相位混合器的粗/细架构。在多相DLL中,并联电容逆变器(SCI)或电流饿递逆变器(CSI)为基础的延时线是最常见的方法。本文提出了一种基于SCI延迟元件并采用直接数字控制的DCDL,从而实现了一个极为紧凑的DLL设计,其中DCDL是唯一的全定制组件。作为面积和功率效率之间的一种替代权衡,还提出第二种设计,该设计采用电压控制CSI延时元件以及ΣΔ调制器作为数模转换器(DAC)。

两种设计均在65 纳米 CMOS 工艺中得到验证。

本文的结构如下。第 II 节描述了 PDC 的工作原理以及抖动对测量结果的影响。第 III 节介绍了基于 SCI 延迟单元设计的多相延迟锁定环,该设计以最小化面积消耗为目标进行了优化。第 IV 节提出了基于 CSI 延迟单元的替代方案,在增加面积消耗的前提下实现了更低的功耗和更优的抖动性能。两种设计的测量结果在第 V 节中给出。

II. 数字相位转换器

A. 工作原理

PDC的工作原理基于对输入信号的异步采样。采用此方法的传统电路使用自由振荡器,并可选地结合线性反馈移位寄存器(LFSR),以似随机基础[15]–[19]改变振荡频率。然后根据采样信号中一和零的分布来计算相位。

本工作中的PDC采用固定的频率比
$$
\frac{f_{LO}}{f_{IN}} = \frac{N}{NM + 1}
\tag{1}
$$
通过将两个振荡器锁定到同一参考信号,利用第二阶段中的一个简单计数器对两个采样信号上升沿之间 CKLO 的周期数进行计数,从而测量采样时钟 CKIN,A 与输入时钟 CKIN,B 之间的相位移。其中,N 决定了 PDC 所需的分辨率,而 M 可用于动态调节 PDC 的采样率和功耗,而无需修改电路。PDC 的框图如图1所示。采样阶段的作用类似于模拟频率混合器,两个时钟信号被转换为低得多的频率,同时保留相位信息。测量阶段由一个连续运行计数器组成,该计数器在采样输入信号的上升沿处进行评估,以及一个计算相位差的减法器。计数器的最高有效位作为后续电路的时钟。

时钟信号上的抖动可能导致采样信号中出现毛刺,这些毛刺需要被消除以进行正确的相位测量。

示意图0

使用了一种去毛刺滤波器,该滤波器仅在连续采样中出现多个具有相同值的跳变后才检测到跳变。所需的去毛刺滤波器大小可以计算为
$$
n_{filt,max} = \lceil(J_{pk,IN} + J_{pk,LO}) \cdot f_{IN} \cdot N\rceil
\tag{2}
$$
使用输入时钟和采样时钟的峰峰值抖动 $J_{pk,IN}$ 和 $J_{pk,LO}$。

B. 抖动建模

如[14]所述,抖动对PDC测量结果的影响可以使用高斯分布的概率密度函数进行建模。理想情况下,采样阶段之后被采样信号从“0”到“1”的跳变出现在 CKIN和CKLO的理想波形的上升沿重合时。但由于时钟信号上的抖动,边沿会随机偏离其理想位置。图2显示了输入时钟和采样时钟的示例波形。CKIN标注了时钟上升沿在某一时刻之前已经出现的概率,即累积概率密度函数(CDF),而CKLO标注了上升沿在某一时刻出现的概率,即概率密度函数(PDF)。在距离理想位置给定偏移量 ε处检测到逻辑“1”的概率$P_1(\varepsilon)$通过积分计算得出
$$
P_1(\varepsilon) = \int_{-\infty}^{\infty} PDF_{LO}(t) \cdot CDF_{IN}(t - \varepsilon) dt.
\tag{3}
$$
与CKIN的上升沿相比,CKLO的上升沿出现得越晚,检测到“1”的概率就越高。偏移 ε按PDC分辨率进行移动
$$
\Delta\varepsilon = \frac{1}{f_{LO}} - \frac{1}{f_{IN}}
\tag{4}
$$
由于CKLO的固定频率比$f_{LO}/f_{IN}$,每个周期都如此。由于PDC仅在采样信号的上升沿对计数器进行评估,因此关注的是某一偏移位置首次检测到逻辑“1”的概率$P_{1,1}(\varepsilon)$。该概率$P_{1,1}(\varepsilon)$通过将给定偏移处检测到“1”的概率与之前所有偏移处检测到“0”的概率相乘得到。
$$
P_{1,1}(\varepsilon) = P_1(\varepsilon) \prod_{x=\varepsilon+\Delta\varepsilon}^{\varepsilon_{max}} [1 - P_1(x)]
\tag{5}
$$
并且再次呈现高斯分布。由于PDC测量结果是两次计数器评估的差值,因此输出值$P_{out}$的分布通过离散计算得出

示意图1

图3. 在输入时钟RMS抖动为0.002UI且M= 1的条件下,PDC测量结果的标准偏差随采样时钟RMS抖动和PDC分辨率的变化曲线。

两个独立计数器评估的$P_{1,1}$的卷积。最后,可以确定$P_{out}$的标准偏差$\sigma_{out}$,并用于在DLL设计过程中对环路滤波器的确定性抖动进行建模。

C. DLL应用的设计约束

PDC性能主要由采样时钟CKLO的规格决定。在延迟锁定环应用中,需要高采样率以实现高环路带宽。这可以通过选择低分辨率N和缩放因子M= 1来实现。首先,假设N和M的影响是解耦的。低分辨率要么因测量不精确而导致显著的相位误差,要么需要附加滤波来提高精度,而这反过来会降低带宽。保持较小的缩放因子也会带来权衡,因为PDC的功耗与$f_S$成正比。

在选择了合适的N和M值后,定义了CK S 的抖动要求。图 3显示了计算结果PDC测量结果的标准偏差 $\sigma_{out}$,采用第 II 节-B 中描述的方法,针对N的三个不同值、CKIN的0.002 UI 均方根抖动以及变化的CKLO均方根抖动进行计算。 $\sigma_{out}$的最小值表示Dout在两个相邻值之间以相等概率跳变时的标准偏差。当CKLO的抖动超过某一阈值时,分布开始变宽,且 $\sigma_{out}$随均方根抖动线性增加。恒定部分与线性部分之间的跳变,以及线性部分的斜率,取决于PDC分辨率。该跳变可近似为抖动的 3σ宽度等于PDC分辨率的点。为了使 $\sigma_{out}$尽可能小,应将CKLO的均方根抖动限制在
$$
\sigma_{LO} < \frac{1}{3 f_{in} N}
\tag{6}
$$

III. 基于分流电容的架构

图4所示的基于SCI的多相DLL和移相器架构包含一个三级延迟线,用于生成8相时钟,以及一个8:2多路复用器(MUX)、CMOS相位混合器[20],用于实现7位相位插值,还有一个数字环路滤波器(DLF)。该DLF实现了两个独立控制环路。DLL环路使用6位相位检测器(PDC)(N= 64)测量 0°与DLL的 135°输出之间的相位差,并在数字环路滤波器中累积相位误差,以调整DCDL设置。通过交替使用互补 180°到 315°的相位差进行PDC测量,可消除采样器非理想性和占空比失真。可选移相器环路(PS环路)可进一步用于补偿经由8:2多路复用器和CMOS相位混合器产生的PVT相关的固有延迟。此外,通过在数字环路滤波器中将期望相位设为参考相位 $\phi_{PS}$,可补偿相位混合器的积分非线性(INL)。

图4中的两个控制环路共享资源,以保持较小的面积和功耗开销。特别是PDC中的连续运行计数器占据了主要部分

示意图2

图5. 所提出的具有数字并联电容阵列的数字控制延迟单元的原理图。

功耗,并因此在三个PDC之间共享。毛刺滤波器也使用 CKLO进行时钟控制,应尽可能保持较小。在此设计中, $n_{filt}= 2$根据时钟源的抖动规格来选择。

A. 分流电容反相器延迟线

图5(a)展示了所提出的基于SCI的DCDL的原理图,该DCDL由三个延迟单元和两个用于匹配的虚拟单元组成。与CSI延迟元件相比,由于CMOS反相器的延迟特性,SCI方法具有线性特征
$$
t_d \propto \frac{C_L I_D}{V_{DD}}.
\tag{7}
$$
伪差分延迟单元中的数字控制分流电容(图5)由具有二进制比例的传输门构成。传输门在一个端口处所呈现的寄生电容在导通和关断状态之间大约翻倍[21],且电容增量与晶体管宽度成正比。通过为最高有效位使用双传输门,可使最小电容负载尽可能小。由于数字控制,延迟线的分辨率直接影响延迟锁定环的抖动性能,因此希望分辨率尽可能小。基于SCI的延迟单元的分辨率取决于最小电容分流电容的增量和反相器的驱动强度。所提出的传输门型分流电容受限于所用互补金属氧化物半导体工艺中的最小晶体管宽度,因此进一步降低延迟分辨率只能通过增强反相器驱动强度来实现。但这反过来需要增加额外的分流电容以补偿延迟范围的减小。无论是增强反相器驱动强度还是增加更多的分流电容,都会增加延迟线的功耗。因此,延迟线设计在抖动性能与功耗之间存在权衡。延迟线分辨率对延迟锁定环抖动的影响在第 III 节-B部分进行了分析。

所提出的基于SCI的数字锁相环采用5位线性电容控制,具备足够的延迟范围,以覆盖2.5 GHz下的工艺电压温度变化。在典型工艺角下,延迟线的分辨率为 $\Delta t_{SCI}= 0.82$ps。与采用独立开关和电容的SCI实现方案相比,由于整体负载电容较低,其效率显著提高,使该设计在性能上可与基于CSI的数字控制延迟线相媲美。

B. 环路滤波器设计

所提出的基于SCI的数字控制延迟线不需要模拟低通滤波器,并且由于数字控制延迟线的响应时间

且移相器的延迟远小于PDC的采样时间,因此环路滤波器可以完全在数字域中设计。数字环路滤波器由PDC输出时钟驱动,采样率为
$$
f_S = \frac{n_{pdc}}{NM + 1} f_{IN},
\tag{8}
$$
对于DLL环路,由于交替计算0°到135°和 180°到315°的相位差,因此为$n_{pdc}= 2$;对于PS环路则为$n_{pdc}= 1$。

数字控制延迟线和移相器的特性近似线性,分别用简单的增益因子$K_{DCDL}$和$K_{PS}$表示。积分型数字环路滤波器
$$
H_I(z) = K_I \frac{z}{z - 1}
\tag{9}
$$
增益为$K_I$被选择用于处理PDC的显著延迟
$$
H_{PDC}(z) = z^{-2}
\tag{10}
$$
两个样本的结果在z域中基于SCI的数字锁相环的闭环传递函数是
$$
H_{SCI}(z) = \frac{K_{DCDL} K_I z}{z^2 - z + K_{DCDL} K_I}
\tag{11}
$$
因此,延迟锁定环的稳定性与M无关,从而允许在数字环路滤波器中使用固定的积分路径增益。延迟锁定环的带宽与$f_{LO}$成正比,如图6中所示的闭环传递函数幅值随M= 1, 2,4的变化情况。

示意图3

如第 II 节-B 所示,CKIN 和 CKLO 上的抖动导致 PDC 测量结果偏离理想结果,其标准偏差为 $\sigma_{out}$。每次控制环路调整延迟线时,输出时钟周期会暂时增加或减少 $\Delta t_{SCI}$ 的倍数,从而引入低频确定性抖动。
$$
DJ_n^{rms} = n \cdot \sigma_{out} \Delta t_{SCI}
\tag{12}
$$
到延迟锁定环输出时钟,其中SCI延迟单元的延迟步长为 $\Delta t_{SCI}$, n为延迟线的抽头位置。由于PDC的采样率,频率确定性抖动的范围被限制在$f_{DJ} \leq f_S/2$以内。这意味着确定性抖动最多每隔$(NM+ 1)$个时钟边沿出现一次。这会导致抖动直方图的尾部扩散,而分布的其余部分几乎保持不变。假设公式(6)成立,则基于SCI的数字锁相环在 $\Delta t_{SCI}= 0.82$ ps时输出的确定性抖动DJ为1.74 ps。

由于所提出的基于SCI的数字锁相环中不存在模拟组件,因此使用基于Verilog的模型为数字控制延迟线和相位插值器构建了完整的设计行为级仿真。这使得可以在无需耗时的混合模式仿真的情况下,快速完成对数字环路滤波器设计的验证与优化。在频率为5 GHz、M=8且CK和CK均具有400 fs均方根抖动的仿真中,延迟锁定环在76 ns内(6个PDC采样)实现锁定。当M=16时,90°输出的仿真均方根抖动为 520 fs;当M=32时,由于DJ的影响减小,抖动降低至460 fs。因此,降低延迟锁定环的带宽有利于改善抖动性能,因为延迟线调整的频率随之降低。然而,这也会削弱延迟锁定环补偿由低频电源纹波或温度变化引起的漂移的能力。此外,为了在降低f的情况下满足公式(6),CK的抖动要求以单位间隔表示将会提高,这可能难以实现。

基于电流饥饿型反相器的架构

作为性能与面积消耗之间的一种权衡,本节提出了一种基于CSI的多相延迟锁定环设计。将数字控制的源耦合振荡器延迟单元替换为具有更少寄生电容、因而功耗更低的电压控制的电流饥饿型反相器延迟单元。作为交换,需要一个数模转换器(DAC)来生成延迟控制电压,从而增加了延迟锁定环的面积消耗。采用一个 ΣΔ调制器作为数模转换器(DAC),以尽可能减少全定制元件的数量,保持设计的简洁性。通过使用高分辨率的数模转换器(DAC)和相对较低的带宽,数字环路滤波器产生的确定性抖动远小于基于SCI的直接数字控制方法。

所提出的电路的框图如图7所示。延迟线由两个延迟单元和两个用于匹配的虚拟单元组成。使用时钟比较器对差分同相和正交时钟进行采样[22]。通过额外的反相器将比较器的反冲噪声与DLL输出隔离。与基于SCI的方法类似,数字环路滤波器(DLF)采用6位相位检测器(PDC),并对相位误差进行累加以控制数字控制延迟线(DCDL)。一个11位 ΣΔ调制器由分频采样时钟CKLO驱动,并结合二阶无源低通滤波器生成用于CSI延迟单元的控制电压VLPF。对于基于CSI的DLL,毛刺滤波器尺寸为nfilt= 3,以应对4吉赫时的输入时钟抖动。

示意图4

A. 电流饥饿型反相器延迟线

图8显示了伪差分电流饥饿型反相器延迟单元的原理图。主反相器由两个电压控制的电流源供电。一个电流源用作最低延迟限制的固定偏置,另一个电流源由 ΣΔ调制器控制。基于CSI的延迟线在典型、最佳和最差工艺角下,CKI与CKQ之间的延迟如图9所示,覆盖 2.8至4吉赫的频率范围。由于采用电流饥饿方法以及阈值电压的影响,该延迟特性呈非线性。

示意图5

示意图6

NMOS电流源。延迟锁定环的稳定性分析采用在最快工艺角下的最大增益166.5皮秒/伏。交叉耦合的反相器不由电流源供电,用于在延迟线内提供占空比校正和信号摆幅恢复。

B. 环路滤波器设计

对于基于CSI的DLL方法,设计数字环路滤波器时需要考虑ΣΔ调制器。 ΣΔ调制器的传递函数主要由低通滤波器决定,因此可近似为
$$
H_{MOD}(s) \approx \frac{1}{(1+ RCs)^2}
\tag{13}
$$
延迟线通过线性增益KDL建模,采用延迟线特性的最高斜率以确保稳定性。结合PDC和s域中的积分器传递函数,延迟锁定环的闭环传递函数为
$$
H_{CSI}(s) = \frac{K_I K_{DL} e^{-2sT_S}}{(1 - e^{-sT_S})(1+ RCs)^2 e^{-2sT_S} + K_I K_{DL}}
\tag{14}
$$
延迟锁定环的带宽再次与f LO成正比,但相比基于SCI的实现中的直接数字控制显著更低。由于相位裕度随M增加而增大,基于CSI的DLL只需在期望的最高采样时钟频率f LO下确保稳定性即可。由于环路带宽较低,基于CSI的 DLL相较于基于SCI的DLL需要更长的锁定时间。在混合模式仿真中,当f IN= 4GHz且M= 2时,DLL在1.3μs内完成锁定(41个PDC采样),均方根抖动为0.86ps。由于采用了高分辨率数模转换器(DAC)和低通滤波器, PDC测量结果的偏差不会像基于SCI的方法那样引起显著的确定性抖动。这降低了对CKLO的抖动要求,因为公式 (6)的违反对DLL的抖动性能影响较小。

V. 实验结果

基于SCI和基于CSI的延迟锁定环原型均采用65 纳米 CMOS 工艺制造,芯片照片分别如图10和图11所示。基于SCI的设计占用的有源面积为0.0048 mm² ,其中DCDL仅占226μm²,PDC和DLF占 3309μm²。8选2多路复用器和PI占据另外的 204μm²。

示意图7 和布局(b))

示意图8

基于CSI的DLL由于包含 ΣΔ调制器和低通滤波器,面积几乎是基于SCI设计的两倍,达到0.0085mm²。PDC和 DLF的面积增加至 4920μm²,,延迟线占据 257μm²,而 低通滤波器和采样器占用了 425μm²。使用示波器(是德科技 DSAV164A)对多相时钟进行抖动和相位噪声测量。

对于这两种设计,时钟信号 CKIN和 CKLO均由两个外部锁相环(ADF4351)生成,这两个锁相环锁定到同一个参考振荡器,如图12所示。因此,用于 CKLO的锁相环面积未包含在总延迟锁定环面积的计算中。在典型的并行高速I/O链路中,需要多个延迟锁定环实例,并且可以共享单个 CKLO锁相环。以[23]中的32条并行I/O链的GDDR5/DDR3存储器接口实现为例,需要16个正交相位发生器,每个实例在两个相邻的收发器切片之间共享。在[24]中提出了一种基于 65纳米CMOS工艺的完全综合的锁相环,其频率范围匹配且抖动足够低,可用于为所提出的全数字延时锁定环生成 CKLO。若将该锁相环计入示例性的GDDR5/DDR3存储器接口,则每个延迟锁定环的比例面积增加0.0004mm²,比例功耗效率增加0.054毫瓦/吉赫兹。

示意图9

A. 基于SCI的数字锁相环

图14显示了基于SCI的多相DLL在fIN= 2.5 GHz和 M = 4时,CK90的测量正交时钟波形和抖动直方图。均方根随机抖动为1.19 ps,均方根周期性抖动为2.68 ps。

示意图10 和基于SCI的数字锁相环在不同缩放比例下的均方根随机抖动(RJrms)以及周期性抖动(P Jrms)(b)因子 M)

示意图11

采样时钟频率对功耗和抖动的影响如图13所示。由于数字部分由CKLO提供时钟,功耗随fLO线性缩放。增加M也能显著降低周期性抖动(PJrms),而随机抖动(RJrms)则保持在约1.2 ps不变。这种依赖性主要由异步时钟采样器的反冲噪声和电源噪声引起。片上低压差稳压器[3],[4]可有效降低电源噪声。在基于CSI的DLL设计中,通过 DLL输出与PDC采样器之间的额外反相器来降低反冲噪声

具有有源工艺电压温度补偿环的相位插值器输出的实测波形和抖动直方图如图15所示。由于基于互补金属氧化物半导体的多路复用器和相位混合器,随机抖动略微增加至1.44皮秒。周期性抖动取决于移相器的设置,因为延迟锁定环的确定性抖动随延迟线抽头位置的增加而增加

示意图12

如第 III 节-B 部分所述。在给定的测量结果中,周期性抖动为 2.28 ps。

在图16所示的基于SCI的数字锁相环相位噪声图中,随着M的增加,延迟锁定环带宽在1兆赫兹至100兆赫兹偏移范围内的降低是可见的。较低的采样时钟频率使10兆赫兹偏移处的相位噪声降低了10.5分贝,但代价是3兆赫兹附近增加了5.9分贝。1兆赫兹偏移处的相位噪声保持不变,为 −110.7 dBc/Hz。积分均方根抖动(10千赫兹至 100兆赫兹)从M= 1时的1.085皮秒改善到M= 4时的 862.4飞秒。由于存在显著的反冲噪声和电源噪声,从测量结果中无法明确确定延迟锁定环带宽对抖动性能的影响。但第 III 节-B中的仿真结果表明,与噪声贡献相比,带宽的影响较小。

示意图13

B. 基于CSI的DLL

由于时钟输入缓冲器的带宽不足,基于CSI的DLL测试芯片中的时钟分配未能完全达到4吉赫的目标最高频率。当频率高于3.7吉赫时,位于DLL之前的CML转CMOS转换器由于输入幅度过低而开始振荡。因此,测量在3.6吉赫下进行,此时时钟信号仍然稳定。由于在延迟控制中采用高分辨率DAC降低了量化噪声,因此测得的周期性抖动明显低于基于SCI的方法(图17)。此外,其对f LO的依赖关系也发生了变化。随着M的增加,周期性抖动并未明显减小,而是略有上升。这可以通过ΣΔ调制器的时钟频率来解释,该频率源自CKLO。降低f LO会导致VLPF上的噪声增加,原因是低通滤波器是固定的。然而,这种影响较小,PJrms在M ≥ 8时为< 0.9 ps。随机抖动未表现出对M的依赖性,在M= 8时测得为 0.84 ps,与0.86 ps的仿真均方根抖动结果吻合良好。

图18显示了所提出的基于CSI的DLL在M= 2和M = 8下的相位噪声图。与基于SCI的方法相比,再次观察到显著改进。在1 MHz偏移处测得的相位噪声为 −119.4 dBc/Hz,相比基于SCI的DLL改善了8.7 dB。增加M仅导致1 MHz至10 MHz偏移范围内的相位噪声略有上升,以及 100 kHz至1 MHz范围内的相位噪声略有下降。与基于SCI的设计不同,未观察到对环路带宽的直接影响,因为带宽主要由二阶低通滤波器决定。积分均方根抖动(10千赫兹至100兆赫兹)在M= 2时为693飞秒,在M= 8时为771飞秒。

C. 比较

图19展示了文献中以及所提出的实现方案中,全数字多相DLL在效率与面积(a)之间,以及抖动与面积(b)之间的权衡。由于全数字DLL主要由数字部分构成,因此能够很好地随工艺技术进行缩放,面积优值
$$
FOM_{area} = \frac{A_{total}}{L_{min}^2}
\tag{15}
$$
总设计面积Atotal和工艺节点的最小沟道长度Lmin用于将所提出的方案与最先进的实现进行比较。在这两项比较中,可以明显看出,只有在增加的情况下,抖动和效率才能同时得到改善

在面积消耗方面。通过所提出的基于PDC的方法,该设计在面积上也得到了改进,同时在效率和抖动方面仍接近已报道的最佳值。需要注意的是,[3]和[4]中的设计包含了 LDO,这会降低抖动但增加了延迟锁定环的面积。

两种所提出的DLL设计的性能总结如表I所示,并与相关的最先进的全数字DLL进行了比较。基于CSI的方法的功率效率为0.66毫瓦/吉赫兹,接近已报道的最佳值,而基于SCI的DLL效率略低,为0.9毫瓦/吉赫兹,但设计面积减小了一半。在增加CKLO生成的功耗后,在示例性的GDDR5/DDR3接口中,基于SCI的DLL的比例效率为 0.954毫瓦/吉赫兹,基于CSI的DLL为0.714毫瓦/吉赫兹。与其他无LDO的实现相比,由于延迟元件的分辨率更小,测得的均方根抖动显著改善,分别为1.2皮秒(SCI)和 0.84皮秒(CSI)。基于SCI的DLL的移相器和工艺电压温度补偿环仅使均方根抖动略微增加至1.4皮秒。两种设计的面积都非常小,其中基于SCI的DLL比此前发表的任何多相延迟锁定环都更小。采用更小的工艺节点时,由于占主导地位的数字部分,面积还可进一步减小。

参数 本文 (SCI) 本文 (CSI) [3] [4] [5] [11]
工艺 (nm) 65 65 14 65 65 130
面积 (mm²) 0.0048 0.0085 0.012 0.011 0.012 0.0077
面积 (不含LO) 0.0044 0.0081
FOM_area 1.08 1.91 0.60 0.55 0.60 0.47
输入频率 (GHz) 2.5 3.6 2–7.5 1.2–2.4 0.266–2.133 1.5–3.3
输出相位数 8 8 4 4 4 8
PDC/DAC 位数 6 11
采样时钟 (MHz) 622.6 996.1
功耗 (mW) 2.25 2.37 1.7 1.8 1.3 7
功耗效率 (mW/GHz) 0.9 0.66 0.24 0.75 0.61 2.12
比例功耗效率 (mW/GHz) 0.954 0.714
RMS 抖动 (ps) 1.2 0.84 1.3 1.5 1.8 1.5
RMS PS 环路抖动 (ps) 1.4

VI. 结论

全数字DLL几乎存在于每个高速并行输入/输出链路中。除了去偏斜功能外,由于其面积小和低功耗特性,它们还广泛用作本地多相发生器。大多数先前发表的设计在提升效率和抖动性能的同时,以更大的面积为代价。本文在65纳米CMOS工艺中实现了两种不同的延迟线方案,展示了这种权衡。通过采用基于数字相位转换器的数字环路滤波器设计方法,显著减小了DLL的面积,同时保持效率和抖动性能与已报道的最佳设计相当。此外,采样时钟频率的可扩展性使得能够在无需修改电路的情况下动态调整DLL带宽与功耗之间的权衡。使用数字控制的SCI延迟单元的设计实现了最小面积0.0048 mm² ,其中包括基于互补金属氧化物半导体的7位相位移器及工艺电压温度补偿环。基于电压控制的电流饥饿型反相器延迟单元的DLL在4吉赫下无电源调节时功耗仅为0.66毫瓦/吉赫兹,均方根抖动低至0.86皮秒。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值