驯服单端PAM-4非线性:基于MTA-ECS的低功耗接收机设计 1. 项目概述当PAM-4遇上单端信号我们如何驯服“非线性”这头猛兽在追求更高数据传输速率的道路上工程师们总是面临着带宽与信号完整性的永恒博弈。传统的非归零码NRZ信号在达到其物理极限后多电平脉冲幅度调制PAM-4技术成为了必然的选择。它通过在每个符号周期内传输4个不同的电压电平对应2比特信息将单位引脚的数据吞吐量直接翻倍而无需增加信道带宽。这听起来像是完美的解决方案对吧但现实往往比理论骨感得多。PAM-4信号对信道损耗和电路非线性的敏感度也成倍增加尤其是在成本敏感、追求高引脚效率的内存接口中广泛采用的单端信号传输方案下问题被进一步放大。想象一下你试图在一条嘈杂的街道上分辨出四种不同音高的口哨声而不是两种。任何一点回声信道损耗或你耳朵的听力偏差电路非线性都会让你更容易听错。在电路层面这个“听力偏差”的核心就是接收机的模拟前端。AFE中的连续时间线性均衡器CTLE负责补偿信道的高频损耗但其自身的增益会随着输入信号电平的变化而改变这种非线性在单端伪差分结构中尤为致命会导致PAM-4信号的上、中、下三个“眼图”睁开程度严重不均最差的那个眼图可能几乎完全闭合误码率随之飙升。过去业界应对此问题的主流方法是“大力出奇迹”要么为PAM-4的三个眼图分别配置独立的CTLE要么使用多达9个抽头的复杂判决反馈均衡器DFE进行自适应补偿。这些方法固然有效但代价是功耗和芯片面积的急剧增加这与内存接口对能效的极致追求背道而驰。我们需要的是一种更“聪明”、更轻量级的解决方案。这正是本文要深入剖析的基于MTA-ECS的单端PAM-4接收机设计的出发点。它没有选择与非线性正面硬刚而是巧妙地利用了最大转换避免MTA编码自身的规则以一种四两拨千斤的方式实现了对AFE非线性的高效补偿和功耗的同步降低。2. 核心挑战与设计思路拆解为什么单端PAM-4的AFE非线性如此棘手要理解解决方案的精妙首先必须看清问题的本质。PAM-4接收机面临的信号完整性挑战主要来自两个方面电压域的非线性和时间域的非线性。电压域问题比如电平间距不匹配RLM通常可以通过发射机TX端的校准来缓解。而时间域的问题特别是由转换相关延迟和上升/下降沿不对称引起的开关抖动SWJ则在接收端RX成为更主导的难题在单端架构中情况更糟。2.1 单端伪差分AFE的“先天不足”为了理解这一点我们来看一个典型的单端PAM-4接收机AFE结构。它通常包含一个CTLE后面跟着一个可变增益放大器VGA。由于是单端输入AFE还需要完成单端到差分S2D的转换。图2(a)展示了一种电流模逻辑CML型CTLE其输入信号会经过一个“强路径”Vin → Voutn和一个“弱路径”Vin → Voutp。这种结构本身就存在固有的分支不平衡。问题的核心在于晶体管的跨导gm并非恒定。gm会随着输入电压即瞬时信号电平的变化而变化。在伪差分结构中由于两个分支P和N的偏置和负载条件不完全对称它们的gm随输入电平的变化率Δgmp和Δgmn也不同。通常N分支的gm变化主导了输出。这导致了一个关键现象对于上升沿和下降沿CTLE的高频提升增益Boosting Gain是不同的。具体来说当输入电压Vin上升时晶体管的源极电压会因有限的输出阻抗而变化导致N分支的gm增加Δgmn 0而P分支的gm减小Δgmp 0。根据公式推导此时的提升增益Boost_rise会大于下降时的增益Boost_fall。这种不对称的增益直接作用于PAM-4信号的不同电平转换上。对于从低电平到高电平的大幅度转换例如从电平0跳变到电平3它会受到过度的“提升”产生严重的过冲和码间干扰ISI而对于小幅度的转换影响则相对较小。这就解释了为什么在仿真中我们常常看到PAM-4的上眼图对应MSB决策在CTLE高提升设置下扭曲得最厉害而下眼图和中眼图则相对完好。2.2 MTA编码从限制中寻找机会面对AFE的非线性传统的思路是“补偿”或“均衡”。而本文提出的MTA-误差校正方案MTA-ECS则另辟蹊径其灵感来源于最大转换避免MTA编码本身。MTA编码是一种数据编码规则它通过一个查找表LUT映射禁止了幅度最大的电平跳变即000到111以及111到000。这样做的初衷是为了减少同时开关噪声SSN和串扰XT并提高对开关抖动的鲁棒性。有趣的是这种对“大转换”的禁止无意中为我们的非线性补偿创造了条件。因为大转换被禁止了所以在合法的MTA码流中某些特定的符号序列即特定的电平转换模式是不会出现的。例如在MTA规则下前一个符号D[n-1]如果是000那么下一个符号D[n]绝对不可能是111。这意味着如果接收机在某个时刻基于扭曲的信号错误地判决出了“111”我们可以百分之百地确定这是一个由非线性失真引起的错误并可以安全地将其纠正为合法的符号011 001或000中的一个。MTA-ECS的核心思想正是基于此它不是一个普适的均衡器而是一个“条件性”的错误纠正器。它只在MTA规则明确指示“此处可能因非线性而出错”的时刻介入强制修正采样器的输出。这种精准打击的策略极大地降低了对硬件复杂度和功耗的需求。2.3 整体架构轻量化组合拳基于以上分析整个接收机的设计思路变得清晰采用一种组合策略以最低的硬件开销实现最大的性能收益。第一拳MTA-ECS。利用MTA编码的先天限制对最严重的非线性ISI主要由两电平转换引起进行检测和强制纠正。关键在于这个纠正过程是通过动态时钟门控实现的——在需要纠正的时刻直接关断对应采样路径的时钟从而既避免了错误采样又节省了该采样器的动态功耗。第二拳非对称转换型DFE。MTA-ECS处理了最棘手的“Case-2”类ISI但残余的“Case-1”类单电平转换引起的ISI仍然存在。为了处理这些残余干扰我们引入一个简化的DFE。传统PAM-4 DFE需要为H、M、L三条路径各自提供复杂的反馈网络。而我们观察到在MTA编码下每条路径的ISI主要只由特定的前序符号转换模式引起。因此可以设计一个非对称转换型DFE它只为每条路径提供真正相关的、有限的反馈信号从而大幅减少DFE的支路数量、布线复杂度和寄生负载。这套“MTA-ECS主攻 精简DFE清扫战场”的组合构成了一个高效、低功耗的非线性补偿引擎。3. 关键技术深度解析MTA-ECS与非对称转换型DFE如何工作理解了设计思路我们来深入这两个核心技术的实现细节。这是将巧妙想法转化为实际电路性能的关键。3.1 MTA-ECS的运作机制与电路实现MTA-ECS的操作完全基于MTA编码的规则。我们以最受非线性影响的上眼图H路径负责判决符号的最高有效位MSB为例。参考图4当AFE非线性导致上眼图过度均衡时最容易出错的情况发生在什么样的历史序列下分析发现当D[n-1] 000即前一个符号是最低电平时接下来的符号D[n]根据MTA规则只能是011,001或000。注意这三个符号的MSB都是0。这意味着如果在这个时刻上眼图采样器由于过冲和ISI的影响做出了MSB1的判决那这个判决一定是错误的。因为从000出发合法序列里根本不会出现MSB1的符号。因此MTA-ECS的纠正逻辑非常简单而直接当检测到D[n-1] 000时无条件地将当前时刻上眼图采样器H路径的输出强制设置为‘0’。同理对于下眼图L路径可能出现的互补性失真例如当D[n-1] 111时则将其输出强制设置为‘1’。对于中眼图M路径由于其受非线性影响相对较小MTA-ECS则不进行干预。注意这里的“强制设置”并非在数据路径上插入一个多路选择器那么简单粗暴。那样会引入额外的延迟和时序风险。本文采用了一种更巧妙的电路级实现方式动态时钟门控。如图11(a)所示采样器采用了一种双尾锁存器结构以实现高速操作。MTA-ECS的逻辑被集成在时钟路径上。具体来说每个采样器H M L都有自己的本地时钟生成逻辑由NAND和NOR门构成。该逻辑的输入是全局时钟和来自前一个符号的判决结果例如D[n-1]LB。以纠正上眼图为例当条件满足时D[n-1] 000 即D[n-1]LB 1NOR门的输出即采样器的本地时钟LCK将被拉低而NAND门的输出LCKB将被拉高。这相当于同时关断了双尾锁存器的第一级和第二级使该采样器在此时钟周期内完全不工作不采样其输出由后续的逻辑保持为默认的正确值‘0’。图12的时序图说明了这一点整个条件判断和时钟门控操作必须在1个单位间隔UI内完成这通过优化前级锁存器和RZ-NRZ转换器的速度得以实现。这种设计的精妙之处在于它不仅仅纠正了错误更在纠正错误的同时降低了功耗。被非线性严重干扰的那个眼图所对应的采样器恰恰是在某些周期内被门控掉、不消耗动态功耗的。这实现了性能提升与功耗降低的“双赢”。3.2 非对称转换型DFE的设计与优势MTA-ECS解决了由两电平转换Case-2引发的严重ISI但单电平转换Case-1引起的残余ISI仍然存在。这就需要DFE出场。然而传统的PAM-4 DFE设计非常臃肿H、M、L三条判决路径中的每一条都需要考虑前一个符号的所有三个比特D[n-1]H, D[n-1]M, D[n-1]L作为反馈这意味着总共需要9个反馈系数和复杂的交叉布线如图11(b)左图所示。这带来了巨大的布线拥塞、寄生电容和功耗。我们的观察是在MTA PAM-4信号中由于编码限制每个路径的ISI主要只由特定的前序符号转换模式引起。“非对称转换型”DFE的核心思想就是只关注那些“重要”的转换。如图6所示对于H路径上眼图能够引起两电平转换即对H路径决策产生显著ISI影响的前序符号只能是D[n-1] 000或001。这两种情况下前序符号的M位D[n-1]M都是0。因此H路径的DFE只需要一个反馈信号D[n-1]M。当它为0时施加一个负的权重系数WH来抵消正ISI。对于M路径中眼图影响它的两电平转换发生在D[n-1] 000或111时。这对应着D[n-1]L 0和D[n-1]H 1。因此M路径的DFE需要两个反馈信号并分别配置权重WM1和WM2。对于L路径下眼图情况与H路径相反其关键转换发生在D[n-1] 111或110此时D[n-1]M 1。因此L路径的DFE也只需要一个反馈信号D[n-1]M但权重极性WL可能与H路径相反。通过这种方式我们将传统DFE的9个反馈分支减少到了最多4个实际芯片中可能根据优化进一步减少如图11(b)右图所示。这极大地简化了布线降低了寄生负载使得在22Gb/s的高速下仍能轻松满足时序要求。图7的仿真结果清晰地展示了这种DFE的效果在启用后中眼图的张开面积增加了约20%~30%三个眼图的均衡性得到了显著改善。4. 电路模块实现细节从架构到晶体管级的设计考量有了顶层的算法和架构我们还需要将其落实到具体的电路模块上。一个高性能接收机是多个精心设计的子模块协同工作的结果。4.1 模拟前端AFE的优化CTLE与负电容技术AFE是信号进入接收机的第一道门户其线性度和带宽至关重要。如图9所示本设计中的AFE由一个CTLE级联一个VGA构成。两者均采用NMOS输入的CML结构以支持高带宽和较好的线性度。为了补偿信道在奈奎斯特频率本例中为5.5GHz处约6.6dB的插入损耗CTLE需要提供高频增益提升。然而正如前文所述单端伪差分结构固有的不平衡会在高提升设置下加剧非线性。为了缓解这个问题本设计在CTLE的负载器件上并联了一个交叉耦合的负电容级。这个负电容级的作用是双重的扩展带宽它有效地减少了CTLE输出节点看到的电容从而提升了高频增益允许在更低的功耗下达到所需的均衡效果。改善平衡如图10所示负电容结构通过耦合P和N两个分支有助于平均两个输出OUTP和OUTN的响应。仿真表明在没有负电容级时OUTP和OUTN的峰值频率相差21.5%增益失配约1.3dB。而加入负电容级后峰值频率基本对齐增益失配降低到约0.96dB。这直接减轻了伪差分结构带来的固有非线性。当然天下没有免费的午餐。负电容级需要额外的交叉耦合晶体管对这会增加约50%的AFE功耗。这是一个典型的性能与功耗的权衡。在本设计中为了确保在22Gb/s速率下的信号质量这个代价被认为是值得的。4.2 采样器与DFE的合并设计在高速接收机中采样器的设计至关重要。本设计采用了双尾锁存型采样器图11(a)这种结构以其快速的建立/保持时间和高速度特性而闻名。一个关键的优化点是DFE的实现方式。传统上DFE需要一个独立的模拟加法器Summer来将反馈信号与输入信号相加然后再送入采样器。这会引入额外的延迟和功耗。本设计采用了加法器-采样器合并的技术DFE的反馈电流被直接注入到采样器内部的敏感节点上。具体来说DFE的权重电流通过电流舵DAC控制直接注入到采样器输入对管的源极节点。这样反馈信号的加减操作在采样器内部同步完成省去了独立的加法器模块降低了延迟和功耗。采样器的阈值电压和偏移可以通过独立的参考电压Vref(H/M/L)进行调节这使得我们可以为PAM-4的三个眼图设置独立的、精确的判决门限以应对信号幅度可能的不均衡。4.3 时钟分配与动态门控的时序考量对于采用半速率架构即采样时钟频率为数据速率的一半的接收机一个低抖动、占空比精确的时钟分布网络是命脉。本设计包含一个差分时钟缓冲器负责将外部高速时钟分配到接收机核心的各个采样器。而MTA-ECS的动态时钟门控功能就集成在这个时钟分布网络的末端。如图12所示时钟门控逻辑NAND/NOR门必须在1个UI的时间内根据前一个符号的判决结果产生正确的门控时钟。这要求前一级的锁存器和RZ-NRZ转换器具有极快的解析速度。得益于双尾锁存器的高速特性这个时序约束在高达5.5GHz对应11Gb/s符号率22Gb/s数据率的奈奎斯特频率下是可以满足的不会成为整个接收机速度的瓶颈。5. 芯片实测结果与性能分析理论是否照进现实任何芯片设计最终都要用硅片上的实测数据说话。该原型芯片采用28nm CMOS工艺制造。图13展示了芯片显微照片和测试环境。测试中使用比特误码率测试仪BERT产生PRBS-7经MTA编码的图案通过一个无源合路器生成单端PAM-4信号再经过一个包含SMA电缆和4英寸FR-4 PCB走线的测试信道其在5.5GHz处损耗约6.6dB输入到接收机芯片。5.1 均衡效果可视化Shmoo图与浴缸曲线最直观的性能展示是Shmoo图眼图扫描。图15(a)展示了仅开启CTLE时的性能。可以看到由于单端AFE的非线性上眼图和下眼图严重扭曲垂直和水平方向的有效裕度都很小。在10^-9的误码率要求下最差眼的裕度仅为10mV和0.3 UI。当同时启用MTA-ECS和非对称转换型DFE后情况发生了根本性改变图15(b)。上、下眼图的非线性失真得到了有效补偿三个眼图的张开变得均匀。在同样的误码率下垂直裕度提升至30-40mV水平裕度达到0.40-0.45 UI。这清晰地证明了所提技术的有效性。为了评估在更严苛的误码率要求下的性能我们绘制了浴缸曲线Bathtub Curve。图16显示对于内存接口要求的10^-12误码率MSB对应中眼图在启用DFE后水平裕度约为0.35 UI。LSB对应上、下眼图在不使用MTA-ECS和DFE时由于非线性裕度被限制在0.1 UI且在连续相位扫描下仅剩0.05 UI。这是一个几乎不可用的状态。而在启用两项技术后LSB的裕度恢复到了与MSB相当的0.35 UI水平。最终整个PAM-4接收机在最差情况下的时序裕度从0.05 UI提升到了0.325 UI提升幅度超过6倍。这个数字对于确保高速内存接口的稳定工作至关重要。5.2 能效与性能对比功耗是衡量接收机设计优劣的另一个核心指标。图17给出了接收机的功耗分解。得益于MTA-ECS的动态时钟门控在最需要被纠正的眼图路径上采样器在特定周期被关闭带来了直接的功耗节省。这使得该技术在提升线性度的同时没有增加额外的功耗负担甚至有所降低。表1将本设计与近年来的其他单端PAM-4接收机研究进行了对比。在22 Gb/s/pin的数据速率下本设计实现了0.61 pJ/bit的整体能效。更值得注意的是两个专项效率指标均衡效率0.173 pJ/bit。这衡量了为获得单位均衡能力所消耗的能量数值越低越好。线性度补偿效率0.044 pJ/bit。这专门衡量了为补偿非线性失真所消耗的能量效率。本设计在这两个指标上均展现了领先的竞争力这主要归功于MTA-ECS和精简DFE这种“精准而节俭”的补偿策略避免了传统方案中“粗放式”全均衡带来的巨大功耗开销。6. 设计心得与潜在挑战回顾这个设计其成功的关键在于对问题本质的深刻理解和对现有系统约束MTA编码规则的创造性利用。MTA-ECS的想法非常巧妙它跳出了“必须用复杂电路去对抗非线性”的思维定式转而利用通信协议本身的冗余信息来纠正错误实现了“以智取胜”。在实际工程实现中有几点需要特别注意时序收敛是生命线MTA-ECS的动态时钟门控逻辑增加了时钟路径的复杂度。必须对从上一符号判决输出到时钟门控逻辑再到生成本地采样时钟的整个环路进行极其严格的时序分析。任何超出1 UI的延迟都会导致门控失效或产生错误。这要求前级采样锁存器、解码逻辑和门控电路本身都必须高度优化。工艺角与电压温度变化AFE的非线性特性、CTLE的增益峰值频率、以及采样器的偏移都会随着工艺、电压和温度PVT的变化而漂移。MTA-ECS的纠正逻辑是数字的、确定的但它的纠正条件是基于模拟信号的失真情况设定的。因此在芯片设计阶段需要充分仿真在不同PVT条件下AFE的非线性模式是否稳定以确保MTA-ECS的纠正条件始终有效。可能需要引入一些可调的阈值或使能控制来增加鲁棒性。测试与验证的复杂性由于MTA-ECS的工作依赖于特定的数据模式禁止大转换在测试时需要精心构造测试向量以覆盖所有需要纠正和不需要纠正的情况。传统的伪随机二进制序列PRBS可能无法充分激发MTA-ECS的逻辑。需要开发基于MTA编码规则的专用测试模式以全面验证其功能性和性能提升效果。与系统级的协同MTA-ECS的有效性建立在发射机也采用MTA编码的基础上。这意味着这项技术并非一个独立的、普适的接收机解决方案而是一个与特定编码协议深度绑定的协同设计。它最适合应用于像GDDR6X/GDDR7这类已经采用或计划采用MTA编码的内存标准中。这个设计为高速、低功耗内存接口的接收机设计提供了一个极具启发性的范例。它证明了通过跨层的协同设计从编码协议到模拟电路再到数字逻辑我们可以在不显著增加功耗和面积的前提下攻克像单端PAM-4 AFE非线性这样的棘手难题。随着数据速率向更高水平迈进这种“精打细算”的智能设计哲学将变得越来越重要。