2T双端口无电容DRAM:基于体硅浮体效应的高性能嵌入式存储新方案 1. 项目概述为什么我们需要重新思考嵌入式DRAM在今天的片上系统SoC设计里内存子系统往往是性能、功耗和成本三角博弈的核心地带。对于需要高带宽、低延迟的嵌入式应用比如高端图形处理器、网络处理器或者AI加速器静态随机存取存储器SRAM和嵌入式动态随机存取存储器eDRAM是两种主流选择。SRAM速度快但单元面积大典型的6T单元功耗也高而传统的eDRAM即1晶体管1电容1T1C结构虽然单元面积小但那个独立的存储电容成了工艺上的“阿喀琉斯之踵”。随着工艺节点不断微缩在硅片上集成一个高性能、高密度、漏电又小的电容变得越来越困难。电容的制造需要额外的、复杂的工艺步骤这不仅推高了成本也带来了可靠性和良率问题。更棘手的是1T1C结构固有的“破坏性读取”特性——每次读取数据后都需要重写这直接导致了额外的功耗和延迟。正是在这种背景下“无电容DRAM”Capacitor-less DRAM的概念应运而生。它的核心思想非常巧妙既然制造电容这么麻烦我们能不能用晶体管本身来存储电荷答案是肯定的利用的就是MOSFET中“浮体”Floating Body的物理效应。电荷被注入并暂时存储在晶体管的体区Body通过改变体电位来调制晶体管的阈值电压从而实现“1”和“0”的区分。这彻底摒弃了独立电容工艺兼容性更好单元面积有望进一步缩小。然而早期的无电容DRAM尤其是基于体硅Bulk工艺的1T单元面临着几个关键挑战数据保持时间Retention Time短尤其是在高温下读取信号窗口Memory Window小对工艺波动敏感以及读写路径耦合导致的访问灵活性差。我们今天要深入解析的这篇论文提出了一种基于体硅浮体效应的2T双端口无电容DRAM技术正是为了系统性地解决这些问题。它不仅仅是一个单元结构的改变更在读取机制上做了根本性的创新为高速、低功耗、低成本的嵌入式存储开辟了一条颇具吸引力的新路径。2. 核心架构解析2T双端口单元如何工作要理解这项技术的精妙之处我们得先抛开传统1T1C的思维定式从晶体管的基本物理和电路设计两个层面来看这个2T单元。2.1 单元结构与物理基础论文中提出的2T单元结构如图1(a)所示其核心是一个共享的、被隔离的“浮空P阱”Floating P-well。这个P阱通过浅沟槽隔离STI和周围的PN结与衬底隔离开来形成了一个电荷的“蓄水池”。在这个蓄水池上建造了两个串联的NMOS晶体管写晶体管Tw和读晶体管Tr它们共享这个浮空P阱作为共同的体区。这种设计带来了几个根本优势工艺兼容性整个结构基于主流的130nm体硅CMOS工艺仅需增加两块掩膜版来形成浮空P阱和埋藏N层Buried n-layer。这比转向SOI绝缘体上硅或引入全新材料要经济得多也更容易集成到现有的SoC设计流程中。物理隔离共享的浮空P阱被STI和PN结包围相比早期体硅1T单元中电荷容易通过衬底泄漏的路径这种隔离显著提升了电荷的保持能力为更长的数据保持时间打下了基础。功能分离Tw和Tr各有专属的端口Tw连接写位线WBL和写字线WWL负责数据的写入和刷新Tr连接读位线RBL和读字线RWL专门负责数据的读取。这种物理上的端口分离是实现“双端口”特性的基石。2.2 双端口操作与电路优势图1(b)的电路示意图清晰地展示了其双端口特性。在传统的1T1C或1T无电容DRAM中读写共享同一条位线和字线读写操作是互斥的——读的时候不能写刷新的时候不能读。而在这个2T单元中由于读写路径完全独立带来了革命性的访问灵活性并发操作当系统需要对某个单元进行刷新或写入时Tw被激活。与此同时系统可以完全独立地通过Tr去读取同一阵列中其他行或列单元的数据。读写操作在时间上可以重叠互不干扰。更高的数据可用性这意味着存储阵列的“停机时间”大大减少。对于需要高实时性的应用比如视频处理或通信基带存储控制器可以在后台持续刷新数据的同时保证前台的读取请求得到即时响应有效提升了存储带宽和系统整体性能。简化的控制逻辑读写控制的解耦也简化了周边电路的设计。读写放大器、驱动电路都可以针对各自的操作进行独立优化无需复杂的仲裁逻辑来处理读写冲突。2.3 操作电压与状态定义单元的操作电压设置是性能调优的关键。如表I所示所有操作中埋藏N层都偏置在0.6V这有助于形成更好的隔离并优化寄生双极晶体管BJT的特性。写入写‘1’和擦除写‘0’操作主要通过Tw进行写‘1’Program通过碰撞电离Impact Ionization机制向浮空P阱注入空穴。当WWL和WBL施加合适的电压时Tw沟道中的电子在高电场下获得足够能量与晶格碰撞产生电子-空穴对。产生的空穴被扫入并存储在浮空P阱中抬高了体电位Vbody。写‘0’Erase通过正向偏置Tw的源/漏结将浮空P阱中的空穴排出从而降低体电位。存储的数据状态通过体电位的高低来表征高体电位充满空穴对应逻辑‘1’低体电位空穴稀少对应逻辑‘0’。读晶体管Tr的使命就是灵敏地检测出这种体电位的差异并将其转换为可区分的读位线电流。注意操作电压如WBL电压、读写字线电压需要根据具体的工艺节点栅氧厚度、电源电压进行精细优化。论文中基于130nm工艺的电压值是一个参考在更先进的节点上这些电压有望进一步降低从而减少功耗。3. 技术核心突破基于寄生BJT效应的新型读取机制如果说双端口架构解决了访问灵活性的问题那么论文提出的基于寄生双极结型晶体管BJT效应的新型读取方案则是攻克高温下性能衰减这一行业难题的关键。这是本文最精彩、也最具洞察力的部分。3.1 传统读取方式的局限在早期的体硅无电容DRAM中读取操作通常让读晶体管工作在线性区Linear Region。此时晶体管的漏极电流Id受阈值电压Vth调制而Vth又通过体效应Body Effect与体电位Vbody相关联。体电位高状态‘1’时Vth降低Id增大体电位低状态‘0’时Vth升高Id减小。通过感知RBL上的电流差来判别数据。这种方式的问题在于体效应是一种“弱”的调制机制。Vth随Vbody的变化是平方根关系灵敏度有限。尤其是在高温下晶体管本身的漏电流如亚阈值漏电、结漏电会急剧增加这些背景噪声会严重淹没由体效应产生的微小信号差异导致读取窗口Memory Window迅速缩小数据保持时间大幅缩短。从图4的实验结果可以清晰看到在85°C下传统读取模式的初始存储窗口仅为34.10 µA/µm刷新周期时间也缩短到约0.48秒。3.2 新型BJT读取原理与优势论文的创新点在于它让读晶体管Tr工作在饱和区Saturation Region并刻意利用通常被视为有害的“寄生BJT效应”来作为读取机制。在一个NMOS晶体管中源区N、P型体区和漏区N天然构成了一个NPN双极型晶体管。在常规MOS操作中我们极力抑制这个寄生BJT开启因为它可能导致闩锁Latch-up等可靠性问题。但在这里研究人员反其道而行之通过巧妙的偏置让这个寄生BJT成为高灵敏度传感器。工作原理当读取逻辑‘1’高Vbody时读晶体管的源极此时作为BJT的发射极电压为0V体区基极电位被空穴抬高。这使得寄生BJT的发射结基极-发射极处于接近正偏的状态Vbe ≈ 0.64V如图3仿真所示。一旦发射结正偏大量的电子从发射极源极注入基区体区并在集电结体区-漏极反偏电场的作用下被扫到集电极漏极形成巨大的BJT集电极电流Ic。这个电流与发射结电压Vbe呈指数关系Ic ∝ exp(qVbe / kT)。当读取逻辑‘0’低Vbody时体电位很低寄生BJT的发射结反偏或零偏BJT效应极其微弱读电流主要来自MOSFET本身的漏电流数值很小。指数关系的威力正是这个指数关系带来了革命性的提升。体电位Vbody的微小变化会引起Vbe的线性变化进而导致BJT电流呈指数级变化。这使得读取信号对体电位的灵敏度比传统的体效应调制高出几个数量级。3.3 性能提升的数据印证图4的实验对比令人信服地展示了新方法的优势。在85°C的高温下存储窗口新型BJT读取模式的初始窗口达到192.84 µA/µm是传统模式34.10 µA/µm的5.66倍巨大的电流差使得后续的读出放大器Sense Amplifier设计变得非常简单且鲁棒几乎不需要复杂的偏移消除电路。刷新周期刷新周期时间从传统模式的0.48秒延长到了1.28秒。这意味着在相同时间内需要执行刷新操作的次数减少了约62%直接转化为可观的静态功耗节省。这对于电池供电的便携式设备至关重要。抗工艺波动能力图5展示了在16Kb阵列测试中读‘1’和读‘0’电流的分布。两者都呈现良好的正态分布且分离度很高。在±5 sigma覆盖99.99994%的样本的工艺波动下仍然能保持高达112.75 µA/µm的信号感知裕度Sensing Margin。这说明该方案对晶体管尺寸、掺杂浓度等工艺波动具有很强的容忍性有利于提高量产良率。实操心得在设计采用此类BJT读取方案的电路时需要特别注意对寄生BJT电流增益β的优化。论文指出体硅器件中寄生横向BJT的β值低于基于SOI的闩锁型器件这反而是一个优点因为它避免了不希望发生的闩锁过程保证了读操作的稳定性和可控性。工艺上可以采用相对较低的共享P阱掺杂浓度这有助于维持足够的β值同时减少带带隧穿引起的结漏电并抑制随机掺杂波动带来的性能差异。4. 设计考量与工艺集成要点将这样一个创新的存储单元从概念变为可量产的嵌入式内存模块需要在电路设计和工艺集成层面进行一系列细致的权衡与优化。4.1 关键设计参数权衡写入机制选择论文采用了碰撞电离Impact Ionization而非栅致漏极漏电GIDL作为主要的空穴注入机制。这是因为在有限的漏极电压如≤2V下碰撞电离能提供更快的写入速度。但碰撞电离会产生高能热载流子可能引发器件可靠性问题。因此设计中使用了较厚的栅氧来增强栅极可靠性并抑制热载流子退化。在更先进的工艺节点需要重新评估这两种机制在速度、功耗和可靠性方面的平衡。读写晶体管尺寸W/LTw和Tr的宽长比需要协同优化。Tw的尺寸影响写入速度和注入效率而Tr的尺寸直接影响读电流的绝对值和BJT效应的强度。过小的Tr可能使读电流太小增加读出难度过大的Tr则会增加单元面积。论文中测试的单元W/L0.30/0.28 µm是一个在130nm节点下平衡了性能与面积的折中选择。操作电压优化表I中的电压如WBL2.0V WWL1.2V等是针对特定工艺和氧化层厚度优化的结果。随着技术节点微缩电源电压降低这些操作电压也需要等比例缩放或重新优化以确保足够的写入效率和读取裕度同时不超出晶体管的安全工作区。时序控制图3(a)的瞬态仿真展示了严格的时序控制需求。在写入/擦除脉冲之后需要插入一个短暂的保持时间Hold Time 约50-100ns让电路中的寄生电容充电/放电稳定然后再进行第一次读取以避免瞬态干扰误判数据。在实际的存储控制器设计中这个时序必须被精确遵守。4.2 工艺集成挑战与解决方案浮空P阱与隔离这是工艺上最关键的附加步骤。需要增加掩膜版来定义浮空P阱的区域并通过高能离子注入形成埋藏N层与下方的P型衬底形成PN结隔离。STI的深度和质量至关重要它必须确保浮空P阱在水平方向上的良好隔离防止相邻单元之间的电荷串扰。掺杂剖面控制共享P阱的掺杂浓度需要精确控制。如之前所述较低的浓度有利于BJT效应和减少波动但浓度过低可能会削弱对沟道的控制能力增加短沟道效应。这是一个需要工艺与器件仿真紧密协同的优化过程。与逻辑工艺的兼容性最大的优势在于其与标准CMOS逻辑工艺的高度兼容。增加的步骤较少且不涉及新材料如高K金属栅在论文发表的2014年已是前沿但此处未使用这使得该技术能够作为嵌入式模块相对平滑地集成到主流的SoC制造流程中成本可控。5. 应用前景、挑战与实测问题排查5.1 应用场景与价值这项2T双端口无电容DRAM技术其特性精准地瞄准了高端嵌入式存储市场的痛点高性能计算与图形需要极高带宽和低延迟的缓存。双端口特性允许同时读写非常适合作为最后一级缓存LLC或纹理缓存能显著提升数据吞吐量。网络处理器与通信基带处理高速数据流需要频繁访问存储表如路由表、流表。长刷新周期和高温稳定性降低了刷新功耗和系统热管理压力。人工智能边缘推理模型权重和中间激活值的存储需要高密度、低功耗的内存。该技术的单元面积小于SRAM静态功耗优于传统eDRAM是片上权重存储的潜在候选。物联网终端设备对成本极度敏感且需要长续航。其与标准CMOS工艺的兼容性有助于降低成本而低刷新功耗则延长了电池寿命。5.2 潜在挑战与发展方向尽管前景广阔该技术走向大规模商用仍需克服一些挑战缩放性Scalability当工艺节点进入22nm以下特别是FinFET时代传统的体硅平面结构被三维鳍式结构取代。浮空体的概念如何迁移到FinFET电荷的注入、存储和检测机制在三维结构中会发生何种变化这是后续研究必须回答的问题。多比特存储目前的方案是单比特存储1bit/cell。能否利用体电位多级调制的可能性实现多级单元MLC存储从而进一步提升密度这需要对电荷存储的精确控制和更灵敏的读出电路提出极高要求。阵列架构与外围电路双端口设计在提升灵活性的同时也增加了位线、字线的数量对阵列布局和布线提出了挑战。如何优化阵列架构在面积开销和性能收益之间取得最佳平衡需要从系统层面进行设计。可靠性长期、多次的碰撞电离写入操作可能引发热载流子注入HCI退化影响晶体管寿命。需要建立完善的可靠性模型和测试方法确保产品达到足够的耐久性Endurance要求。5.3 常见问题与实测排查思路基于论文中的实验设置和可能遇到的实际工程问题可以梳理出以下排查指南问题现象可能原因排查思路与解决方向读电流窗口小1. 浮空P阱掺杂浓度过高。2. 寄生BJT增益β过低。3. 读晶体管偏置电压RWL RBL未优化。4. 写入操作不充分体电位抬升不够。1. 检查工艺仿真模型调整P阱注入剂量。2. 优化读晶体管源/漏结深和间距改善BJT特性。3. 扫描RWL电压找到使BJT效应最显著的工作点。4. 增加写入脉冲宽度或WBL电压在可靠性允许范围内。数据保持时间短1. STI或PN结隔离质量差漏电大。2. 共享P阱中存在缺陷或产生-复合中心。3. 温度升高导致载流子热产生率增加。1. 检查STI工艺步骤确保填充致密无空隙。优化隔离注入。2. 改善工艺清洁度减少晶体缺陷。采用吸杂Gettering技术。3.这是固有物理限制。重点应转向优化BJT读取方案提升高温下的信噪比而非单纯追求绝对保持时间。读写干扰1. 读写路径隔离不彻底存在寄生耦合。2. 时序控制不当读写操作重叠产生冲突。1. 在版图布局中加大读写位线/字线的间距增加屏蔽层。进行寄生提取和信号完整性仿真。2. 仔细验证存储控制器的时序确保满足图3(a)中的建立/保持时间要求。工艺波动导致良率低随机掺杂波动RDF、线边缘粗糙度LER等引起读电流分布过宽。1. 如前所述采用较低的P阱掺杂浓度以抑制RDF影响。2. 在电路设计上采用具有更高偏移容限的读出放大器架构。3. 利用ECC纠错码技术来容忍一定程度的软错误。我在实际跟进类似嵌入式存储项目时发现从实验室的单器件特性到大规模阵列测试性能往往会有折损。关键是要建立从器件物理模型到阵列级性能预测的完整仿真流程。在流片前必须进行充分的蒙特卡洛仿真评估工艺波动对读电流分布、刷新时间等关键指标的影响。阵列测试中除了功能测试应重点进行刷新失败率、访问时间在不同电压和温度角Corner下的测试以确定实际可用的工作窗口。这项2T双端口技术最大的魅力在于它通过电路和器件层面的协同创新用一个相对简洁的改动同时撬动了性能、功耗和成本多个杠杆为嵌入式存储的设计提供了极具启发性的新思路。