1. FeFET基TD-nvIMC技术概述时间域内存计算Time-Domain Non-Volatile In-Memory ComputingTD-nvIMC是近年来兴起的一种突破性计算架构其核心思想是将计算过程直接嵌入到存储单元阵列中。这种架构通过消除传统冯·诺依曼体系结构中的数据搬运瓶颈为边缘AI和低功耗嵌入式系统提供了革命性的能效提升方案。1.1 技术原理与核心优势TD-nvIMC的工作原理基于一个精妙的物理现象转换将存储单元的状态信息如FeFET的阈值电压转换为时间域的信号延迟差异。具体实现流程包含三个关键阶段状态-延迟转换每个存储单元根据其编程状态如FeFET的LVT/HVT对通过它的信号施加特定延迟tdL/tdH延迟累积多个单元的延迟在串联的延迟链DE chain中进行线性叠加时间-数字转换通过时间数字转换器TDC将总延迟量化为数字输出与传统计算架构相比这种设计具有三个显著优势能效提升实测达到1887 TOPS/W比传统架构高出2-3个数量级计算并行性支持阵列级并行计算特别适合矩阵乘加等线性代数运算架构灵活性同一硬件可动态配置为MAC运算或布尔逻辑运算关键提示TD-nvIMC的能效优势主要来自两个方面——消除了数据搬运能耗以及利用时间域模拟计算的高能量效率特性。1.2 FeFET器件的关键作用铁电场效应晶体管Ferroelectric FETFeFET作为存储介质为TD-nvIMC提供了几个不可替代的特性极化特性通过铁电材料如掺杂HfO₂的自发极化实现非易失性存储典型编程窗口1VVTH偏移量支持多级存储状态MLS用于精细延迟调节性能参数编程速度100ns单次写操作耐久性10^4-10^5次编程擦除周期保持特性10年85℃工艺兼容性完全兼容标准CMOS工艺流程在28nm及以下节点已实现量产级可靠性这些特性使FeFET成为实现高精度时间域计算的理想选择。特别是其多级存储能力为后续将介绍的MLS校准方案奠定了基础。2. 架构设计与核心电路实现2.1 整体系统架构该TD-nvIMC宏采用分层式设计主要包含以下功能模块存储计算阵列3×3 FeFET CAM阵列可扩展至M×N每个单元包含1个FeFET和访问晶体管支持行/列选择和解码延迟链DE chain3级可配置延迟单元每级延迟由对应FeFET状态调制集成泄放路径leaker path确保基准延迟时间数字转换器TDC2位Flash型TDC包含参考延迟线RDL和比较器阵列时间分辨率达100ps校准与控制电路MLS偏置电压生成扫描链接口时序控制逻辑这种模块化设计在28nm工艺下实现了17.6×30.7μm²的紧凑布局其中计算核心阵列DE链TDC仅占总面积的33%显示出良好的可扩展性。2.2 关键电路创新2.2.1 可重构延迟单元设计延迟单元是架构中最核心的创新点其电路结构和工作原理如下基本结构主路径FeFET存储单元 传输门并联路径固定泄放NMOS提供tdH基准负载调整可编程偏置BuL用于MLS校准工作模式当FeFET处于LVT逻辑1主路径导通延迟为tdL ≈ 200ps泄放路径被旁路当FeFET处于HVT逻辑0主路径关闭信号仅通过泄放路径延迟tdH ≈ 750ps这种设计通过存储单元的状态自然实现了延迟调制同时泄放路径确保了未选中单元提供一致的tdH避免了信号传播中断。2.2.2 时间数字转换器优化TDC设计面临的主要挑战是如何在有限功耗下实现高时间分辨率。本设计采用了几项关键优化参考延迟线RDL采用与DE链对称的结构每个参考点对应特定的延迟组合例如REF[3]对应3×tdH全0状态比较器阵列动态锁存比较器亚稳态消除电路共模噪声抑制设计编码逻辑温度计码到二进制转换错误检测与校正输出锁存同步这些优化使TDC在0.85V电源电压下实现了550ps的有效分辨率满足MAC运算的精度需求。3. 计算模式与操作流程3.1 乘累加MAC运算实现3.1.1 XOR-MAC模式XOR-MAC是该架构的主要工作模式其实现原理如下真值表映射输入A输入B权重W延迟贡献00XtdH011tdL101tdL110tdH操作流程配置阶段将权重矩阵编程到FeFET阵列执行MLS校准确保tdL精度计算阶段激活选中的行BL0V未选行保持高阻BLHi-Z输入脉冲通过DE链传播结果采集TDC测量总延迟输出2位数字结果实测数据显示XOR-MAC可清晰区分四个延迟级别间隔1.3ns对应不同的部分和结果。这种模式特别适合二进制神经网络BNN的推理加速。3.1.2 AND-MAC模式AND-MAC提供另一种计算范式具有以下特点真值表差异输入A输入B权重W延迟贡献00XtdH01XtdH10XtdH111tdL性能优势更精细的时间分辨率550ps每个周期仅需激活单列FeFET实测能效达222.2 MOPS/cell这种模式适合需要更高计算精度的应用场景如数字信号处理中的滤波操作。3.2 布尔逻辑运算实现3.2.1 AND/OR运算该架构支持原生布尔逻辑运算其实现机制如下AND运算仅当所有选中单元为1时输出1解码点REF[M-k]k为参与运算的列数延迟特征(M-k)×tdH k×tdLOR运算仅当所有选中单元为0时输出0解码点REF[M]延迟特征M×tdH全0时配置示例3输入AND选中3列k3设置对应WLVH其他WL0V结果出现在REF[0]即全1时延迟最短实验验证显示该方案能正确识别所有8种3输入组合错误率0.1%。3.2.2 全加器实现全加器功能通过巧妙配置AND-MAC模式实现真值表映射ABCinSumCout0000000110...............11111实现要点使用两阶段计算先计算Sum再计算Cout通过WL选择控制参与计算的列利用TDC的多级参考点同时输出两个结果这种设计展示了架构的灵活性可在同一硬件上实现多种数字逻辑功能。4. 校准技术与可靠性保障4.1 多级开关MLS校准方案4.1.1 校准必要性FeFET器件的固有特性导致两个关键挑战器件间差异D2D不同FeFET的LVT状态tdL存在差异编程误差单次写操作可能无法精确达到目标VT未经校准的系统其MAC精度受限于最差单元的tdL偏差实测显示可导致50%的计算错误。4.1.2 校准流程实现MLS校准通过闭环调整实现tdL精确控制初始编程施加标准写脉冲VWL3V100ns将目标FeFET设为LVT状态粗调阶段测量初始tdL如果超出[tdL_target±Δ]范围施加部分擦除脉冲VBuL-1V0V逐步调整FeFET VT精调阶段使用更小的步长ΔV≈50mV直到TDC输出稳定在目标码如10验证重复测量3次确认稳定性记录最终BuL偏置值该校准方案可实现≤100ps的延迟分辨率使系统能在550ps的步长下可靠工作。4.1.3 校准电路设计支持MLS校准的电路创新包括可编程BuL偏置网络-2V0V50mV步进在线TDC监测接口校准控制状态机非易失性存储单元保存校准参数这些电路占总面积的约15%是确保计算精度的关键投入。4.2 可靠性增强措施4.2.1 抗干扰设计针对FeFET阵列的特殊挑战采用了以下保护措施写干扰抑制未选行保持Hi-Z而非传统0V未选列施加VH/2中间电压采用C-AND写方案[27]减少极化扰动读干扰管理限制读电压VWL0.6V缩短读脉冲宽度10ns动态刷新机制每10^4次读后重写这些措施使读干扰寿命提升至10^8次满足实际应用需求。4.2.2 耐久性与保持特性实测数据展示出良好的可靠性保持特性所有MLS状态在10^5秒≈28小时内电流漂移5%室温高温85℃下仍保持稳定耐久性完整P/E循环10^3次保守值实际校准操作部分擦除预计10^4次失效模式主要为界面陷阱积累这些指标表明该技术已具备实际部署的基本可靠性要求。5. 性能评估与对比分析5.1 实测性能指标基于28nm工艺的测试芯片展现出以下关键性能计算精度有效时间分辨率550psMAC运算错误率1%校准后逻辑运算准确率99.9%能效指标峰值能效1887 TOPS/W能量/操作0.53pJ/MAC静态功耗1μW保持模式面积效率核心计算密度3.7 TOPS/mm²单元级吞吐量222.2 MOPS/cell随着阵列扩大效率可提升3-5倍这些实测数据均基于硅验证结果非仿真推测具有高可信度。5.2 与现有技术的对比与同类技术相比本方案具有明显优势时间域方案对比指标本工作[11][12][24]工艺节点(nm)28144022实测Δs550ps10μs1μs-能效(TOPS/W)188751318*8563*416.5校准支持是否否部分(*注文献[11][12]的能效数据基于仿真推测非实测值)存储类型对比相比ReRAM方案[24]精度相当能效提升4.5倍相比STT-MRAM[20]面积效率稍低但工艺更成熟相比SRAM方案具有非易失性优势静态功耗低3个数量级这些对比表明FeFET基TD-nvIMC在精度、能效和实用性间取得了良好平衡。5.3 应用场景分析该技术特别适合以下几类应用边缘AI推理二进制/三元神经网络加速支持常见架构BNN、XNOR-Net等典型用例图像分类、关键词检测数字信号处理有限脉冲响应(FIR)滤波相关运算矩阵预处理物联网端点传感器数据实时处理事件检测与分类低功耗始终在线(Always-on)功能在这些场景中该技术可提供比传统方案高1-2个数量级的能效比显著延长电池寿命。6. 技术挑战与未来方向6.1 当前技术限制尽管前景广阔该技术仍面临一些挑战工艺变异影响更先进节点如14nmFeFET特性波动更大需要更精细的校准方案可能限制最大可扩展规模阵列规模扩展目前演示仅3×3阵列大规模部署需要解决行/线延迟匹配写干扰累积校准复杂度增长应用生态构建需要专用编译器支持算法映射工具链缺失跨平台推理框架适配这些限制需要在后续研究和产业化过程中逐步解决。6.2 未来优化方向基于当前成果几个有前景的发展方向包括架构层面分层校准策略粗调精调自适应延迟补偿电路混合信号处理接口电路层面低功耗TDC设计抗干扰存储单元优化在线自测试(BIST)功能系统层面异构计算架构集成动态精度调节非对称计算支持工业界预测随着这些技术的成熟TD-nvIMC有望在3-5年内实现商业部署首先在智能物联网端点和可穿戴设备领域落地。
FeFET基TD-nvIMC技术:边缘AI的低功耗内存计算方案
发布时间:2026/5/17 2:53:19
1. FeFET基TD-nvIMC技术概述时间域内存计算Time-Domain Non-Volatile In-Memory ComputingTD-nvIMC是近年来兴起的一种突破性计算架构其核心思想是将计算过程直接嵌入到存储单元阵列中。这种架构通过消除传统冯·诺依曼体系结构中的数据搬运瓶颈为边缘AI和低功耗嵌入式系统提供了革命性的能效提升方案。1.1 技术原理与核心优势TD-nvIMC的工作原理基于一个精妙的物理现象转换将存储单元的状态信息如FeFET的阈值电压转换为时间域的信号延迟差异。具体实现流程包含三个关键阶段状态-延迟转换每个存储单元根据其编程状态如FeFET的LVT/HVT对通过它的信号施加特定延迟tdL/tdH延迟累积多个单元的延迟在串联的延迟链DE chain中进行线性叠加时间-数字转换通过时间数字转换器TDC将总延迟量化为数字输出与传统计算架构相比这种设计具有三个显著优势能效提升实测达到1887 TOPS/W比传统架构高出2-3个数量级计算并行性支持阵列级并行计算特别适合矩阵乘加等线性代数运算架构灵活性同一硬件可动态配置为MAC运算或布尔逻辑运算关键提示TD-nvIMC的能效优势主要来自两个方面——消除了数据搬运能耗以及利用时间域模拟计算的高能量效率特性。1.2 FeFET器件的关键作用铁电场效应晶体管Ferroelectric FETFeFET作为存储介质为TD-nvIMC提供了几个不可替代的特性极化特性通过铁电材料如掺杂HfO₂的自发极化实现非易失性存储典型编程窗口1VVTH偏移量支持多级存储状态MLS用于精细延迟调节性能参数编程速度100ns单次写操作耐久性10^4-10^5次编程擦除周期保持特性10年85℃工艺兼容性完全兼容标准CMOS工艺流程在28nm及以下节点已实现量产级可靠性这些特性使FeFET成为实现高精度时间域计算的理想选择。特别是其多级存储能力为后续将介绍的MLS校准方案奠定了基础。2. 架构设计与核心电路实现2.1 整体系统架构该TD-nvIMC宏采用分层式设计主要包含以下功能模块存储计算阵列3×3 FeFET CAM阵列可扩展至M×N每个单元包含1个FeFET和访问晶体管支持行/列选择和解码延迟链DE chain3级可配置延迟单元每级延迟由对应FeFET状态调制集成泄放路径leaker path确保基准延迟时间数字转换器TDC2位Flash型TDC包含参考延迟线RDL和比较器阵列时间分辨率达100ps校准与控制电路MLS偏置电压生成扫描链接口时序控制逻辑这种模块化设计在28nm工艺下实现了17.6×30.7μm²的紧凑布局其中计算核心阵列DE链TDC仅占总面积的33%显示出良好的可扩展性。2.2 关键电路创新2.2.1 可重构延迟单元设计延迟单元是架构中最核心的创新点其电路结构和工作原理如下基本结构主路径FeFET存储单元 传输门并联路径固定泄放NMOS提供tdH基准负载调整可编程偏置BuL用于MLS校准工作模式当FeFET处于LVT逻辑1主路径导通延迟为tdL ≈ 200ps泄放路径被旁路当FeFET处于HVT逻辑0主路径关闭信号仅通过泄放路径延迟tdH ≈ 750ps这种设计通过存储单元的状态自然实现了延迟调制同时泄放路径确保了未选中单元提供一致的tdH避免了信号传播中断。2.2.2 时间数字转换器优化TDC设计面临的主要挑战是如何在有限功耗下实现高时间分辨率。本设计采用了几项关键优化参考延迟线RDL采用与DE链对称的结构每个参考点对应特定的延迟组合例如REF[3]对应3×tdH全0状态比较器阵列动态锁存比较器亚稳态消除电路共模噪声抑制设计编码逻辑温度计码到二进制转换错误检测与校正输出锁存同步这些优化使TDC在0.85V电源电压下实现了550ps的有效分辨率满足MAC运算的精度需求。3. 计算模式与操作流程3.1 乘累加MAC运算实现3.1.1 XOR-MAC模式XOR-MAC是该架构的主要工作模式其实现原理如下真值表映射输入A输入B权重W延迟贡献00XtdH011tdL101tdL110tdH操作流程配置阶段将权重矩阵编程到FeFET阵列执行MLS校准确保tdL精度计算阶段激活选中的行BL0V未选行保持高阻BLHi-Z输入脉冲通过DE链传播结果采集TDC测量总延迟输出2位数字结果实测数据显示XOR-MAC可清晰区分四个延迟级别间隔1.3ns对应不同的部分和结果。这种模式特别适合二进制神经网络BNN的推理加速。3.1.2 AND-MAC模式AND-MAC提供另一种计算范式具有以下特点真值表差异输入A输入B权重W延迟贡献00XtdH01XtdH10XtdH111tdL性能优势更精细的时间分辨率550ps每个周期仅需激活单列FeFET实测能效达222.2 MOPS/cell这种模式适合需要更高计算精度的应用场景如数字信号处理中的滤波操作。3.2 布尔逻辑运算实现3.2.1 AND/OR运算该架构支持原生布尔逻辑运算其实现机制如下AND运算仅当所有选中单元为1时输出1解码点REF[M-k]k为参与运算的列数延迟特征(M-k)×tdH k×tdLOR运算仅当所有选中单元为0时输出0解码点REF[M]延迟特征M×tdH全0时配置示例3输入AND选中3列k3设置对应WLVH其他WL0V结果出现在REF[0]即全1时延迟最短实验验证显示该方案能正确识别所有8种3输入组合错误率0.1%。3.2.2 全加器实现全加器功能通过巧妙配置AND-MAC模式实现真值表映射ABCinSumCout0000000110...............11111实现要点使用两阶段计算先计算Sum再计算Cout通过WL选择控制参与计算的列利用TDC的多级参考点同时输出两个结果这种设计展示了架构的灵活性可在同一硬件上实现多种数字逻辑功能。4. 校准技术与可靠性保障4.1 多级开关MLS校准方案4.1.1 校准必要性FeFET器件的固有特性导致两个关键挑战器件间差异D2D不同FeFET的LVT状态tdL存在差异编程误差单次写操作可能无法精确达到目标VT未经校准的系统其MAC精度受限于最差单元的tdL偏差实测显示可导致50%的计算错误。4.1.2 校准流程实现MLS校准通过闭环调整实现tdL精确控制初始编程施加标准写脉冲VWL3V100ns将目标FeFET设为LVT状态粗调阶段测量初始tdL如果超出[tdL_target±Δ]范围施加部分擦除脉冲VBuL-1V0V逐步调整FeFET VT精调阶段使用更小的步长ΔV≈50mV直到TDC输出稳定在目标码如10验证重复测量3次确认稳定性记录最终BuL偏置值该校准方案可实现≤100ps的延迟分辨率使系统能在550ps的步长下可靠工作。4.1.3 校准电路设计支持MLS校准的电路创新包括可编程BuL偏置网络-2V0V50mV步进在线TDC监测接口校准控制状态机非易失性存储单元保存校准参数这些电路占总面积的约15%是确保计算精度的关键投入。4.2 可靠性增强措施4.2.1 抗干扰设计针对FeFET阵列的特殊挑战采用了以下保护措施写干扰抑制未选行保持Hi-Z而非传统0V未选列施加VH/2中间电压采用C-AND写方案[27]减少极化扰动读干扰管理限制读电压VWL0.6V缩短读脉冲宽度10ns动态刷新机制每10^4次读后重写这些措施使读干扰寿命提升至10^8次满足实际应用需求。4.2.2 耐久性与保持特性实测数据展示出良好的可靠性保持特性所有MLS状态在10^5秒≈28小时内电流漂移5%室温高温85℃下仍保持稳定耐久性完整P/E循环10^3次保守值实际校准操作部分擦除预计10^4次失效模式主要为界面陷阱积累这些指标表明该技术已具备实际部署的基本可靠性要求。5. 性能评估与对比分析5.1 实测性能指标基于28nm工艺的测试芯片展现出以下关键性能计算精度有效时间分辨率550psMAC运算错误率1%校准后逻辑运算准确率99.9%能效指标峰值能效1887 TOPS/W能量/操作0.53pJ/MAC静态功耗1μW保持模式面积效率核心计算密度3.7 TOPS/mm²单元级吞吐量222.2 MOPS/cell随着阵列扩大效率可提升3-5倍这些实测数据均基于硅验证结果非仿真推测具有高可信度。5.2 与现有技术的对比与同类技术相比本方案具有明显优势时间域方案对比指标本工作[11][12][24]工艺节点(nm)28144022实测Δs550ps10μs1μs-能效(TOPS/W)188751318*8563*416.5校准支持是否否部分(*注文献[11][12]的能效数据基于仿真推测非实测值)存储类型对比相比ReRAM方案[24]精度相当能效提升4.5倍相比STT-MRAM[20]面积效率稍低但工艺更成熟相比SRAM方案具有非易失性优势静态功耗低3个数量级这些对比表明FeFET基TD-nvIMC在精度、能效和实用性间取得了良好平衡。5.3 应用场景分析该技术特别适合以下几类应用边缘AI推理二进制/三元神经网络加速支持常见架构BNN、XNOR-Net等典型用例图像分类、关键词检测数字信号处理有限脉冲响应(FIR)滤波相关运算矩阵预处理物联网端点传感器数据实时处理事件检测与分类低功耗始终在线(Always-on)功能在这些场景中该技术可提供比传统方案高1-2个数量级的能效比显著延长电池寿命。6. 技术挑战与未来方向6.1 当前技术限制尽管前景广阔该技术仍面临一些挑战工艺变异影响更先进节点如14nmFeFET特性波动更大需要更精细的校准方案可能限制最大可扩展规模阵列规模扩展目前演示仅3×3阵列大规模部署需要解决行/线延迟匹配写干扰累积校准复杂度增长应用生态构建需要专用编译器支持算法映射工具链缺失跨平台推理框架适配这些限制需要在后续研究和产业化过程中逐步解决。6.2 未来优化方向基于当前成果几个有前景的发展方向包括架构层面分层校准策略粗调精调自适应延迟补偿电路混合信号处理接口电路层面低功耗TDC设计抗干扰存储单元优化在线自测试(BIST)功能系统层面异构计算架构集成动态精度调节非对称计算支持工业界预测随着这些技术的成熟TD-nvIMC有望在3-5年内实现商业部署首先在智能物联网端点和可穿戴设备领域落地。