030、NPU的电源门控与时钟门控:降低静态功耗 嵌入式NPU原理基础(三十):NPU的电源门控与时钟门控——降低静态功耗去年调试某款AIoT芯片时遇到一个诡异现象:NPU在推理完成后,明明已经进入空闲状态,整机功耗却比预期高了12mA。用热成像仪一扫,NPU核心区域温度明显偏高。查了三天,最后发现是电源门控的使能信号被软件意外拉高了——硬件设计没问题,驱动里一个寄存器写错了位。这个教训让我意识到,NPU的功耗管理远不止“不用就关掉”这么简单。静态功耗的“隐形杀手”NPU和CPU不同,它的计算阵列通常由大量乘加单元(MAC)构成。以某款4TOPS的NPU为例,内部有超过2000个MAC单元,每个单元在空闲时依然存在漏电流。65nm工艺下,单个MAC的静态功耗约0.5μW,2000个就是1mW——看起来不多,但加上SRAM、控制逻辑、总线接口,整体静态功耗轻松突破10mW。对于电池供电的IoT设备,这可能是致命的。更麻烦的是,NPU的SRAM通常采用高密度单元,漏电比逻辑电路严重得多。权重存储器的位线漏电、字线漏电,在高温下会指数级增长。85℃时,静态功耗可能是25℃时的3-5倍。电源门控:不是简单的“断电”电源门控(Power Gating)的核心是切断空闲模块的供电。但NPU不是CPU,它的工作模式更复杂:推理任务可能只激活部分计算阵列,其他部分需要保持数据。粗暴地整体断电会导致权重丢失,下次推理必须重新加载——这反而增加了动态功耗。实际设计中,NPU的电源域通常按功能划分:计算阵列域:包含MAC单元和累加器,这