打破“内存墙”:近存计算 (NMC) 如何重塑 AI 算力架构 在高性能开发的世界里我们总有一种错觉只要显卡的算力足够强模型的推理速度就一定能起飞。但随着模型规模的不断膨胀一个冷冰冰的现实摆在我们面前——算力不是瓶颈搬运数据才是。这就是困扰计算机架构师已久的“内存墙”Memory Wall问题。而在 2026 年“近存计算”Near-Memory Computing, NMC正在成为打破这堵墙的最有力武器。什么是“内存墙”在传统的冯·诺依曼架构中计算单元CPU/GPU与存储单元RAM是物理分离的。每进行一次乘加运算数据都要经历漫长的旅程从内存读取、经过总线传输、进入缓存、送入寄存器计算完后再原路返回。这不仅产生了巨大的延迟更消耗了 AI 推理中 80% 以上的功耗。我们花费了大量的能量在“搬运数据”上而不是在“进行计算”。近存计算 (NMC)让计算“原地”发生近存计算的核心哲学非常简洁别搬运数据让计算去靠近数据。它通过将计算逻辑直接集成在内存芯片内部或紧邻内存控制器的位置实现数据的“就地处理”。无需频繁搬运数据不需要穿过瓶颈重重的总线从而将带宽利用率提升了几个数量级。功耗削减因为消除了总线的数据交换计算功耗大幅降低这对于依赖电池的边缘设备如 RK3588 平台来说意味着更长的续航和更高的推理密度。低延迟响应数据的物理路径缩短使得实时处理如音频流、视觉感知的响应延迟达到了纳秒级。对架构师的启示数据不再是“货物”对于像你这样深耕高性能 C 系统架构的开发者而言NMC 带来的不仅仅是硬件升级更是数据流重构从“计算驱动”到“数据流向驱动”在 NMC 架构下我们设计软件时必须考虑哪些计算算子可以下沉到内存端执行。这意味着未来的编译器与运行时环境Runtime需要具备识别“存算逻辑”的能力将计算任务动态分配至数据所在的存储模块。实时性的物理跃迁结合你的 STTOSView 项目如果预处理如 FFT 变换或归一化能在内存端就地完成我们就可以将处理延迟压入微秒级别从而在极高负载下保持系统的响应稳定性。内存即算力我们需要转变观念将内存视为一种“可编程的、分布式的并行计算器”。结语算力的终极回归近存计算正在带领我们告别“搬运式计算”的时代进入“数据原地计算”的时代。当内存从数据的“冷库”转变为充满活力的“计算大脑”底层硬件架构与上层应用逻辑之间的鸿沟将进一步缩小。这不仅仅是效率的优化这是算力架构在物理本质上的回归。思考如果未来你的 Linux 任务调度器能感知到内存中哪些区域正在进行近存计算你认为应当如何分配任务优先级是优先将“计算密集型”任务塞进 NMC 区域还是将 NMC 作为高速缓存处理关键的 I/O 流