从谷歌TPU到Xilinx VersalSystolic Array的AI芯片复兴之路在AI算力需求爆炸式增长的今天一个诞生于1982年的古老架构——Systolic Array脉动阵列正在经历令人瞩目的复兴。从谷歌TPU的矩阵计算单元到Xilinx Versal的AI Engine这一经典设计思想正以全新姿态重新定义AI芯片的性能边界。本文将深入探讨这一老树新花现象背后的技术逻辑与产业演进。1. Systolic Array被时代重新发现的瑰宝1982年卡内基梅隆大学的H. T. Kung教授在开创性论文《Why systolic architectures?》中首次系统阐述了脉动阵列的设计理念。这种架构的核心在于数据流驱动和计算与存储的紧耦合——处理单元(PE)像心脏跳动般有节奏地接收、计算并传递数据形成高效的计算流水线。然而在通用CPU主导的时代这种专用架构长期处于边缘地位。转折点出现在2016年谷歌在其第一代TPU中大胆采用了Systolic Array作为矩阵乘法的核心引擎使其处理速度达到同期CPU/GPU的15-30倍。这一成功案例揭示了三个关键启示内存墙突破传统架构90%时间花在数据搬运上而SA通过数据复用将访存需求降低2-3个数量级能效比革命TPUv1的TOPS/Watt达到GPU的10倍主要归功于SA的确定性数据流专用化趋势AI工作负载的矩阵运算占比超70%为SA提供了理想应用场景提示现代AI芯片设计中计算效率已不再是唯一瓶颈内存子系统设计往往决定整体性能上限。2. 谷歌TPU的架构创新Systolic Array的工业级实践谷歌TPU将传统SA架构推向工程实践的新高度。其设计特点包括特性TPUv1实现方案传统CPU/GPU对比数据流权重固定式数据流随机访存模式计算精度8位整型量化32位浮点为主内存层次统一缓冲器(UB)累加器(ACC)多级缓存体系峰值算力92 TOPS (INT8)约1-10 TOPS (FP32)TPU的成功验证了SA架构在AI推理场景的独特优势确定性延迟固定数据流确保每次计算时钟周期数恒定高数据复用每个权重数据被256个MAC重复使用简化控制无需复杂调度逻辑硬件利用率稳定在90%// 简化的TPU数据流控制逻辑 always (posedge clk) begin if (data_valid) begin for (i0; i256; ii1) begin PE_array[i] weight[i] * input_data PE_array[i]; end end end3. Xilinx Versal AI EngineSystolic Array的异构进化Xilinx在Versal ACAP中引入的AI Engine(AIE)代表了SA架构的现代化演进。与谷歌TPU的固定功能单元不同AIE实现了可编程脉动阵列的创新架构突破点标量矢量混合单元每个AIE包含32位RISC-V标量处理器512位SIMD矢量引擎专用AI加速指令扩展智能存储层次32KB本地数据存储器2KB指令缓存相邻存储器直接访问接口自适应互连网络二维MeshNoC混合拓扑支持数据广播、多播等传输模式以VCK190开发板为例其400个AIE核心组成的阵列可实现理论算力 400核心 × 1.25GHz × 16(INT8 MAC/cycle) 8 TOPS4. 架构演进对比从专用到可编程的范式转移对比三代SA架构的实现差异4.1 计算范式演进经典SA1980s纯数据流驱动固定功能PE单向数据传播谷歌TPU2016静态数据流编程专用矩阵乘法单元权重固定优化Versal AIE2020动态数据流配置可编程矢量处理器自适应内存访问4.2 互联架构创新传统SA的局限性在于其刚性互连结构而现代实现通过三种技术创新实现突破近内存计算AIE的32KB本地存储提供1TB/s带宽弹性数据路由支持跨PE的直接内存访问(DMA)混合精度支持INT4/INT8/FP16/FP32可配置// AIE核心的典型编程模式 void __attribute__ ((aie_kernel)) vec_mul( const int16 *a, const int16 *b, int32 *c) { v16int16 va *(v16int16 *)a; v16int16 vb *(v16int16 *)b; v8int32 vc mul16(va, vb); *(v8int32 *)c vc; }5. 未来方向Systolic Array的再创新随着AI算法复杂度提升SA架构面临新的挑战与机遇关键技术趋势稀疏化支持动态跳过零值计算提升有效算力存内计算将PE与存储器进一步融合光互连解决大规模阵列的布线延迟问题在实际项目部署中我们发现AIE阵列的编程模型需要特别关注数据流图划分的均衡性内存访问冲突的避免相邻PE间的通信同步从TPU到Versal的演进历程表明优秀架构设计的生命力在于其可进化性。Systolic Array这一古老思想正通过持续创新在AI计算领域焕发新的生机。
从谷歌TPU到Xilinx Versal:聊聊Systolic Array如何成为AI芯片的“老树新花”
发布时间:2026/5/16 12:34:16
从谷歌TPU到Xilinx VersalSystolic Array的AI芯片复兴之路在AI算力需求爆炸式增长的今天一个诞生于1982年的古老架构——Systolic Array脉动阵列正在经历令人瞩目的复兴。从谷歌TPU的矩阵计算单元到Xilinx Versal的AI Engine这一经典设计思想正以全新姿态重新定义AI芯片的性能边界。本文将深入探讨这一老树新花现象背后的技术逻辑与产业演进。1. Systolic Array被时代重新发现的瑰宝1982年卡内基梅隆大学的H. T. Kung教授在开创性论文《Why systolic architectures?》中首次系统阐述了脉动阵列的设计理念。这种架构的核心在于数据流驱动和计算与存储的紧耦合——处理单元(PE)像心脏跳动般有节奏地接收、计算并传递数据形成高效的计算流水线。然而在通用CPU主导的时代这种专用架构长期处于边缘地位。转折点出现在2016年谷歌在其第一代TPU中大胆采用了Systolic Array作为矩阵乘法的核心引擎使其处理速度达到同期CPU/GPU的15-30倍。这一成功案例揭示了三个关键启示内存墙突破传统架构90%时间花在数据搬运上而SA通过数据复用将访存需求降低2-3个数量级能效比革命TPUv1的TOPS/Watt达到GPU的10倍主要归功于SA的确定性数据流专用化趋势AI工作负载的矩阵运算占比超70%为SA提供了理想应用场景提示现代AI芯片设计中计算效率已不再是唯一瓶颈内存子系统设计往往决定整体性能上限。2. 谷歌TPU的架构创新Systolic Array的工业级实践谷歌TPU将传统SA架构推向工程实践的新高度。其设计特点包括特性TPUv1实现方案传统CPU/GPU对比数据流权重固定式数据流随机访存模式计算精度8位整型量化32位浮点为主内存层次统一缓冲器(UB)累加器(ACC)多级缓存体系峰值算力92 TOPS (INT8)约1-10 TOPS (FP32)TPU的成功验证了SA架构在AI推理场景的独特优势确定性延迟固定数据流确保每次计算时钟周期数恒定高数据复用每个权重数据被256个MAC重复使用简化控制无需复杂调度逻辑硬件利用率稳定在90%// 简化的TPU数据流控制逻辑 always (posedge clk) begin if (data_valid) begin for (i0; i256; ii1) begin PE_array[i] weight[i] * input_data PE_array[i]; end end end3. Xilinx Versal AI EngineSystolic Array的异构进化Xilinx在Versal ACAP中引入的AI Engine(AIE)代表了SA架构的现代化演进。与谷歌TPU的固定功能单元不同AIE实现了可编程脉动阵列的创新架构突破点标量矢量混合单元每个AIE包含32位RISC-V标量处理器512位SIMD矢量引擎专用AI加速指令扩展智能存储层次32KB本地数据存储器2KB指令缓存相邻存储器直接访问接口自适应互连网络二维MeshNoC混合拓扑支持数据广播、多播等传输模式以VCK190开发板为例其400个AIE核心组成的阵列可实现理论算力 400核心 × 1.25GHz × 16(INT8 MAC/cycle) 8 TOPS4. 架构演进对比从专用到可编程的范式转移对比三代SA架构的实现差异4.1 计算范式演进经典SA1980s纯数据流驱动固定功能PE单向数据传播谷歌TPU2016静态数据流编程专用矩阵乘法单元权重固定优化Versal AIE2020动态数据流配置可编程矢量处理器自适应内存访问4.2 互联架构创新传统SA的局限性在于其刚性互连结构而现代实现通过三种技术创新实现突破近内存计算AIE的32KB本地存储提供1TB/s带宽弹性数据路由支持跨PE的直接内存访问(DMA)混合精度支持INT4/INT8/FP16/FP32可配置// AIE核心的典型编程模式 void __attribute__ ((aie_kernel)) vec_mul( const int16 *a, const int16 *b, int32 *c) { v16int16 va *(v16int16 *)a; v16int16 vb *(v16int16 *)b; v8int32 vc mul16(va, vb); *(v8int32 *)c vc; }5. 未来方向Systolic Array的再创新随着AI算法复杂度提升SA架构面临新的挑战与机遇关键技术趋势稀疏化支持动态跳过零值计算提升有效算力存内计算将PE与存储器进一步融合光互连解决大规模阵列的布线延迟问题在实际项目部署中我们发现AIE阵列的编程模型需要特别关注数据流图划分的均衡性内存访问冲突的避免相邻PE间的通信同步从TPU到Versal的演进历程表明优秀架构设计的生命力在于其可进化性。Systolic Array这一古老思想正通过持续创新在AI计算领域焕发新的生机。