NoC组件之Router微架构解析（九）流水线化的多虚通道Router结构

发布时间：2026/6/15 16:32:16

Chapter 9: Pipelined Virtual-Channel-Based Routers本文版权归作者所有任何形式的转载都请注明出处9.1 基本结构与流水如 Fig 9.2 所示输入为两包完整 Packet 先后到达相同 inVC基本结构为三级流水pipe 0flit 经过链路传输到达并写入 Buffer。pipe 1flit 位于 Buffer 最前端执行 RC → VA → SA 分配 outVC 后从 Buffer 出队通过 Switch 到达输出端口。pipe 2flit 经过链路传输到达并写入下一 hop 的 Buffer。如 Fig 9.3 所示输入为两包 Packet 交织、先后到达不同的 inVC并且有竞争存在仲裁失败cycle 0H0 到达 Buffer。cycle 1H0 执行 RC-VA-SA-DQ-STH1 到达 Buffer。cycle 2H0 到达下一 hop 的 BufferH1 执行 VA 仲裁失败B0 到达 Buffer。cycle 3H1 执行 RC-VA-SA-DQ-STB0 执行 SA 仲裁失败B1 到达 Buffer。… …正常情况下不会断流。若出现以下三种情况会断流(a) VA 仲裁失败(b) SA2 仲裁失败© outVC 无 Credit 可用。9.2 RC 后插入 Pipeline不采用 Lookahead RC如 Fig 9.6、Fig 9.7 所示在 RC 后插入一拍删除outPort寄存器的 Bypass 通路四级流水pipe 0flit 经过链路传输到达并写入 Buffer。pipe 1flit 位于 Buffer 最前端执行 RC 后写入outPort寄存器。pipe 2用outPort寄存器的值执行 VA-SA 分配 outVC 后从 Buffer 出队通过 Switch 到达输出端口。pipe 3flit 经过链路传输到达并写入下一 hop 的 Buffer。控制通路和数据通路都需要插一拍否则流水中会产生 Bubble 影响吞吐。如 Fig 9.5 所示H1 必须等 T0 离开 inBuffer 才能执行 RC。在 Fig 9.6 所示结构中若 flit 因仲裁失败导致被阻塞在 EB则是属于竞争导致流水 Stall不属于流水结构问题。9.3 VA 后插入 Pipeline如 Fig 9.8 所示在 VA 后插一拍删除outVC寄存器的 Bypass 通路四级流水pipe 0flit 经过链路传输到达并写入 Buffer。pipe 1flit 位于 Buffer 最前端执行 RC-VA 分配结果写入outVC寄存器。pipe 2用outPort和outVC寄存器值组成 SA 输入SA 成功后从 Buffer 出队通过 Switch 到达输出端口。pipe 3flit 经过链路传输到达并写入下一 hop 的 Buffer。如 Fig 9.9 所示为两包 Packet 背靠背进入同一个 inVC 的流水时序。H0 分配 VC 成功后后续 B0 和 T0 可以跳过 RC-VA 阶段直接用outVC寄存结果参与 SA 仲裁。而 H1 需要等 T0 离开后才能继续执行 RC原因是 T0 处于 pipe2 时 H1 仍未从 Buffer 出队——因此在每 Packet 之间会产生两拍 Bubble。最好的情况如 Fig 9.10 所示两包 Packet 属于不同的 inVC交织传输顺序为 H0-B0-H1-T0-B1。若不因竞争而断流此时刚好达到100% 吞吐。那么可不可以效仿之前在数据通路同步插一拍 EB—— NO当前一包 T0 进入 EB且 T0 持有 VC0。若 T0 因 SA 仲裁失败或 Credit 不足而阻塞时随后一包 H1 也被阻塞且 H1 经过 VA 仲裁后持有 VC1。此时不同 VC 之间会产生依赖链条——即一个 inVC 同时持有两个不同的 outVCVC0 和 VC1且必须等待 outVC0 释放后outVC1 才能释放。所以为了避免死锁必须保证 Packet 的原子性即等待前一包 Packet 完全离开后才能允许下一包 Packet 进入则数据通路的插拍属于浪费。由此可知此时流水线 Bubble 是属于不可避免的固有代价无法通过打拍消除。9.4 SA 后插入 Pipeline如 Fig 9.11 所示在 SA 输出 sel 信号后以及数据通路 ST 前插一拍四级流水pipe 0flit 经过链路传输到达并写入 Buffer。pipe 1flit 位于 Buffer 最前端执行 RC-VA-SA 仲裁成功返回 Grant控制 Buffer 前端 flit 出队进入 Switch 前写入 EB。pipe 2延迟一拍后的 Switch sel 信号控制 flit 通过 Switch并更新 Credit Counter。pipe 3flit 经过链路传输到达并写入下一 hop 的 Buffer。关键问题更新 Credit 比 SA 仲裁延迟一拍可能导致下游 Buffer 溢出。当 pipe1 执行 SA 时由于 Credit 更新有一拍延迟判断 VC 可用的信息是旧的Credit 可能已经被前一包 flit 消耗掉。所以 SA 判断 Credit 可用的条件需要由creditCounter 0调整为creditCounter 1。由于 Round Trip Delay 增加一拍所以为了 100% 吞吐Buffer 深度需要 1。更新 Credit 能否提前执行与 SA 对齐—— NO因为 pipe2 和 pipe3 信息不对称——只有数据成功通过 Switch才能得到更新 Credit 的VCid信息前一拍 SA 无法提前更新目标 VC 的 Credit。除非 SA 阶段增加一个 MUX 用于获取 VC 信息这个 MUX 的输入是每个输入端请求的 outVC输出是驱动每个 outVC 更新 Credit 的 sel 信号即 NV × NV得不偿失。9.5 全 Pipeline 结构多级流水无需「重新设计」只需要把前面提到的「切割方式」组合起来如 Fig 9.17 所示。影响在于需要重新计算 Round Trip 延时评估 Buffer 深度。需要注意的是类比 Amdahl 定律随着流水线深度的增加其在提升频率上的收益会递减。盲目插入 Pipeline 不可取需要在目标主频和硬件代价之间 Trade-off。

大模型加数据库：自然语言转SQL实践

大模型加数据库：自然语言转SQL实践📝 本章学习目标：通过本章学习，你将全面掌握"大模型加数据库：自然语言转SQL实践"这一核心主题，建立系统性认知。一、引言：为什么这个话题如此重要在…

2026/6/15 16:31:14 阅读更多

量子与带状共轭在结理论中的拓扑研究

1. 量子与带状共轭的拓扑研究概述在结理论的广阔领域中，量子（quandle）这一代数结构正日益展现出其独特价值。1982年，David Joyce首次提出这一概念时，或许并未预料到它会在几十年后成为研究拓扑不变量的重要工具。量子公…

2026/6/15 16:29:58 阅读更多

I2C总线协议深度解析：从物理层到通信逻辑与编程实践

1. I2C总线协议深度解析：从物理层到通信逻辑搞嵌入式开发这么多年，I2C总线是我打交道最多的通信协议之一。它简单到只需要两根线——SDA（数据线）和SCL（时钟线），就能让一颗主控芯片和多个从设备“…

2026/6/15 16:29:58 阅读更多

PowerPC e300核心TLB Miss中断处理：软硬件协同地址转换机制深度解析

1. 项目概述：从硬件到软件的地址转换交响曲在嵌入式系统，尤其是那些对实时性和确定性有严苛要求的领域里，内存管理单元（MMU）的性能与可靠性直接决定了整个系统的稳定与高效。我们常常将TLB（转换后备缓冲器&…

2026/6/15 18:29:07 阅读更多

2026年，燕郊专业代运营哪家强？

在 2026 年的燕郊，抖音代运营市场竞争激烈，众多商家在运营过程中面临着诸多痛点。下面为大家详细分析抖音运营痛点，并推荐华屹传媒这一优秀的代运营品牌。痛点一：账号定位不精准许多商家在抖音运营时，账号定位模糊&…

2026/6/15 18:27:03 阅读更多

GDSDecomp：Godot逆向工程工具的技术架构深度解析

GDSDecomp：Godot逆向工程工具的技术架构深度解析【免费下载链接】gdsdecomp Godot reverse engineering tools 项目地址: https://gitcode.com/GitHub_Trending/gd/gdsdecomp 在游戏开发与维护的生命周期中，资源包的管理与逆向分析一直是技术团队…

2026/6/15 18:26:02 阅读更多

Meshroom终极指南：从照片到3D模型的免费开源革命

Meshroom终极指南：从照片到3D模型的免费开源革命【免费下载链接】Meshroom Node-based Visual Programming Toolbox 项目地址: https://gitcode.com/gh_mirrors/me/Meshroom 想要将普通照片变成专业3D模型，却苦于昂贵的软件和复杂的操作&#xf…

2026/6/15 18:26:02 阅读更多

i.MX VPU解码器高级功能解析：帧跳过、I帧搜索与流处理实战

1. 项目概述：解码器高级功能与流处理的艺术在嵌入式多媒体应用开发中，视频解码的稳定性和灵活性往往是决定用户体验的关键。我们常常会遇到这样的场景：网络传输不稳定导致视频流出现丢包或损坏，用户拖动进度条时需要快速定位到新的…

2026/6/15 18:26:02 阅读更多

如何用Locale Remulator轻松玩转海外游戏，彻底告别乱码烦恼

如何用Locale Remulator轻松玩转海外游戏，彻底告别乱码烦恼【免费下载链接】Locale_Remulator System Region and Language Simulator. 项目地址: https://gitcode.com/gh_mirrors/lo/Locale_Remulator 你是不是也遇到过这样的烦恼？&#x1f62b…

2026/6/15 18:25:21 阅读更多

终极便携开发套件：5分钟快速上手w64devkit Windows开发环境

终极便携开发套件：5分钟快速上手w64devkit Windows开发环境【免费下载链接】w64devkit Portable C and C Development Kit for x64 (and x86) Windows 项目地址: https://gitcode.com/gh_mirrors/w6/w64devkit 你是否厌倦了在Windows上配置复杂的C/C开发环境…

2026/6/15 0:00:36 阅读更多

深蓝词库转换：打破20+输入法壁垒的技术架构深度解析

深蓝词库转换：打破20输入法壁垒的技术架构深度解析【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 当你在不同平台间切换输入法时，是否曾为无…

2026/6/15 0:02:18 阅读更多

NSK紧凑型精密滚珠丝杠技术手册

型号 W1202FA-3P-C3Z5 属于 the sources 中 NSK 推出的紧凑型 FA 系列（Compact FA Series）高速精密滚珠丝杠。如果您一路追踪了之前的查询记录，这款产品正是您不久前查询的 125 规格（12 mm 粗轴、5 mm 导程、预紧无背隙版&#x…

2026/6/15 0:02:59 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/15 0:09:30 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/15 0:09:27 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/15 0:09:27 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/15 10:37:31 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/15 10:16:08 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/15 10:16:07 阅读更多

相关文章

大模型加数据库：自然语言转SQL实践

量子与带状共轭在结理论中的拓扑研究

I2C总线协议深度解析：从物理层到通信逻辑与编程实践

PowerPC e300核心TLB Miss中断处理：软硬件协同地址转换机制深度解析

2026年，燕郊专业代运营哪家强？

GDSDecomp：Godot逆向工程工具的技术架构深度解析

Meshroom终极指南：从照片到3D模型的免费开源革命

i.MX VPU解码器高级功能解析：帧跳过、I帧搜索与流处理实战

如何用Locale Remulator轻松玩转海外游戏，彻底告别乱码烦恼

终极便携开发套件：5分钟快速上手w64devkit Windows开发环境

深蓝词库转换：打破20+输入法壁垒的技术架构深度解析

NSK紧凑型精密滚珠丝杠技术手册

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因