关于华为 τ scaling,在 B 站看懂这一场就够了 关于华为 τ scaling在 B 站看懂这一场就够了原创 尹John 尹John AGI Hunt2026年5月28日 09:00北京21人前天下午B 站独家直播了 ISCAS 2026IEEE 国际电路与系统研讨会的一场重磅技术论坛。ISCAS 2026 × B 站独家直播华为在会上正式发布了 τ韬Scaling Law一条试图接替摩尔定律的半导体新路线。这场论坛持续了整整两个多小时。华为两位首席架构师分别做了完整的技术演讲一位讲手机 SoC一位讲数据中心芯片。之后是行业五十年老兵的点评、多位教授和从业者的圆桌讨论以及现场观众的尖锐提问。华为韬定律 • X华为在 X 上发布的韬定律文章拿到了近 3000 万阅读。这两年越来越多的芯片架构师、半导体从业者、高校研究员们选择在 B 站交流前沿技术这次 ISCAS 的国内独家直播也落在了 B 站。于是我把 B 站第一现场 2 小时的直播视频翻了一遍并整理了其中的核心内容分享出来。01摩尔定律撞墙τ Scaling Law 要解决的问题是摩尔定律不够用了。华为麒麟首席架构师黄勇在直播中给了一组数据2020 年之前先进制程大约每两年迭代一次。2020 年之后从 5nm 到 3nm 用了三年3nm 到 2nm 又是三年。节奏已经从「两年一代」滑到了「三年一代」。而 SoC 层面的实际收益以 5nm 为基准逻辑密度到 3nm 提升了 60%但到 2nm 只多了约 20%再到 1.4nm 也只有 23%。SRAM 和模拟电路的进步就更小了。算下来一颗典型 SoC45% 逻辑 40% SRAM 15% 模拟从 2020 到 2029 年九年的时间整体密度提升了居然只有一倍不到。摩尔定律撞墙9 年不到一倍跟 18 个月翻一番的摩尔定律黄金时代相比差距极大。显然摩尔定律已经不适用了。02时间换空间华为的思路是几何尺寸缩不动了那就换一个维度来 scaling。τ Scaling Law 的核心是用时间常数 τ 替代几何线宽作为全栈优化的目标。在器件、电路、芯片、系统四个层级分别去压缩特征延迟。硬币的两面空间缩不动了就压缩时间华为昇腾/鲲鹏首席架构师夏晋在直播中有这么一段话说的非常透彻“ 如果重新审视电子系统的底层逻辑我们会发现半导体的进步从来就不只是几何缩放。即便在工艺还能缩的年代它最终也结晶在时间这个维度上更小的器件意味着更快的开关更短的连线意味着更快的电路响应。空间和时间在芯片设计中一直是一枚硬币的两面。即便失去了缩小空间的能力也绝不意味着失去了提升性能的可能。因为时间尺度的压缩是一条可以无限走下去的路。那具体怎么压缩时间呢答案就是 LogicFolding。03芯片折纸LogicFolding直译就是「逻辑折叠」。原理并不难理解把一颗芯片的关键逻辑电路用 hybrid bonding 技术折叠成上下两层。原来在一个平面上需要跑几毫米的信号线折叠之后变成了几十微米的垂直连接。打个比方你住在一个特别长的平房里从卧室走到厨房要走 50 米。现在把平房改成两层小楼卧室在楼上厨房在楼下距离一下就缩到了几米了。芯片里信号传输的道理也是一样的。平房变两层楼信号路径从 676μm 缩到 10μm黄勇在直播中展示了一组 DSP 模块的实测数据关键路径从 676μm 缩短到 307μm另一条路径则更加夸张从 574μm 直接缩到了 10μm。时钟树面积减少 20%时钟线长度缩短约 30%。最终结果面积缩了 40%频率提升 37%功耗降低 24%。第一代 LogicFolding 的 hybrid bonding 间距就做到了 1.5μm而作为对比台积电目前量产的 hybrid bonding 还在 6μm。真可以说是非常的那啥领先了。关键他还透露称良率不降反升。原因在于折叠后每一层的面积更小了出错的可能性就变小所以单层良率反而更高了。而折叠工艺本身引入的良率损失做到了几乎可以忽略不计。04手机和 AI手机端的路线图方面2026 年秋季发布的麒麟芯片将是全球首款采用 LogicFolding 架构的量产芯片。根据黄勇展示的数据到 2027 年CPU 单核性能提升 44%GPU 提升 87%NPU 更是飙到了 2025 年的 3.1 倍。CPU 44%、GPU 87%、NPU 3.1x 的跨栏赛直播中让我最为印象更深的是夏晋讲的数据中心部分。他在一开场就打了个比方“ 如果刚才黄勇讲的麒麟芯片是精密跑车那我接下来要讲的数据中心芯片就是大型拖拉机。然后他给了昇腾 910C 跑 DeepSeek V3 的实测数据单卡峰值 96 个并发用户每卡每秒 1920 tokenstoken 延迟低至 17ms。他甚至还在现场算了一笔账假设 910C 单卡年成本 4 万元电费 1 万一年 5 万块。7×24 小时跑满单卡年产出约 600 亿 tokens。算下来DeepSeek V3 的推理成本大约是 1 元/百万 token对比之下OpenAI 目前百万 token 定价在 10 美元以上。一人民币 vs 十美元……极其悬殊。百万 Token 成本1 元 vs 10 美元到了下一代昇腾 950 超级节点就更猛了8192 个 NPU互联带宽 16PB/s。配合华为自研的 HiOne 光模块单根光纤 8Tbps100 米范围内的多个机柜可以像一颗芯片一样协同工作。夏晋形容说“ 光的衰减几乎和距离无关。所以 HiOne 创造了一次巨大的空间折叠画一个 100 米的边界把芯片分散在两个数据中心里只要不突破这个边界它们还是一颗巨大的芯片。有意思的是华为内部还给芯片折叠项目起了个代号叫「提拉米苏」。倒也没毛病……这确定是一层一层叠上去的……05能耗比之谜你可能会好奇华为宣称的41% 的能耗比提升这个数字是怎么来的呢芯片架构师 fin 给出了详细推导LogicFolding 缩短了关键路径固定电压下最高频率从 2.75GHz 提升到 3.1GHz12.7%。反过来说如果保持原来 2.75GHz 不变就有了约 12.7% 的时序余量可以换成更低的工作电压。电压降低带来的功耗节省是平方关系再叠加上时钟树大幅缩短clock buffer -56%、wire -28%和 SRAM 能耗降低pJ/bit -24%等因素在部分工作点上做到同性能 30% 功耗下降是可以从电路折叠后的布局变化推导出来的。而 30% 的功耗下降换算过来恰好就是 41% 的能耗比提升。折叠引发的多米诺效应41% 能耗比提升对比苹果和高通每一代手机芯片同功耗性能一般提升 10%-20%同性能功耗一般降 30%-40%这是 V/F 曲线的物理特性决定的。所以华为的数字是对得上的。而这个能耗比的提升可能和工艺节点关系不大主要就是来自于「折叠」本身带来的布局红利。06等了二十年直播还有一段回忆故事来自港科大教授谢源。他在圆桌讨论中回忆2002 年在 IBM 时IBM 已经在做基于 TSV 技术的 3D 堆叠但 EDA 和架构完全是空白。他跟 IBM 的导师说如果这件事要成功EDA 和架构岂不是要根本性改变导师说确实如此。于是他第二年就离开了 IBM去了学术界因为只有学术界才能做更长周期的研究。“ 如果有人找到我 2010 年那篇论文「Three D Architecture: Are We There Yet?」那正是我当年在问的问题。今天距那篇论文已经过去了 15、16 年我们终于看到华为海思真正把这件事做进了产品里。我认为这是一项非凡的成就。从 2002 年到 2026 年……整整二十四年。从 IBM 到华为量产3D 芯片等了 24 年同场参与论坛的 IBS 半导体咨询公司 CEO Handel Jones行业五十多年的老兵了给出了一句相当直接的评价“ 从我目前看到的折叠技术来说这是革命性的。这将会深刻改变整个行业。他同时指出了先进节点的成本困境1.4nm 晶圆价格已经涨到每片 42,000 美元7nm 时代只要 10,000 美元。一颗手机 SoC 在 7nm 下成本约 7-8 美元到 1.4nm 要飙到约 80 美元。一台售价 160 美元的手机怎么承受 80 美元的芯片成本呢从这个角度来看在成熟工艺上用 3D 折叠逼近先进节点的性能确实给了行业一条不同的路。清华大学的吴教授在圆桌上也感慨道“ 过去六年对中国来说是非常艰难的时期因为我们无法获得最先进的工艺。这句话放在这个语境下可以说分量很高。华为在一个受限的工艺节点上用全新的设计思路硬生生折叠出了一条新路。从手机到数据中心从麒麟到昇腾381 颗芯片已经量产落地。而到 2031 年基于韬定律设计的高端芯片预计将达到等效 1.4nm 的晶体管密度。07仅在 B 站看完还有个让我感慨的是以往这类顶会论坛要么藏在 IEEE 的付费论文库里要么变成产业内部的闭门交流普通的从业者很难有机会能听到一线架构师用两个多小时把技术细节摊开来讲。但这次ISCAS 这场论坛的国内独家直播落在了 B 站。以前付费墙 vs 现在 B 站开放从黄勇讲手机 SoC 的 LogicFolding 实测数据到夏晋讲昇腾推理成本和光互联再到 Handel Jones 的行业判断和谢源教授二十四年的等待两个多小时的硬核技术内容干货极多。这类有一定圈层化的深度技术交流在国内平台中倒是确实很难找到替代品。而 B 站在前沿科技领域长期积累下来的开发者社区和讨论质量大概也是这场独家直播能落地于此的原因。两个多小时的完整直播回放就在 B 站感兴趣的可以去看看。◇ ◆ ◇直播回放https://www.bilibili.com/video/BV151G16pEte/华为 τ Scaling Law 发布Xhttps://x.com/Huawei/status/2058734614571880838