Arm发展史:CEO讲清Agentic AI为什么把CPU又推回了舞台中央 作者YaraArm Everywhere大会在旧金山 Fort Mason 举行Fort Mason 是个很有戏剧感的地点Arm首席执行官Rene Haas 一上台就先开了个场地的玩笑他说这里曾是内战时期的官方防御据点甚至“阿拉巴马、乔治亚和加州之间曾在这里打过一场著名战役”然后说其实根本没有打起来所以这地方今天看上去才这么“完好如初”。这种轻松开场很快被更硬核的话题接管Arm 正式发布自己的首款面向数据中心、并将直接对外销售的 CPU名字就叫 Arm AGI CPU。如果只把这场发布会理解为“Arm 终于自己下场做芯片了”其实低估了它的分量。更准确一点说这是一场把 Arm 的公司发展、AI 时代的系统瓶颈、CPU 在 Agentic AI 中的新角色以及 Arm 自己商业模式变化全部串起来讲明白的发布会。Rene Haas 的核心论点是过去几年大家谈 AIGPU抢走了几乎所有聚光灯很多人因此得出判断觉得CPU在AI时代已经退居二线。但随着AI走向Agentic AI也就是从“生成几个 token”升级为“调用工具、执行工作流、持续编排任务”CPU反而重新变成系统里的关键角色。换句话说GPU这类AI计算芯片负责生成 token但真正把这些 token 组织成可执行系统把Agent跑起来把容器、脚本、调度、内存和 I/O 串起来的仍然是CPU。这也是为什么这场活动值得看。你会在其中看到 Arm 如何重新解释自己的历史从一颗“为电池而生”的低功耗芯片起家到智能手机时代的底层标准再到 Neoverse 打进云数据中心最后走到今天亲自卖数据中心芯片。你也会看到 Meta、OpenAI、Cloudflare、SAP、SK Telecom 等公司为这件事站台。一个行业里正在发生但还没被所有人完全消化的事情是AI竞争不再只是模型竞争也不再只是 GPU 竞争而是基础设施全栈竞争。一、回顾Arm发展史发布会开始CEO Rene Haas走上台前迅速切到正题这场活动为什么叫 Arm Everywhere在Rene看来这个名字是对Arm当前位置的概括因为Arm有时也会忘记自己到底有多大、渗透有多深、规模有多惊人。于是他没有先讲产品而是先讲数字。他给出三组数字。第一组是 1170 亿这是按人类学估算从人类出现至今地球上曾经活过的总人数。第二组是 3500 亿这是迄今为止全球累计出货的 Arm 芯片数量。Rene 特意强调这不是“一人一颗”而是“历史上每一个活过的人平均对应三颗 Arm 芯片”。第三组是160按全球家庭数均摊平均每个家庭大约拥有 160 颗 Arm 芯片他还补了一句自己家里可能不止160颗。除此之外他还给了一个更具对比意味的数字Arm芯片累计出货量大约是所有非Arm架构CPU累计出货总和的7倍。这个说法本质上是在提醒所有人Arm的“无处不在”是真正建立在长期规模积累上的事实。而这组数字之所以重要是因为它们构成了后面所有故事的起点。二、Arm的DNA从一开始就写着“低功耗”而这条线今天被重新激活了回到公司的起点Rene说Arm 的 DNA 从一开始就是“为功耗而生”。Arm 诞生于 1990 年代初是英国电脑公司 Acorn 分拆出来的产物当时这家公司要做一颗芯片而那颗芯片有两个非常明确的要求第一必须能放在塑料封装里。以今天的视角看这似乎不算特别稀奇但在当时塑料封装意味着散热和热设计都得非常克制第二也是更关键的一点它必须极度低功耗因为这颗芯片要被装进世界上第一代 PDA。Rene 讲了一个很经典、也很 Arm 的故事。第一块搭载 ARM1 芯片的开发板通电后屏幕出现了那句后来很有名的 “Hello World, I am ARM”。工程师们在示波器上看到信号工作正常后来他们把 AC 电源拔掉了结果芯片还在继续运行原因竟然是因为电路板上其他逻辑电路和I/O接口泄漏出来的电流居然就足够让 ARM1 继续运行第二天晚上工程师回来看到示波器还在出信号。这段故事某种程度上已经成为 Arm 低功耗神话的一部分。这套低功耗基因很快把 Arm 带进了移动时代。从最早的GSM 手机也就是很多人印象里那块厚重的诺基亚“砖头机”再往后是黑莓手机BlackBerry再到后来的Android 和 iPhone。也就是说Arm 最早真正大规模改变行业的地方不是在云不是在AI而是在移动设备里通过功耗优势完成了代际替换。不过如果只讲“我们曾经统治过手机”那并不足以解释今天的Arm所以Rene又把时间往后推了十年讲到2016年SoftBank收购Arm那件事。在他看来那件事给Arm的真正价值是让Arm获得了在公开市场压力之外做中长期投入的机会。孙正义给了Arm一个此前做不到的空间去投入那些当时还不一定马上变现但会构成未来平台的方向。于是Arm开始把自己在智能手机时代积累的东西往更多垂直领域外扩。这包括三条非常重要的线。第一条是进入云数据中心推出Neoverse拿到数据中心设计胜利。第二条是自动驾驶和汽车计算。第三条是 Arm 口中的物理AIPhysical AI也就是与机器人、自动化、现实世界感知相关的计算平台。Rene 直说没有2016年这个时点没有软银的支持这些事情做不成。这一段故事很关键因为它回答了一个隐含问题为什么今天Arm能讨论AI数据中心答案不是AI让它突然获得新机会而是它在2016年后已经沿着云、车、物理AI这些方向把平台能力提前铺开了。三、真正让 Arm 与众不同的不是某个单点产品而是“生态的生态”Rene 讲到这里话题开始从产品演进转向Arm的核心壁垒他指出Arm最独特的地方不只是功耗、也不只是CPU架构而是他所谓的ecosystem of ecosystems也就是“生态”。他的意思是Arm 在每一个垂直行业里都不是孤立存在的。比如移动平台并不是有了CPU就自动成功真正让这套平台成立的是软件层和应用层一起跟上来。在手机上对应的是iOS、Android、Windows、macOS 这样的操作系统以及数不清、而且针对 Arm 做了深度优化的应用正是这些应用让生态伙伴能用 Arm 构建出真正有竞争力的终端产品。而这套模式并不只适用于移动时代。在云里对应的是 Linux、OpenAI、Anthropic以及围绕这些模型和平台建立起来的软件生态在汽车和物理AI平台也是同样的逻辑。Rene特别提到在物理AI这类垂直领域软件开发者规模已经达到2200 万他们中的很多人首先是某个垂直行业的开发者但同时又可以复用 Arm 生态里的其他工具和能力从而把经验迁移到其他领域。这就是他强调“生态的生态”的原因。它是一种跨垂直复制的配方底层是Arm计算平台中间是系统软件和开发工具上面是具体行业应用。在Rene看来这也构成了Arm最难被复制的地方。因为全球几乎没有第二家公司能像 Arm 这样从边缘到云把如此多不同垂直行业通过一套统一的计算平台串起来Arm 的优势是从边缘端到云端的连续性是开发者和合作伙伴能在一套共同架构上迁移经验而不是每做一个新市场就从零开始。这一点也解释了为什么 Arm 会反复强调“我们并不是一家单纯做芯片的公司”它要表达的是CPU 核心本身只是入口真正支撑它扩张的是广度极大的生态网络。四、从卖IP到卖CSS再到今天自己卖芯片Arm的商业模式在一层层往前推Rene 接着讲到了Arm自身策略的变化。他说过去几年Arm一直在调整自己的供给方式因为市场需求已经变了。问题首先来自芯片本身越来越复杂。工艺从 5nm 往 3nm、2nm 走意味着晶圆厂周期更长、封装周期更长客户需要在更复杂的技术条件下更快做出产品。Arm 传统的模式是提供相对独立的 IP 模块CPU、GPU、系统 IP 等让客户自己整合。这套模式在公司前 30 多年运行得很好但在今天越来越多客户希望 更快、更完整、更少集成负担 的交付形式。于是 Arm 在三四年前推出了 Compute Subsystems简称 CSS。CSS 的思路是把原本分散的 IP 模块预先拼装成一个完成度更高、经过验证、具备性能和可测试性的子系统。客户不需要从零把所有块拼起来而是可以在更成熟的基础上直接推进设计。Rene 说在某些项目里这能把从设计启动到量产的时间缩短一年有时甚至接近 18 个月。这对 Arm 来说是一笔非常大的工程投入但回报也已经很明显。Arm 的商业模式一直是 license royalty也就是先收授权费再随着客户量产收版税。版税天然滞后通常在授权两三年后才体现出来。即便如此CSS 推出不过三四年今天已经占到了 Arm 总版税收入的接近 20%而且还在继续增长。这一段其实很像是在给后面“我们开始卖芯片”做铺垫因为如果把 Arm 的演进放在一条线上看就会发现它不是突然从纯授权模式跳到芯片模式而是一步步推进的。第一阶段是单独卖IP。第二阶段是卖集成好的CSS。第三阶段是今天正式进入“卖 芯片”的阶段。Rene 后面专门重申了这件事Arm 现在同时提供 IP、CSS 和芯片。 他甚至开玩笑说联系你们当地的销售代表就行。这句玩笑其实信息量在于 Arm 的收入模型和客户触点都在变化甚至连销售组织都在跟着变。五、AI 并不是突然冒出来的但 Agentic AI 让 CPU 的角色发生了根本变化讲完公司背景和策略演进后Rene才真正进入当天最关键的一部分AI 时代为什么CPU重新变成核心角色。他先澄清了一个误解。他说很多分析师和媒体都会问AI 是不是突然袭来让行业措手不及。Rene 的答案是否定的。他提到自己一年半前去过 Bletchley Park也就是图灵和同伴在二战时期进行密码分析工作的地方。在那里的博物馆里他看到了图灵1940年代关于“机器能否思考”的论文。也就是说关于 AI 的问题并不是今天才出现。如果你喜欢科幻这种感觉会更强。Rene 说自己年轻时很喜欢 Arthur Clarke尤其是《2001 太空漫游》。他一直觉得书里描绘的那些事情终究会发生只是没想到会在自己有生之年、而且以这么快的速度发生。至于有人说 AI 是泡沫他的表述很克制也很明确投资意义上的泡沫当然可能存在估值会波动资本热度会变化但如果有人觉得这件事会消失那就是“鸵鸟心态”。AI 已经在这里了而且正在永久改变人们对计算的理解方式。接下来Rene 开始拆解AI数据中心里的 CPU 角色。他先描述了AI时代之前的云。在那个时代云数据中心的典型任务是搜索、数据库、SaaS、Web 服务你输入一个请求比如“勇士队比赛还有没有票”云端返回一个答案。这个过程中CPU 是主要工作承担者。AWS、Azure、GCP 的扩张本质上也是 CPU 驱动的扩张。而进入 AI 时代后表面上看重心似乎转向了GPU。你在手机或PC上输入prompt请求被送到云端数据中心里的GPU生成 token再通过 CPU 协调把这些 token 回传给你。也就是说哪怕在 AI 数据中心里CPU 仍然在工作只是方式从“直接执行大多数任务”变成了“协调与编排系统”。Arm 的估算是在目前这类 AI 数据中心里每 1 吉瓦大约需要 3000 万个 CPU 核心这里的“数据中心”既包括直接围绕 AI 集群的节点比如 head node也包括加速器机架旁边的 CPU 资源。总之数量远比很多人想象的要大。但事情到这里还不是重点。真正的变化出现在过去几个月里随着智能体Agent的爆发。Rene 把 Agent 定义为一种能围绕请求执行完整工作流的工具比如跑工资单、做调度、调用工具链、执行分析再给你返回一个可直接使用的结果。他专门提到最近两周讨论度很高的 OpenClaw当然也强调它不是唯一例子。为什么 Agent 重要因为它改变了 token 消费模式。Rene 的判断是一旦从普通人类提问进入 Agent 发起工作流每个人对应的 token 消耗会增加 15 倍甚至更多。原因并不复杂人是慢的Agent 是快的人会休息Agent 不睡觉24×7 持续发请求。于是系统结构变了。大量 Agent 持续把请求打进云端数据中心里的加速器不断生成 token然后这些 token 要被送回去、被编排、被调度、被接入具体工作流。这时候瓶颈不再只是“有没有足够多的 GPU”而是有没有足够多、足够高效的 CPU 来驱动整个流水线。Rene 用了一个比喻GPU负责生成 token就像翻斗车把土推起来但总得有人把这些土运走CPU 就是那台负责把土从现场搬走的工程设备。Agentic AI 不是削弱这个角色而是成倍放大它。所以Arm 的结论是同样一个 1 吉瓦的数据中心如果从传统 AI 云演进到 Agentic AI 云CPU 核心需求会从 3000 万 上升到大约 1.2 亿也就是 4 倍。而问题在于大家并没有多出来 4 倍电力和 4 倍空间。电力珍贵资本开支珍贵数据中心已经被GPU和原有的CPU塞得很满。在相同功耗包络内塞进 4 倍 CPU这就是他们要解决的问题。这也是整场发布会真正的支点Arm 不是为了“也做一颗 AI 芯片”而做 AGI CPU而是因为 Agentic AI 时代的数据中心已经开始重新定义 CPU 的价值。六、Arm AGI CPU 的发布本质上是在回答一个问题怎样在同样功耗里塞进更多 CPU而且不丢性能讲到这里Rene 话锋一转说每个棘手问题都需要一个好解法然后正式宣布Arm 将推出第一颗真正以芯片形式、直接销售给客户并产生收入的芯片名字就是 Arm AGI CPU。这被他定义为一个“非常非常大的变化”因为这意味着 Arm 进入了一个全新的业务模式不只是提供 IP不只是提供 CSS而是直接卖成品芯片。Rene 很坦白地说做这件事最重要的原因之一就是客户要求他们这么做。尤其是 Meta。随后Meta 基础设施负责人 Santosh Janardhan 上台来解释 Meta 为什么会做出这个选择。Santosh负责 Meta 的基础设施这意味着如果 Instagram 不工作、WhatsApp 消息到不了、Meta 的某项服务挂掉他就是那个该被怪罪的人。Meta 不是传统意义上的云厂商却是一个超级规模的基础设施公司。它要自己设计和建造数据中心、自己设计服务器、GPU、CPU、网络以及将它们绑定在一起的软件。Meta 每天有30 多亿用户使用产品差不多相当于全球一半人口每天至少会登录一次其应用这种规模意味着它运行着互联网里相当大的一部分。Santosh 接着展示了Meta的AI集群AI cluster增长的速度。他说真正意义上的AI集群其实很新大致是从 ChatGPT 之后、也就是 2022 到 2023 年开始爆发的。最初Meta 的集群非常小2023 年的早期集群大概只有 128 块 GPU。但很快规模就一路向上到今天已经是把数万块 GPU 拼成一个集群的量级。更重要的是他完全看不到放缓迹象需求不是线性增长而是几乎接近指数增长。接着他给出了 Meta 内部两个关键集群的例子。一个叫 Prometheus到今年年底会超过 1 吉瓦。这已经是非常夸张的规模。另一个更惊人叫 Hyperion未来几年要做到 5 吉瓦。Santosh 说大多数人连 1 吉瓦是什么概念都没有于是他给了一个更直观的比喻1 吉瓦大概相当于 10 个 Palo Alto 的用电量而 5 吉瓦就是 50 个 Palo Alto。为什么 Meta 要建到这么大因为它的愿景是给每个用户提供 personal super intelligence也就是“个人超级智能”。不只是更精准推荐更相关体验而是每个人都拥有一个个人助理。问题在于如果要把“个人超级智能”发给几十亿用户系统会变得异常庞大需要大量电力、土地、硬件、软件最重要的是大量的芯片。而这正是 Arm 之所以成为自然合作伙伴的原因。Meta 要的是一个既能跟上其野心和迭代速度又对功耗和效率极其敏感的合作方。Santosh 说当他们和 Arm 坐下来讨论时发现 Arm 跟他们一样“hungry”一样想把这件事做出来而且尤其重要的是Arm 和他们一样在意 power efficiency能效。他还特别强调这颗 CPU 不是只为 Meta 做的“Meta CPU”也不只是 Arm 自己的一颗 CPU而是有机会成为整个生态的基础 CPU。因为数据中心的核心矛盾已经越来越明确需求呈指数增长但电力曲线不是。你要在功耗固定的情况下把更多 CPU 塞进去同时不能牺牲性能。Meta 两年多前曾全面评估市场结果是能达到性能目标的 CPU达不到功耗目标能达到功耗目标的 CPU又达不到性能目标。Arm 最终成了那个平衡点。Santosh 也说得很清楚这不是一次性合作而是一个多代产品的合作起点。第一代设计点偏保守目的是把首颗 CPU 稳稳做对但后续版本已经在规划中。换言之Meta 不是来帮 Arm 站台而是已经把这条产品线纳入自己的长期基础设施路线图。七、OpenAI 给出的角度更直接AI 性能已经是系统性能CPU 是智能变强路上的“隐形上限”Meta 讲完基础设施规模之后Rene 又请上了OpenAI科学部门副总裁Kevin Weil。Kevin 先从一个判断开始今天的 AI 性能本质上已经是系统性能。 GPU 拿走了大部分头条但 CPU 在系统里扮演的角色依旧极其关键。它既是 orchestration 的核心又在 Agentic AI 到来后承担了大量具体任务。Agent 调用工具时会在容器里执行这需要 CPUAgent 运行 Python 脚本、调用技能、执行工作流这同样是 CPU 的工作。Rene 接着把话题引到 OpenAI 内部最常见的诉求“我需要更多算力。”Kevin 很坦率地说这几乎就是 OpenAI 内部的“通行货币”是最常听到的一句话。原因也很简单客户需求在增长内部想尝试的想法更多而整个行业能提供的计算资源跟不上他们想做的事。他把问题拆得很现实。更多算力当然和芯片有关但更底层的是能耗。如果一颗 CPU 能在保持性能的同时少用一些电那你就给系统里其他部分腾出了更多电力意味着可以做更多推理、更多计算也就意味着更多智能。Kevin 说自己在 OpenAI 这几年里学到的核心事实之一就是更多智能会直接转化成更好的产品。随后他给出了当天最容易被传播的一句话“你今天用到的模型将是你余生中用过的最差的一代 AI 模型。”他的意思不是今天的模型差而是进步速度太快。再过一年你很可能会觉得今天的模型已经落后到难以回去使用。既然模型会持续变好用户和业务对智能的需求几乎可以视作“无限的”。这就意味着对算力的渴求也不会停。谈到自己当前的新角色时Kevin 重点提到了数学、科学这类今天仍然相对未被充分打开的方向。他的判断是AI 正在从“聊天”走向“解决更难的问题”而解决更难的问题和人类一样需要花更长时间思考需要更长 rollout需要更多推理尤其当目标变成企业级AGI、科学研究这些更复杂的场景后算力只会更紧张。他举了几个例子说明这种变化已经在现实中发生。比如过去有人会说大模型只是“随机鹦鹉”只能从训练语料里采样做不出真正新颖的东西。但现在AI 已经在每天解决科学、数学、物理、生物里的开放问题。更具体一点AI 可以连续工作数周通过机器人实验室完成 3.6 万次实验去优化新蛋白质的合成路径而且比任何人工流程都更快更优。Kevin 的这段发言某种意义上是对 Rene 论证的进一步加强。Meta 讲的是超大规模基础设施OpenAI 讲的是前沿模型和科学场景但两者最终指向的是同一个结论AI 系统的能力边界不只由 GPU 或模型参数决定而由整套基础设施的协同效率决定。CPU 在其中不是配角而是决定系统能否充分释放智能的一道硬约束。八、Arm AGI CPU136 核、3.7GHz、300W TDP、专为Agentic数据中心设计到了活动后半段Arm云与AI业务执行副总裁Muhammad Awad上台开始详细讲产品本身。他的开场非常直接。他说Arm 设计 AGI CPU 的时候围绕三条原则而且这三条不是口号而是“拒绝妥协”的设计准则性能、规模、效率。为什么性能排第一因为在 Agentic AI 数据中心里同时运行着大量线程、大量工作流、持续不断的调度和编排。CPU 一旦慢下来整个依赖它的基础设施都会被拖住。为什么强调规模因为今天讨论的数据中心单位已经不是过去那种几十台服务器的小集群而是 CPU 级、板级、机架级、数据中心级、甚至“仓库级”的扩张。为什么效率同样关键因为如果不能在高效功耗包络里做到前两者再好的性能和规模也落不了地。接着他开始拆解产品规格。Arm AGI CPU 的底座是 Neoverse V3 Compute Subsystem。Muhammad 特别强调这不是 Arm 为自己偷偷保留的一套架构而是同样面向整个生态开放的那套 Neoverse V3 CSS其他合作伙伴也可以基于它做自己的产品。Arm 在这上面塞入了 136 个 V 系列高性能核心。V 系列是 Arm 最强调绝对性能的产品线过去已经在多个超大规模云厂商和系统公司实现过性能纪录。每个核心配有 2MB L2 缓存频率最高支持到 3.7GHz。但 Muhammad 一再强调这不是一颗“只看 CPU core”的芯片而是围绕整个系统重新设计的。I/O 部分它提供 96 条 PCIe Gen6 通道并支持 CXL 3。这意味着它既可以连接各种加速器也支持内存扩展。内存部分它支持 DDR5并且最关键的数字是每个核心都可以持续获得最高 6GB/s 的内存带宽。Muhammad 认为这在同类性能点和功耗包络下是独一无二的。更重要的是延迟。Arm 把整套系统做成了低时延设计目标是内存访问延迟低于 100ns。为此他们坚持使用 双 chiplet 设计并且让每个 chiplet 都直接挂载自己的内存和 I/O而不是走更复杂的 NUMA 结构避免跨芯片多跳带来的延迟惩罚。最终结果是一颗基于 TSMC 3nm 工艺 制造、TDP 只有 300W 的数据中心 CPU。Muhammad 甚至特意停顿了一下重复了一遍300W。这在他的语境里几乎是整场发布会最值得骄傲的数字之一。随后他展示了机架级部署形态。首先是标准 OCP 风冷机架功耗 36kW。在这样一台完全遵循 OCP 标准、并不“花哨”的风冷机架里Arm 可以塞进 8000 多个高性能 CPU 核心。具体做法是采用 双节点 1U 服务器每个机架装 30 台。Muhammad 说很多别的系统做不到这一点不是因为不能堆而是功耗太高。如果换成液冷规模还能更大。在一台标准 OCP 200kW 液冷机架 中Arm 可以塞进 超过 4.5 万个 CPU 核心配上超过 1PB 的内存。更有意思的是Muhammad 还现场补了一句“趣闻”虽然这是 200kW 机架但实际上他们只用掉了差不多一半功耗之所以没继续往里塞不是因为电不够而是空间先不够了。这句玩笑背后其实就是他想强调的结论Arm AGI CPU 的目标不是单点 benchmark 漂亮而是在机架密度、功耗可控、内存与 I/O 匹配这几个决定现实部署的维度上做到极致。更进一步Arm 还宣布会把一系列与服务器就绪、认证访问控制和诊断工具相关的能力回馈给 OCP。而且这些贡献不只服务于 AGI CPU也会让整个 Arm 服务器生态受益。最后Muhammad 明确说这颗芯片现在已经在客户手里评估到今年年底进入量产。固件、规格、平台和供应链都已经就绪。九、今天把软件迁到 Arm门槛比很多人以为的低得多硬件讲完Muhammad 又用一大段时间讲软件生态。因为他很清楚数据中心CPU再强如果软件跟不上还是没法真正放量。他先把时间线拉回去说 Arm 在数据中心软件生态上的投入已经超过 15 年。早期很长一段时间其实几乎只有 Arm 自己在投。转折点出现在 2019 年 Neoverse 发布。Neoverse 的意义不只是推出一套面向基础设施的计算平台更是大幅降低了客户做服务器级 Arm 芯片的门槛让越来越多技术领导者开始在 Neoverse 上构建自己的产品。一旦有头部厂商上量软件飞轮就开始转动。AWS、Google、Meta、Microsoft、Oracle、Nvidia 现在都在和 Arm 一起投入软件生态。Muhammad 的说法很强势今天在大多数现代软件包里Arm 都已经是 first-class citizen也就是一等公民。而在 AI 软件生态里不只是“能跑在 Arm 上”而是在 Arm 上跑得最好。原因在于Arm 已经是当前 AI 体系中最主要的 CPU 架构。他给出一个关键数字全球已经有12.5亿个 Neoverse 核心被部署进数据中心而且还在加速增长。数万家公司已经在云上运行 Arm 软件Arm in the data center now “just works”如今Arm在数据中心“运行顺畅”。为了让这件事更有说服力Muhammad 请上了 Meta 的 Paul Saab。Paul 在 Meta 干了 18 年是基础设施老将做过从 Flash 存储到 IPv6 的各种基础设施工程现在主要负责让 AI 在 Meta 基础设施里跑得更高效。Paul 讲了一个很有工程味的故事。Meta 其实在 2014 到 2015 年 就尝试过把自己的平台迁到 Arm当时他们主要针对的是内部的 PHP 平台 HHVM。迁移已经做通了也跑得不错但后来市场条件变化Meta 手里没有合适平台可继续推进于是项目被搁置代码甚至被全部移除。真正重新启动是在疫情后某次同事聚会时Paul 突然对一位同事说“我想再试一次把系统迁到 Arm。”当时他有一种直觉生态和市场环境已经变了如果现在不开始等真正需要的时候就会陷入被动追赶。于是他们就干了。Paul 甚至没先和老板请示就自己去买了机器。团队一开始只有 8 台机器但背后要面对的是一个庞大的 x86 生态。为了提速他们采用 cross compile 的方式昼夜不停地推进。结果是5 个工程师、90 天做出了一个完整可运行的迁移版本。问题是软件迁过去了没有可买的芯片。这就是为什么后来他们开始和 Arm 深度接触。从做出可运行移植到真正拿到可以投产、TCO 有效、性能/瓦可接受的系统中间又花了差不多 两年半。Paul 说即便如此做优化的团队依旧很小。最早甚至只有一位工程师在持续优化最关键的工作负载而这个工程师此前连一行 NEON 或 SVE 代码都没写过。到今天他们已经能做到和市面主流产品相当的性能同时在每瓦特性能上获得巨大改善。然后 Paul 给了当天一个非常现实、也很有时代感的建议如果今天才开始做迁移他会大量使用 LLM因为现在工程师甚至已经在用 LLM 去进一步优化已经迁移到 Arm 上的代码还能再榨出 10%-20% 的提升。他直说今天把软件迁到 Arm 的门槛已经接近于零。他自己现在基本不再手写代码测试用例也是 LLM 帮忙生成的。“今天没有理由不把软件迁到 Arm。”这一段其实很重要。因为在很多人印象里迁架构还是一件极其昂贵、极其痛苦、极其漫长的事。Paul 讲的故事当然说明它不可能毫无成本但另一面也说明随着 LLM 进入开发流程软件生态迁移本身正在变成一件比过去更容易完成的工程任务。 对 Arm 来说这恰恰是加速数据中心普及的一个关键变量。十、从对x86的正面开火到未来路线图Arm 把未来说得非常直白产品、生态、客户、软件都讲完后Muhammad 开始更直接地对比 x86。他的观点很鲜明Arm AGI CPU 的“超能力”就是 性能、规模、效率 的组合而这套打法和 x86 的路线完全不同。x86 的问题在他看来不只是具体产品而是整体架构哲学。它背负了太多执行开销、太多历史遗留、太多为了兼容各种市场和边角场景而保留的复杂性。Arm 则是“无情地”聚焦在效率与低延迟上只做 Agentic 数据中心真正需要的事情。他说得最狠的一句是“我们不背着过去走。我们不支持 Lotus Notes。”这当然是个玩笑但意思很明确Arm 不打算为很多历史兼容包袱买单它要做的是一颗为新型 AI 数据中心而生的 CPU而不是一颗试图继续兼顾一切旧世界诉求的 CPU。接下来他用几个维度解释这套差异。在性能上Arm 认为真正重要的是 IPC也就是每时钟周期能做多少工作。x86 有时会靠提高频率、进入 boost mode 来竞争但频率拉高功耗也会跟着上去而且 boost 并不总能长时间持续。Arm 的目标则是给出可持续、稳定、全天候的性能而不是只在某些瞬间冲高。在规模上Arm 强调自己的核心可以线性扩展因为内存与 I/O 子系统从设计之初就按核心数量进行匹配保证每颗核心都有足够带宽喂饱。相反很多 x86 架构会用 SMT也就是多线程 来提高线程数。问题在于你给一个核心塞两个任务不等于 I/O 和内存带宽也翻倍。最终瓶颈被移到别处性能反而掉下去。Muhammad 甚至说他们看到很多数据中心运营方不得不因为这种不线性扩展而额外过度配置 30% 以上资源。他的结论非常干脆这是一颗 killer product杀手级产品Arm 在这个级别上已经自成一类。等到 Muhammad 下台Rene 又回来做收尾。他把外界最需要记住的东西浓缩成几个数字。第一在同样 36kW 机架功耗条件下相比 x86 等价结构Arm AGI CPU 可以做到两倍性能/瓦而且很可能不止两倍。第二如果你在一个 1 吉瓦 数据中心里因为 CPU 效率不足而不得不消耗更多电那额外 CAPEX 可能高达 100 亿美元。这是把产品规格真正翻译成基础设施投资语言。第三Arm 不会只做一代产品。Rene 明确宣布Arm AGI CPU 2 和 Arm AGI CPU 3 都在路上。这些合作不是“一锤子买卖”而是多代产品路线图。与此同时CSS 路线图不会停IP 路线图也不会停。Arm 不是用芯片替代过去的业务而是在原有业务之上继续叠加。最后他谈到了 Arm 自己看到的机会。在发布这颗芯片之前Arm 的主要业务仍然是 IP 和 CSS。Rene 说这部分业务的表现已经比 IPO 路演时向投资人讲的要好。就 Arm 过去在 AI 数据中心里通过 IP 和版税获取的机会看总体可触达市场规模大概30亿美元。他之前也在财报电话会上说过云与 AI 业务未来几年会成为 Arm 最大的业务之一而这背后就来自 Neoverse 的持续出货和数据中心落地。但一旦 Arm 开始直接卖 AGI CPU故事就完全不同了。Arm 现在已经有 Meta、OpenAI、Cloudflare、SAP、F5 等客户外加视频里提到的更多合作方。Rene 的判断是随着 Agentic AI 发展、CPU 数量上升、功耗敏感型数据中心对高效 CPU 的需求加剧这部分新增机会对 Arm 来说会形成一个大约 1000 亿美元的新市场。再往后看他甚至给出了一个更夸张的数字到本十年末Arm 认为自己有机会触达超过1万亿美元市场规模。他说今天当然主要是 AGI CPU但“明天还会有别的东西”只是今天不打算讲明天。