作者 | 唐小引出品 | CSDNIDCSDNnews两天前Anthropic 正式发布了 Claude Fable 5。在 Anthropic 分享的一个案例里有一个数字很难被忽视五千万行代码的代码库人类工程师团队做整体迁移需要一个月AI agent一天。这个数字被带进了 2026 智源大会开幕式的压轴环节——一场以「重构世界」为题的大模型圆桌对话。坐在台上的有五个人。主持人是智源研究院院长王仲远另外四位嘉宾分别是小米集团 MiMo 大模型团队负责人罗福莉清华大学计算机系教授、生数科技创始人朱军清华大学计算机系教授、面壁智能联合创始人兼首席科学家刘知远以及南洋理工大学校长讲席教授、人工智能交叉研究院院长安波。学术与产业基础研究与工程落地语言模型与世界模型国内与海外——这五个人坐在一起已经是一张完整的横截面。从「通往」到「重构」智源大会的开幕圆桌已经做了三届。2024 年的题目是「通往 AGI 之路」2025 年是「智源具身会客厅」2026 年变成了「重构世界」。题目的语气在变。不再讨论往哪里走开始讨论能改变什么。王仲远在开场解释这个变化时说「人工智能不再只是改造某个行业的工具而是正在成为重构世界的底层力量。AI Coding、自主智能体、模型自进化正在打开‘AI 创造 AI’的可能性世界模型、具身智能和机器人则让智能从数字世界延伸到物理世界。」五位学者在关注什么朱军来自清华计算机系也是生数科技的创始人。他的研究方向是「通用世界模型」核心问题是以视频为原生的模型架构如何打破 AI 对世界的「理解、预测以及在世界中进行行动」的边界。这是一个比语言模型更慢、更重、也更难的方向——因为物理世界不像文字没有天然的序列也没有唾手可得的大规模标注数据。罗福莉是这场圆桌最年轻的嘉宾。她负责小米 MiMo 大模型团队这支团队在多个公开评测榜单上保持了不低的排名。她在自我介绍时没有铺陈职位和成绩只说了一件自己最近「最关注」的事self-improvement尤其是在开放研究语境里的模型自进化路径。刘知远同样来自清华计算机系面壁智能的联合创始人兼首席科学家。他近期专注于大模型的「智能密度定律」——如何在更小的模型里训出更高密度的智能让模型能够赋能各类智能终端。他在圆桌上提供的是研究者与创业者的双重视角说话的方式清晰有条理经常在回答里先说「我总结成三点」然后真的是三点。安波在南洋理工大学任校长讲席教授同时在工业界兼职关注的是更偏实用的问题在底座不变的情况下怎么通过更好的方法获得更强的推理能力。他是这场圆桌上几次说出「这件事我不建议大家这么理解」的人——说话直接有时候会打断一个讨论热点重新标定它的边界。王仲远的主持风格是带着判断去问问题。他不只是转述观点有时会直接追问「所以你认为它依然是一个中间模型是吗」「有没有可能是 AI improve AI而不是 AI create AI」他把自己的角色定义为在场者但他的问题往往把对话往更深的地方拉了一把。重点速览关于 Claude Fable 5「这是一个非常科学地做 scaling 的中间产物……这条路径至少在三个维度上都还没有停止。」——罗福莉谈代码闭环的启示「Anthropic 在代码大模型上的成功甚至它现在的估值高于 OpenAI这件事对我们是一个启示应该创新地去寻找更多不同的数据闭环的可能性。」——刘知远关于「AI 制造 AI」「用 AI 替代人的机械性、重复性脑力劳动再到用 AI 制造 AI一定会发生这是人工智能发展到高级阶段的标志。」——刘知远关于自演化的边界「如果说完全靠 AI 自己闭门造车地搞数据飞轮我是不建议这么理解的。」——安波关于世界模型路径「语言模型会先一步把这条路探索得更清楚而世界模型这边还需要更高效的基础架构。」——罗福莉关于视频与世界模型「今天最大量、最方便、也最直接记录世界的数据其实就是视频……未来真正有价值的世界模型一定是一个通用世界模型。」——朱军给年轻人「敢为人先坚持以及持续自我否定。」——刘知远同样是给年轻人「学位本身已经没那么重要了。在这个年代如果你本科毕业甚至高中毕业就能进入一线 Frontier Lab 做前沿研究你在那儿干三年可能比你读一个博士学到的还更多。这个时代已经变了学位只是一张纸它的重要性在下降。真正重要的是你会什么你能做什么。」—— 安波「它是一个中间产物但这条路还没有停」两天前的那个发布自然是圆桌的第一个话题。王仲远把 Anthropic 的那个案例摆在台上他问道「它依然只是量变势能的累积还是已经到了质变的临界点」罗福莉是第一个回答的人。罗福莉在我来看Claude Fable 5 目前的结果是一个非常科学地去做 scaling 的中间产物。这个「科学做 scaling」包含几个方面。一是预训练参数量级——我们猜测它应该是目前最强开源模型的几倍。二是 test-time scaling 和强化学习部分应该也有非常大的投入。三是数据的 scaling。因为我们从 chat 迈向 agent 的时代模型的训练数据也从自然互联网文本数据迈向人和 agent 共同产生的合成数据。原来能获得的文本数据大概在 40 到 80T 这样的范围现在又迈上了一个新的台阶。所以 Fable 5是大模型在预训练参数规模、数据以及合成数据与强化学习推理结合这三个维度上做出的一个非常自然的外延扩展。是一个中间阶段的模型产物。王仲远所以你认为它依然是一个中间模型是吗罗福莉当然。我认为这条路径至少在我刚刚提到的三个维度上都还没有停止。王仲远接着问了一个更直接的问题当下模型的能力是在线性增长还是已经进入指数级增长罗福莉我很难去预估这个增长曲线。因为我们通常看到模型能力是一个涌现的过程。不管在哪一种 scaling 路径上都有这样的现象。所以很难用一条非常刻板的曲线去量化它。朱军接过了这个话题。他的角度不是来自语言模型而是来自他更熟悉的视频模型训练。朱军我周围很多老师和学生都说这一代的效果比以往又有一次大的升级。甚至说之前觉得自己是导师现在感觉模型是导师——会出现这种感慨。结合我做视频模型的经验现在依然能够看到随着模型 size 和数据规模在 scale up性能提升还是非常显著的。而且它们本质上都在走同一条路把空间做得更细致把数据质量和规模提上去再结合大规模训练整体能力就会上升。他补充了一个让他印象深刻的细节「之前大家说用 agent 方式去解决问题会消耗很多 token但现在新版本在做同样任务时token 消耗量变小了。我觉得这是一个非常、非常正确的事情。如果模型能用更高层级的智能来帮我们调工具、思考问题那大模型未来能释放出来的空间还会更大。」而紧接着刘知远的回答又多了一层视角。刘知远我说三点思考。第一点我理解它背后的逻辑是我们已经找到了一条可持续的数据飞轮闭环。不管是 2024 年还是 2025 年强化学习的成功包括这次 Claude Code 等等的表现都是因为它可以从全球范围内收集反馈收集大家使用代码生成时产生的各种数据。这构成了可持续发展的强劲动力。第二代码本身是数字世界里非常重要的生产力工具。代码大模型持续提升能力之后会对所有需要代码的行业产生颠覆式影响。比如那些被「卡脖子」的工业软件有没有可能通过开源大模型重写一遍形成全新的国产化生态我觉得这非常值得思考和探索。第三点也是我觉得更有启示意义的代码大模型之所以能快速形成闭环是因为这些数据完全发生在数字世界很容易把这个闭环做起来。Anthropic 之所以成功是因为它找到了「代码」这样一个非常重要的垂直方向。那这个世界上还有非常多垂直领域的人类专业知识如果任何一个领域都能快速形成这样的数据闭环就一定可以加速 AI 在各个行业的快速应用。王仲远所以您认为还是有新领域的机会。刘知远一定有。新的领域机会以及新的 AI 数据闭环都有可能创造出新的价值。「AI 制造 AI一定会发生」从 Claude Fable 5 的话题话头转到了「自进化」。就在圆桌召开前不久Anthropic 发布了一篇长文 “When AI builds itself”提出了 recursive self-improvement递归式自我改进的设想AI 系统全自动地设计并研发下一代 AI——从自动写代码到自动优化模型、生成数据、完成实验。王仲远把这个问题抛给了罗福莉「你观察到了哪些趋势」罗福莉坦诚来讲上一代顶尖模型——尤其是在去年——能力上限更多还在「做非常好的执行」上。当我们的指令非常清晰的时候它执行得非常完美。但到了今天我们发现顶尖模型已经从「执行」外延到了「解决一些抽象型问题」。我用一个完整的科研流程来举例从提出假设到设计实验再到真正动手做实验、做验证、设计合理的观测指标再去判断实验的合理性最后跟同行做密切交流。这是一条非常完整的研究路径。现在我已经能看到大模型已经从「执行」这一层能力慢慢外延到能够设计合理的验证指标去验证自己执行结果的准确性能够去 plan 整个实验流程。可能现在唯一、我们还认为模型和顶尖研究员有明显差距的地方是提出假设——也就是提出真正值得实验的问题。这某种程度上是一种研究 taste一种研究判断。以及在后续过程中怎么根据比较早期的结果及时停止一些没有意义的研究。这可能是现在顶尖模型和顶尖研究员之间最显著的差距。但这个差距现在正在被更强的模型加上一套更好的 recursive self-improvement agent 系统慢慢地向边界外延。所以我自己也很兴奋能够身处这样一个时代看到这样一个过程正在发生。刘知远的回答拉开了更大的历史框架。刘知远可以从两个角度来说。第一个角度从整个科技发展的历史来看我觉得现在这个节点非常关键。我们可以把即将到来的智能革命类比历史上的工业革命。工业革命的核心是用机器替代人的重复体力劳动它发展的极致是「用机器制造机器」——连机器制造本身都不再需要人的体力深度参与。所谓智能革命就是用 AI 替代人的机械性、重复性的脑力劳动。从这个角度来看用 AI 制造 AI一定会发生这是人工智能发展到高级阶段的标志。工业革命花了几百年才达到「用机器制造机器」的阶段但今天从大模型出现到「AI 制造 AI」的讨论真正成型也不过六七年时间。这个速度本身就值得我们特别关注。王仲远追了一个问题「有没有可能是 AI improve AI或者 AI create data for AI这种趋势现在已经看到了吗」刘知远当然有。我理解Anthropic 现在所谓的 recursive本质上最外层还是人——是由人来驱动 AI 去制造 AI。当我们把「AI 制造 AI」这件事做起来之后下一个问题就是能不能进一步自动化「制造 AI 的过程」本身这才是 recursive 最核心的思想。所以 recursive 的最外层我理解仍然是由人来驱动到底要制造什么样的 AI如何让它服务社会。人作为社会主体这种主观能动性、目标设定权仍然是整个「AI 制造 AI」过程的核心驱动力。人和 AI 之间依然是一种相互作用、相互塑造的关系。在这个问题上安波的态度更谨慎。安波我觉得真正完全「空机起飞」地做数据飞轮是很难的。还是需要外部反馈。像 Claude Code、Codex 等等之所以做得起来很大程度上还是因为用了大量用户、员工、真实开发过程中的反馈数据。如果说「完全靠 AI 自己闭门造车」地搞数据飞轮我是不建议这么理解的尤其是在 AI 还比较弱的时候。「自演化」这个词如果大家理解得不够清楚就容易产生错误印象好像 AI 能自己凭空长出来一样。实际上不是这样的。「今天最直接记录世界的数据就是视频」王仲远把话题引向了朱军的方向。他说一方面语言模型和 AI Coding 的进步非常快但另一方面物理世界是非常多模态的除了文字还有图像、声音、时间、空间。多模态与世界模型是不是另一条通向更广泛智能的路径朱军我有一个特别深的感受想分享。我们做 recursive或者说做演化的时候本质上一定需要有「额外的信息」不断被注入进来。从信息熵的角度来看系统不可能凭空增长出能力除非这个系统里原本就有很多东西还没有学完。文本、视频这样的数据本身非常庞大——互联网、视频平台、影视内容里面有非常多信息可能我们过去并没有用好、没有用全。在这种情况下你在这个体系内不断提升依然可以看到很大的进步。但如果我们把这个问题放到物理世界里情况就不一样了。物理世界本身是开放的不是一个固定数据集的概念。他谈到了世界模型的三个必要条件「它至少要具备三件事情第一能够理解状态第二能够预测和想象第三能够管理行动。」朱军今天最大量、最方便、也最直接记录世界的数据其实就是视频。电影、监控、真实采集数据它们本质上都是先发生在物理世界再被记录下来。所以视频里其实包含了大量 physical world 的信息。这恰恰也是视频模型一直在尝试做的事情。过去我们已经看到视频模型在复杂内容理解和内容生成上做得越来越好。再往前走一步就是把 action 更深地引入进去。他提了一个效率的问题如果视频模型面向的不是「渲染给人看」而是面向机器内部的思考和动作输出token 消耗会有非常大的优化空间。「所以现在最高优先级还是先把智能上限推上去。等到这个智能足够高了之后我们可以用很多方式把它做小、做专、部署到具体场景里。整体来看世界模型的复杂度会更高也相对更早期但未来非常可期。」他还提到了一个 2020 年就埋下的判断「大概在 2020 年的时候我们在做方向规划时就提出过一个想法构建一个可演化、可进化、可发育的环境让智能体能够进入里面学习。当然这个学习过程也不是完全封闭的它可以走出去和真实世界交互再把交互获得的反馈回灌到底座环境中。我想今天大家在说世界模型某种程度上其实就是在实现这种想法。」朱军未来真正有价值的世界模型一定是一个通用世界模型。就像语言模型最终走向通用基座一样未来更值得关注的是那种更通用、可泛化、可演进的世界模型而不只是某一个狭窄场景下的系统。「语言模型会先一步把这条路探索得更清楚」「重构世界」有几条不同的路径数字世界里 AI Coding 的爆发AI 在数字世界完成自进化之后「破茧而出」或者直接从物理世界出发重新构建基础模型。王仲远问大家更相信哪一条罗福莉我目前确实看到语言模型和世界模型是在并驾齐驱地往前走。当然现阶段语言模型走得更快一些。因为我们能够更好地从数据里还原智能诞生的环境所以可以基于这样的环境去驱动模型和 agent 系统不断探索、自我提升。但另一方面在世界模型上我更关注的是世界模型能不能先成为一个非常高效的世界模拟器。「效率」在这里是非常关键的。我们现在还没有看到一个真正 long-term efficient 的视频生成模型诞生。如果未来有了这样一个高效的生成器可以从视频角度去重构整个世界那么在这个基础上我们就可以叠加一套更复杂的、能触达现实生活任务的系统再把这两者结合起来形成一个新的范式。所以在大的层面上语言模型和世界模型未来是会互通的。但目前来看语言模型会先一步把这条路探索得更清楚而世界模型这边还需要更高效的基础架构、更贴近真实世界的系统以及之后叠加强化学习这些才会慢慢成熟起来。朱军我基本认同。语言模型确实给其他大模型提供了很多启发。因为它最早也最成熟是第一类真正验证 scaling law 的模型。接下来是视频模型再到今天大家讨论的世界模型。后两者之间关系非常紧密。从视频模型的发展路径来看我们已经看到它在复杂内容理解和内容生成上做得越来越好。再往前走一步其实就是把 action 更深地引入进去。整体来看这条路线现在已经越来越成为共识。大家也都在不断优化架构、提升效率。「敢为人先坚持以及持续自我否定」最后一个问题王仲远把话题转向了面向年轻人的方向。一方面越来越多优秀的年轻人站上了 AI 最前沿的舞台。就在智源大会前两天智源研究院官宣22 岁的北京大学青年学者、逆矩阵创始人、ACL 最佳论文得主陈博远担任智源行为世界模型创新中心负责人直接向王仲远汇报。但另一方面也有很多年轻人很焦虑——AI 发展太快要学的东西太多传统技能、传统职业都在发生剧烈变化。罗福莉我自己认为现在整体进步速度实在太快我们自己都还在摸索人和大模型之间到底应该各自发挥什么样的优势。但我发现有一项特质是非常恒定、不变的那就是人的探索欲和好奇心。所以如果让我给一个建议我觉得唯一重要的建议就是保持探索欲和好奇心然后更极致地去使用最新的 AI。在这个过程中你一定要大量试错。也要在试错中慢慢培养自己的独特判断力以及某种意义上的审美、taste或者说做研究的 taste。我觉得这可能是这个时代里年轻人最好的成长路径之一。朱军技术进步真的是飞速的、日新月异的。对所有从业者来说都一样不只是学生焦虑我们也一样在不断学习。我们现在做本科培养也在努力打造一种「AI-native」的成长环境。希望学生从第一天开始就拥抱 AI让 AI 成为自己的陪伴者、协作者面向未来去突破。但说实话哪怕同样一句话不同学生的感受也完全不同。有的人如鱼得水有的人效率一旦变高反而更焦虑、担心跟不上。他说了一句让人记住的话「对那些感到焦虑的人我反而想说你也不用太焦虑因为你身边的人可能比你更焦虑。关键不是你会不会焦虑而是你愿不愿意真正进入这个变化里。」刘知远我总结成三个点。第一个敢为人先。包括 AGI、包括未来整个智能革命这些事情都是「未发生之事」。创新往往就意味着反共识。所有人都已经在做的事情未必是真创新真正的创新往往是需要你在别人还没看到、还没做的时候就先去做。所以第一件事是你要敢于做出和别人不一样的选择。就像陈博远22 岁、ACL 最佳论文得主直接去承担这么重要的角色本质上就是敢为人先。第二个是坚持。因为你做了不一样的选择就一定会遭遇很多非议、很多否定、很多不支持。你能不能坚持下来第三个是当你做出了一些成绩以后你能不能不成为既得利益者。不要躺在已经成功的路径上不愿意相信世界会变。你能不能持续准确地判断未来趋势并敢于做自我否定、做新的探索和尝试这反而是后面更难的事。安波这个问题其实和一个更宏观的问题相关人活着的意义是什么今天我们说的一切多多少少都带一点功利色彩。从这个角度来看你要做重要的事情做那些真正有人在乎的问题不要做 nobody cares 的问题。他说了一个直接的判断「学位本身已经没那么重要了。在这个年代如果你本科毕业甚至高中毕业就能进入一线 Frontier Lab 做前沿研究你在那儿干三年可能比你读一个博士学到的还更多。真正重要的是你会什么你能做什么。」还有一点他觉得特别重要「在这个时代每个人都需要找到一个志同道合的小 group哪怕是 virtual 的都可以。世界变化太快了如果你一个概念两三天还没有 get 到你得找人聊、找人碰撞。」对话快结束时王仲远说了一句话「也许若干年之后当我们回望今天真正值得被关注的问题并不一定是某一个技术发布或者某一个模型发布而是在我们智源大会这样一个平台上有这样一场圆桌大家在这个时间点一起畅谈——人工智能最底层、最根本的一些问题以及人类如何与 AI 共同重构未来。」AGI——「四五十年一下子变成了四五年」开幕式结束赶不上吃午饭一起特别采访了王仲远对一些上午没有聊透的话题做了展开。一个是 AGI 的定义。有人问他能不能给一个大家容易理解的版本他没有直接回答先说了一件自己的经历。王仲远我自己做了将近二十年自然语言处理研究。在我过去的经历里我一直觉得 AGI 很可能是下一代人才需要认真考虑的问题也许还要四五十年。但在 2022 年底、2023 年初当 ChatGPT 和大模型真正进入质变阶段的时候对我的冲击是非常大的。我一下子意识到这个时间可能从四五十年一下子缩短到了四五年。这也是他后来从产业界回到学术界的原因之一——不只是为了推动技术也是想在智源这样的非营利机构里承担更多对 AI 安全的研究和关注。他的判断有一个分层「某种形式的 AGI在数字世界里、能解决广泛问题的那种——很多专家认为今年或明年就会出现我对这件事是认同的。但更广泛意义上的 AGI比如它能不能真正拿起一瓶水能不能在你朝它挥手时领会你的意图——这样的 AGI还需要更长时间。当然这个更长时间也可能因为今天 AI 的加速演进再次被缩短。」Scaling ——「从预测下一个词到预测下一个物理状态」我问了他一个在圆桌上没有来得及深谈的问题他在演讲里提到从最早的 Next-Token Prediction预测下一个词元到 Next Physical State Prediction下一个物理状态预测——这不只是技术路线的切换更是对 Scaling Law 的重新定义。他说已经找到了多模态 scaling 的新范式依据是什么这个问题他在圆桌上也问过罗福莉。她当时比较谨慎没有直接给出「指数性增长」的判断但也没有否认。王仲远去年还是前年媒体上有一个很热门的话题就是 scaling law 是否失效。当时之所以会有这种说法是因为大家认为大语言模型的预训练数据已经快用完了能力提升似乎遇到了瓶颈。但另一方面我们也看到了即使是在大语言模型上通过后训练、推理时 scaling模型性能依然在持续提升。今天再加上 agent 系统以及递归自进化这类技术又有可能进一步推动以语言为核心的基座模型继续 scaling。他说智源研究院做的是「高校做不了、企业不愿意做」的科研。早年的「悟道」系列是中国最早的大模型开创了中国大模型的时代。当语言模型的技术路线确定之后他们把规模竞争交给企业自己转向了多模态的新范式探索。王仲远我们坚持用 next token prediction 这样的范式去探索多模态 scaling。为什么我们会认为找到了路径有几个原因。Emu3.5 相比前代训练数据提升了大约 50 倍模型参数提升了大约 4 倍整体性能也实现了非常显著的提升。它采用自回归架构可以完全复用现有基础设施也能复用大语言模型与强化学习后训练的那套方法——这意味着它可以复现语言模型的 scaling 路径。他还说了一个细节Emu3.5 现在只有 300 多亿参数且只用了不到 1% 的公开视频数据。「这意味着它未来仍然有很大的潜力。更大的参数、更大的数据就有可能带来更强性能。」再往后——进入物理世界之后就必须处理时间、空间、物理规律、物理常识。「所以world basis 现在是我们正在做的一件很重要的事物理世界基座模型的 scaling 范式到底应该是什么样。等我们把这条路线探出来以后也会向全世界分享再交给企业、产业界去做 scale up。」这也回应了圆桌上朱军说的那句话「整体来看世界模型的复杂度会更高也相对更早期但未来非常可期。」两人的判断在不同场合指向了同一件事。「这已经不是抽象推演而是实实在在的分析结果」另一个没有在圆桌上展开的话题是 AI 安全。今年大会上智源研究院发布了一款「风险发现智能体」。王仲远它能够绕过现有的筛查机制去发现有害蛋白基因、合成有害蛋白。这已经不是一种抽象推演而是实实在在的分析结果。而且这些分析我们是通过 11 款大语言模型和 3 个智能体系统共同复现出来的。他说这说明一件事AI 安全已经不再只是一种长远担忧而是进入了现实风险阶段。「它需要技术界、产业界、政策界以及各个领域的专家共同努力携手应对。」当被问到怎么看「世界模型」这个词被泛化、滥用的问题以及李飞飞最近说了同样的担忧时。王仲远说他们非常认同这个判断。「今天的世界模型还处在非常早期的发展阶段。最终不管大家今天怎么分类未来很可能还是会归一到某一种更统一的、更大尺度的框架之下去解决这一类终极命题。」采访快结束时有人问起具身智能走进家庭还有多远。王仲远说还很远。demo 和真正进入千家万户之间「中间差得非常远」。但他说了一句话「我们经常开玩笑说今天研究具身智能很大一个原因是希望 20 年后我们老了机器人能够照顾我们的生活起居。这其实是很多研究员参与具身智能研究的一个很朴素、也很真实的目标。」研究这件事的人有时候不只是在研究技术。
学位重要性下降、AI 制造 AI 正在发生!罗福莉等五位顶尖学者谈 AI 自进化与 AGI 临界点
发布时间:2026/6/16 8:41:06
作者 | 唐小引出品 | CSDNIDCSDNnews两天前Anthropic 正式发布了 Claude Fable 5。在 Anthropic 分享的一个案例里有一个数字很难被忽视五千万行代码的代码库人类工程师团队做整体迁移需要一个月AI agent一天。这个数字被带进了 2026 智源大会开幕式的压轴环节——一场以「重构世界」为题的大模型圆桌对话。坐在台上的有五个人。主持人是智源研究院院长王仲远另外四位嘉宾分别是小米集团 MiMo 大模型团队负责人罗福莉清华大学计算机系教授、生数科技创始人朱军清华大学计算机系教授、面壁智能联合创始人兼首席科学家刘知远以及南洋理工大学校长讲席教授、人工智能交叉研究院院长安波。学术与产业基础研究与工程落地语言模型与世界模型国内与海外——这五个人坐在一起已经是一张完整的横截面。从「通往」到「重构」智源大会的开幕圆桌已经做了三届。2024 年的题目是「通往 AGI 之路」2025 年是「智源具身会客厅」2026 年变成了「重构世界」。题目的语气在变。不再讨论往哪里走开始讨论能改变什么。王仲远在开场解释这个变化时说「人工智能不再只是改造某个行业的工具而是正在成为重构世界的底层力量。AI Coding、自主智能体、模型自进化正在打开‘AI 创造 AI’的可能性世界模型、具身智能和机器人则让智能从数字世界延伸到物理世界。」五位学者在关注什么朱军来自清华计算机系也是生数科技的创始人。他的研究方向是「通用世界模型」核心问题是以视频为原生的模型架构如何打破 AI 对世界的「理解、预测以及在世界中进行行动」的边界。这是一个比语言模型更慢、更重、也更难的方向——因为物理世界不像文字没有天然的序列也没有唾手可得的大规模标注数据。罗福莉是这场圆桌最年轻的嘉宾。她负责小米 MiMo 大模型团队这支团队在多个公开评测榜单上保持了不低的排名。她在自我介绍时没有铺陈职位和成绩只说了一件自己最近「最关注」的事self-improvement尤其是在开放研究语境里的模型自进化路径。刘知远同样来自清华计算机系面壁智能的联合创始人兼首席科学家。他近期专注于大模型的「智能密度定律」——如何在更小的模型里训出更高密度的智能让模型能够赋能各类智能终端。他在圆桌上提供的是研究者与创业者的双重视角说话的方式清晰有条理经常在回答里先说「我总结成三点」然后真的是三点。安波在南洋理工大学任校长讲席教授同时在工业界兼职关注的是更偏实用的问题在底座不变的情况下怎么通过更好的方法获得更强的推理能力。他是这场圆桌上几次说出「这件事我不建议大家这么理解」的人——说话直接有时候会打断一个讨论热点重新标定它的边界。王仲远的主持风格是带着判断去问问题。他不只是转述观点有时会直接追问「所以你认为它依然是一个中间模型是吗」「有没有可能是 AI improve AI而不是 AI create AI」他把自己的角色定义为在场者但他的问题往往把对话往更深的地方拉了一把。重点速览关于 Claude Fable 5「这是一个非常科学地做 scaling 的中间产物……这条路径至少在三个维度上都还没有停止。」——罗福莉谈代码闭环的启示「Anthropic 在代码大模型上的成功甚至它现在的估值高于 OpenAI这件事对我们是一个启示应该创新地去寻找更多不同的数据闭环的可能性。」——刘知远关于「AI 制造 AI」「用 AI 替代人的机械性、重复性脑力劳动再到用 AI 制造 AI一定会发生这是人工智能发展到高级阶段的标志。」——刘知远关于自演化的边界「如果说完全靠 AI 自己闭门造车地搞数据飞轮我是不建议这么理解的。」——安波关于世界模型路径「语言模型会先一步把这条路探索得更清楚而世界模型这边还需要更高效的基础架构。」——罗福莉关于视频与世界模型「今天最大量、最方便、也最直接记录世界的数据其实就是视频……未来真正有价值的世界模型一定是一个通用世界模型。」——朱军给年轻人「敢为人先坚持以及持续自我否定。」——刘知远同样是给年轻人「学位本身已经没那么重要了。在这个年代如果你本科毕业甚至高中毕业就能进入一线 Frontier Lab 做前沿研究你在那儿干三年可能比你读一个博士学到的还更多。这个时代已经变了学位只是一张纸它的重要性在下降。真正重要的是你会什么你能做什么。」—— 安波「它是一个中间产物但这条路还没有停」两天前的那个发布自然是圆桌的第一个话题。王仲远把 Anthropic 的那个案例摆在台上他问道「它依然只是量变势能的累积还是已经到了质变的临界点」罗福莉是第一个回答的人。罗福莉在我来看Claude Fable 5 目前的结果是一个非常科学地去做 scaling 的中间产物。这个「科学做 scaling」包含几个方面。一是预训练参数量级——我们猜测它应该是目前最强开源模型的几倍。二是 test-time scaling 和强化学习部分应该也有非常大的投入。三是数据的 scaling。因为我们从 chat 迈向 agent 的时代模型的训练数据也从自然互联网文本数据迈向人和 agent 共同产生的合成数据。原来能获得的文本数据大概在 40 到 80T 这样的范围现在又迈上了一个新的台阶。所以 Fable 5是大模型在预训练参数规模、数据以及合成数据与强化学习推理结合这三个维度上做出的一个非常自然的外延扩展。是一个中间阶段的模型产物。王仲远所以你认为它依然是一个中间模型是吗罗福莉当然。我认为这条路径至少在我刚刚提到的三个维度上都还没有停止。王仲远接着问了一个更直接的问题当下模型的能力是在线性增长还是已经进入指数级增长罗福莉我很难去预估这个增长曲线。因为我们通常看到模型能力是一个涌现的过程。不管在哪一种 scaling 路径上都有这样的现象。所以很难用一条非常刻板的曲线去量化它。朱军接过了这个话题。他的角度不是来自语言模型而是来自他更熟悉的视频模型训练。朱军我周围很多老师和学生都说这一代的效果比以往又有一次大的升级。甚至说之前觉得自己是导师现在感觉模型是导师——会出现这种感慨。结合我做视频模型的经验现在依然能够看到随着模型 size 和数据规模在 scale up性能提升还是非常显著的。而且它们本质上都在走同一条路把空间做得更细致把数据质量和规模提上去再结合大规模训练整体能力就会上升。他补充了一个让他印象深刻的细节「之前大家说用 agent 方式去解决问题会消耗很多 token但现在新版本在做同样任务时token 消耗量变小了。我觉得这是一个非常、非常正确的事情。如果模型能用更高层级的智能来帮我们调工具、思考问题那大模型未来能释放出来的空间还会更大。」而紧接着刘知远的回答又多了一层视角。刘知远我说三点思考。第一点我理解它背后的逻辑是我们已经找到了一条可持续的数据飞轮闭环。不管是 2024 年还是 2025 年强化学习的成功包括这次 Claude Code 等等的表现都是因为它可以从全球范围内收集反馈收集大家使用代码生成时产生的各种数据。这构成了可持续发展的强劲动力。第二代码本身是数字世界里非常重要的生产力工具。代码大模型持续提升能力之后会对所有需要代码的行业产生颠覆式影响。比如那些被「卡脖子」的工业软件有没有可能通过开源大模型重写一遍形成全新的国产化生态我觉得这非常值得思考和探索。第三点也是我觉得更有启示意义的代码大模型之所以能快速形成闭环是因为这些数据完全发生在数字世界很容易把这个闭环做起来。Anthropic 之所以成功是因为它找到了「代码」这样一个非常重要的垂直方向。那这个世界上还有非常多垂直领域的人类专业知识如果任何一个领域都能快速形成这样的数据闭环就一定可以加速 AI 在各个行业的快速应用。王仲远所以您认为还是有新领域的机会。刘知远一定有。新的领域机会以及新的 AI 数据闭环都有可能创造出新的价值。「AI 制造 AI一定会发生」从 Claude Fable 5 的话题话头转到了「自进化」。就在圆桌召开前不久Anthropic 发布了一篇长文 “When AI builds itself”提出了 recursive self-improvement递归式自我改进的设想AI 系统全自动地设计并研发下一代 AI——从自动写代码到自动优化模型、生成数据、完成实验。王仲远把这个问题抛给了罗福莉「你观察到了哪些趋势」罗福莉坦诚来讲上一代顶尖模型——尤其是在去年——能力上限更多还在「做非常好的执行」上。当我们的指令非常清晰的时候它执行得非常完美。但到了今天我们发现顶尖模型已经从「执行」外延到了「解决一些抽象型问题」。我用一个完整的科研流程来举例从提出假设到设计实验再到真正动手做实验、做验证、设计合理的观测指标再去判断实验的合理性最后跟同行做密切交流。这是一条非常完整的研究路径。现在我已经能看到大模型已经从「执行」这一层能力慢慢外延到能够设计合理的验证指标去验证自己执行结果的准确性能够去 plan 整个实验流程。可能现在唯一、我们还认为模型和顶尖研究员有明显差距的地方是提出假设——也就是提出真正值得实验的问题。这某种程度上是一种研究 taste一种研究判断。以及在后续过程中怎么根据比较早期的结果及时停止一些没有意义的研究。这可能是现在顶尖模型和顶尖研究员之间最显著的差距。但这个差距现在正在被更强的模型加上一套更好的 recursive self-improvement agent 系统慢慢地向边界外延。所以我自己也很兴奋能够身处这样一个时代看到这样一个过程正在发生。刘知远的回答拉开了更大的历史框架。刘知远可以从两个角度来说。第一个角度从整个科技发展的历史来看我觉得现在这个节点非常关键。我们可以把即将到来的智能革命类比历史上的工业革命。工业革命的核心是用机器替代人的重复体力劳动它发展的极致是「用机器制造机器」——连机器制造本身都不再需要人的体力深度参与。所谓智能革命就是用 AI 替代人的机械性、重复性的脑力劳动。从这个角度来看用 AI 制造 AI一定会发生这是人工智能发展到高级阶段的标志。工业革命花了几百年才达到「用机器制造机器」的阶段但今天从大模型出现到「AI 制造 AI」的讨论真正成型也不过六七年时间。这个速度本身就值得我们特别关注。王仲远追了一个问题「有没有可能是 AI improve AI或者 AI create data for AI这种趋势现在已经看到了吗」刘知远当然有。我理解Anthropic 现在所谓的 recursive本质上最外层还是人——是由人来驱动 AI 去制造 AI。当我们把「AI 制造 AI」这件事做起来之后下一个问题就是能不能进一步自动化「制造 AI 的过程」本身这才是 recursive 最核心的思想。所以 recursive 的最外层我理解仍然是由人来驱动到底要制造什么样的 AI如何让它服务社会。人作为社会主体这种主观能动性、目标设定权仍然是整个「AI 制造 AI」过程的核心驱动力。人和 AI 之间依然是一种相互作用、相互塑造的关系。在这个问题上安波的态度更谨慎。安波我觉得真正完全「空机起飞」地做数据飞轮是很难的。还是需要外部反馈。像 Claude Code、Codex 等等之所以做得起来很大程度上还是因为用了大量用户、员工、真实开发过程中的反馈数据。如果说「完全靠 AI 自己闭门造车」地搞数据飞轮我是不建议这么理解的尤其是在 AI 还比较弱的时候。「自演化」这个词如果大家理解得不够清楚就容易产生错误印象好像 AI 能自己凭空长出来一样。实际上不是这样的。「今天最直接记录世界的数据就是视频」王仲远把话题引向了朱军的方向。他说一方面语言模型和 AI Coding 的进步非常快但另一方面物理世界是非常多模态的除了文字还有图像、声音、时间、空间。多模态与世界模型是不是另一条通向更广泛智能的路径朱军我有一个特别深的感受想分享。我们做 recursive或者说做演化的时候本质上一定需要有「额外的信息」不断被注入进来。从信息熵的角度来看系统不可能凭空增长出能力除非这个系统里原本就有很多东西还没有学完。文本、视频这样的数据本身非常庞大——互联网、视频平台、影视内容里面有非常多信息可能我们过去并没有用好、没有用全。在这种情况下你在这个体系内不断提升依然可以看到很大的进步。但如果我们把这个问题放到物理世界里情况就不一样了。物理世界本身是开放的不是一个固定数据集的概念。他谈到了世界模型的三个必要条件「它至少要具备三件事情第一能够理解状态第二能够预测和想象第三能够管理行动。」朱军今天最大量、最方便、也最直接记录世界的数据其实就是视频。电影、监控、真实采集数据它们本质上都是先发生在物理世界再被记录下来。所以视频里其实包含了大量 physical world 的信息。这恰恰也是视频模型一直在尝试做的事情。过去我们已经看到视频模型在复杂内容理解和内容生成上做得越来越好。再往前走一步就是把 action 更深地引入进去。他提了一个效率的问题如果视频模型面向的不是「渲染给人看」而是面向机器内部的思考和动作输出token 消耗会有非常大的优化空间。「所以现在最高优先级还是先把智能上限推上去。等到这个智能足够高了之后我们可以用很多方式把它做小、做专、部署到具体场景里。整体来看世界模型的复杂度会更高也相对更早期但未来非常可期。」他还提到了一个 2020 年就埋下的判断「大概在 2020 年的时候我们在做方向规划时就提出过一个想法构建一个可演化、可进化、可发育的环境让智能体能够进入里面学习。当然这个学习过程也不是完全封闭的它可以走出去和真实世界交互再把交互获得的反馈回灌到底座环境中。我想今天大家在说世界模型某种程度上其实就是在实现这种想法。」朱军未来真正有价值的世界模型一定是一个通用世界模型。就像语言模型最终走向通用基座一样未来更值得关注的是那种更通用、可泛化、可演进的世界模型而不只是某一个狭窄场景下的系统。「语言模型会先一步把这条路探索得更清楚」「重构世界」有几条不同的路径数字世界里 AI Coding 的爆发AI 在数字世界完成自进化之后「破茧而出」或者直接从物理世界出发重新构建基础模型。王仲远问大家更相信哪一条罗福莉我目前确实看到语言模型和世界模型是在并驾齐驱地往前走。当然现阶段语言模型走得更快一些。因为我们能够更好地从数据里还原智能诞生的环境所以可以基于这样的环境去驱动模型和 agent 系统不断探索、自我提升。但另一方面在世界模型上我更关注的是世界模型能不能先成为一个非常高效的世界模拟器。「效率」在这里是非常关键的。我们现在还没有看到一个真正 long-term efficient 的视频生成模型诞生。如果未来有了这样一个高效的生成器可以从视频角度去重构整个世界那么在这个基础上我们就可以叠加一套更复杂的、能触达现实生活任务的系统再把这两者结合起来形成一个新的范式。所以在大的层面上语言模型和世界模型未来是会互通的。但目前来看语言模型会先一步把这条路探索得更清楚而世界模型这边还需要更高效的基础架构、更贴近真实世界的系统以及之后叠加强化学习这些才会慢慢成熟起来。朱军我基本认同。语言模型确实给其他大模型提供了很多启发。因为它最早也最成熟是第一类真正验证 scaling law 的模型。接下来是视频模型再到今天大家讨论的世界模型。后两者之间关系非常紧密。从视频模型的发展路径来看我们已经看到它在复杂内容理解和内容生成上做得越来越好。再往前走一步其实就是把 action 更深地引入进去。整体来看这条路线现在已经越来越成为共识。大家也都在不断优化架构、提升效率。「敢为人先坚持以及持续自我否定」最后一个问题王仲远把话题转向了面向年轻人的方向。一方面越来越多优秀的年轻人站上了 AI 最前沿的舞台。就在智源大会前两天智源研究院官宣22 岁的北京大学青年学者、逆矩阵创始人、ACL 最佳论文得主陈博远担任智源行为世界模型创新中心负责人直接向王仲远汇报。但另一方面也有很多年轻人很焦虑——AI 发展太快要学的东西太多传统技能、传统职业都在发生剧烈变化。罗福莉我自己认为现在整体进步速度实在太快我们自己都还在摸索人和大模型之间到底应该各自发挥什么样的优势。但我发现有一项特质是非常恒定、不变的那就是人的探索欲和好奇心。所以如果让我给一个建议我觉得唯一重要的建议就是保持探索欲和好奇心然后更极致地去使用最新的 AI。在这个过程中你一定要大量试错。也要在试错中慢慢培养自己的独特判断力以及某种意义上的审美、taste或者说做研究的 taste。我觉得这可能是这个时代里年轻人最好的成长路径之一。朱军技术进步真的是飞速的、日新月异的。对所有从业者来说都一样不只是学生焦虑我们也一样在不断学习。我们现在做本科培养也在努力打造一种「AI-native」的成长环境。希望学生从第一天开始就拥抱 AI让 AI 成为自己的陪伴者、协作者面向未来去突破。但说实话哪怕同样一句话不同学生的感受也完全不同。有的人如鱼得水有的人效率一旦变高反而更焦虑、担心跟不上。他说了一句让人记住的话「对那些感到焦虑的人我反而想说你也不用太焦虑因为你身边的人可能比你更焦虑。关键不是你会不会焦虑而是你愿不愿意真正进入这个变化里。」刘知远我总结成三个点。第一个敢为人先。包括 AGI、包括未来整个智能革命这些事情都是「未发生之事」。创新往往就意味着反共识。所有人都已经在做的事情未必是真创新真正的创新往往是需要你在别人还没看到、还没做的时候就先去做。所以第一件事是你要敢于做出和别人不一样的选择。就像陈博远22 岁、ACL 最佳论文得主直接去承担这么重要的角色本质上就是敢为人先。第二个是坚持。因为你做了不一样的选择就一定会遭遇很多非议、很多否定、很多不支持。你能不能坚持下来第三个是当你做出了一些成绩以后你能不能不成为既得利益者。不要躺在已经成功的路径上不愿意相信世界会变。你能不能持续准确地判断未来趋势并敢于做自我否定、做新的探索和尝试这反而是后面更难的事。安波这个问题其实和一个更宏观的问题相关人活着的意义是什么今天我们说的一切多多少少都带一点功利色彩。从这个角度来看你要做重要的事情做那些真正有人在乎的问题不要做 nobody cares 的问题。他说了一个直接的判断「学位本身已经没那么重要了。在这个年代如果你本科毕业甚至高中毕业就能进入一线 Frontier Lab 做前沿研究你在那儿干三年可能比你读一个博士学到的还更多。真正重要的是你会什么你能做什么。」还有一点他觉得特别重要「在这个时代每个人都需要找到一个志同道合的小 group哪怕是 virtual 的都可以。世界变化太快了如果你一个概念两三天还没有 get 到你得找人聊、找人碰撞。」对话快结束时王仲远说了一句话「也许若干年之后当我们回望今天真正值得被关注的问题并不一定是某一个技术发布或者某一个模型发布而是在我们智源大会这样一个平台上有这样一场圆桌大家在这个时间点一起畅谈——人工智能最底层、最根本的一些问题以及人类如何与 AI 共同重构未来。」AGI——「四五十年一下子变成了四五年」开幕式结束赶不上吃午饭一起特别采访了王仲远对一些上午没有聊透的话题做了展开。一个是 AGI 的定义。有人问他能不能给一个大家容易理解的版本他没有直接回答先说了一件自己的经历。王仲远我自己做了将近二十年自然语言处理研究。在我过去的经历里我一直觉得 AGI 很可能是下一代人才需要认真考虑的问题也许还要四五十年。但在 2022 年底、2023 年初当 ChatGPT 和大模型真正进入质变阶段的时候对我的冲击是非常大的。我一下子意识到这个时间可能从四五十年一下子缩短到了四五年。这也是他后来从产业界回到学术界的原因之一——不只是为了推动技术也是想在智源这样的非营利机构里承担更多对 AI 安全的研究和关注。他的判断有一个分层「某种形式的 AGI在数字世界里、能解决广泛问题的那种——很多专家认为今年或明年就会出现我对这件事是认同的。但更广泛意义上的 AGI比如它能不能真正拿起一瓶水能不能在你朝它挥手时领会你的意图——这样的 AGI还需要更长时间。当然这个更长时间也可能因为今天 AI 的加速演进再次被缩短。」Scaling ——「从预测下一个词到预测下一个物理状态」我问了他一个在圆桌上没有来得及深谈的问题他在演讲里提到从最早的 Next-Token Prediction预测下一个词元到 Next Physical State Prediction下一个物理状态预测——这不只是技术路线的切换更是对 Scaling Law 的重新定义。他说已经找到了多模态 scaling 的新范式依据是什么这个问题他在圆桌上也问过罗福莉。她当时比较谨慎没有直接给出「指数性增长」的判断但也没有否认。王仲远去年还是前年媒体上有一个很热门的话题就是 scaling law 是否失效。当时之所以会有这种说法是因为大家认为大语言模型的预训练数据已经快用完了能力提升似乎遇到了瓶颈。但另一方面我们也看到了即使是在大语言模型上通过后训练、推理时 scaling模型性能依然在持续提升。今天再加上 agent 系统以及递归自进化这类技术又有可能进一步推动以语言为核心的基座模型继续 scaling。他说智源研究院做的是「高校做不了、企业不愿意做」的科研。早年的「悟道」系列是中国最早的大模型开创了中国大模型的时代。当语言模型的技术路线确定之后他们把规模竞争交给企业自己转向了多模态的新范式探索。王仲远我们坚持用 next token prediction 这样的范式去探索多模态 scaling。为什么我们会认为找到了路径有几个原因。Emu3.5 相比前代训练数据提升了大约 50 倍模型参数提升了大约 4 倍整体性能也实现了非常显著的提升。它采用自回归架构可以完全复用现有基础设施也能复用大语言模型与强化学习后训练的那套方法——这意味着它可以复现语言模型的 scaling 路径。他还说了一个细节Emu3.5 现在只有 300 多亿参数且只用了不到 1% 的公开视频数据。「这意味着它未来仍然有很大的潜力。更大的参数、更大的数据就有可能带来更强性能。」再往后——进入物理世界之后就必须处理时间、空间、物理规律、物理常识。「所以world basis 现在是我们正在做的一件很重要的事物理世界基座模型的 scaling 范式到底应该是什么样。等我们把这条路线探出来以后也会向全世界分享再交给企业、产业界去做 scale up。」这也回应了圆桌上朱军说的那句话「整体来看世界模型的复杂度会更高也相对更早期但未来非常可期。」两人的判断在不同场合指向了同一件事。「这已经不是抽象推演而是实实在在的分析结果」另一个没有在圆桌上展开的话题是 AI 安全。今年大会上智源研究院发布了一款「风险发现智能体」。王仲远它能够绕过现有的筛查机制去发现有害蛋白基因、合成有害蛋白。这已经不是一种抽象推演而是实实在在的分析结果。而且这些分析我们是通过 11 款大语言模型和 3 个智能体系统共同复现出来的。他说这说明一件事AI 安全已经不再只是一种长远担忧而是进入了现实风险阶段。「它需要技术界、产业界、政策界以及各个领域的专家共同努力携手应对。」当被问到怎么看「世界模型」这个词被泛化、滥用的问题以及李飞飞最近说了同样的担忧时。王仲远说他们非常认同这个判断。「今天的世界模型还处在非常早期的发展阶段。最终不管大家今天怎么分类未来很可能还是会归一到某一种更统一的、更大尺度的框架之下去解决这一类终极命题。」采访快结束时有人问起具身智能走进家庭还有多远。王仲远说还很远。demo 和真正进入千家万户之间「中间差得非常远」。但他说了一句话「我们经常开玩笑说今天研究具身智能很大一个原因是希望 20 年后我们老了机器人能够照顾我们的生活起居。这其实是很多研究员参与具身智能研究的一个很朴素、也很真实的目标。」研究这件事的人有时候不只是在研究技术。