博主实测爆火的 Sakana Fugu,发现它还不如一个GPT? 一个日本AI团队最近把模型圈又搅动了一下。这家公司叫 Sakana推出的新系统叫 Fugu。它最吸引眼球的地方在于它声称可以把 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 这类前沿模型组织起来像一个总导演一样把不同任务分给不同模型再把结果整合成一个答案。如果官方基准成绩可信Fugu 在部分编码任务上的表现非常靠前甚至能压过不少顶级模型。于是问题来了一个靠“模型编排”工作的AI系统真的能比单个最强模型更强吗最近YouTube上的一位科技博主Bijan Bowen做了一轮实测。他没有只看跑分也没有只复述官方说法而是把 Fugu 放进自己常用的测试体系里连续跑了网页应用、3D 场景、小游戏、视觉还原、前端设计和飞行模拟等任务。测试之后他给出的判断相当克制Fugu 很有意思但现在还没有证明自己能稳定超过 GPT 或 Claude 单独出手。Fugu到底是什么一个会“指挥模型”的模型Sakana Fugu 这个项目主要由公司 CEO David Ha 与联合创始人 Llion Jones 主导。值得一提的是Llion Jones 还是Transformer 架构的奠基之作《Attention Is All You Need》的共同作者之一可以说 Fugu 从诞生之初就带着浓厚的技术基因。按照 Sakana 的介绍Fugu 更像一个“模型路由与编排系统”。用户表面上只是在调用 Fugu实际上系统内部可能会调用多个前沿模型参与任务包括 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 等。Fugu 自己也不是空壳。它有一套训练出来的调度能力可以判断用户任务需要哪些模型参与给不同模型安排什么角色中间结果怎样验证和合并最终再生成一个统一答案。这个思路很像一个AI项目经理它不一定亲自完成每一个细节但它要知道谁适合写代码谁适合做视觉谁适合补充推理最后把多人协作变成一个完整成品。为了验证这个思路他分别测试了普通版 Fugu 和更强的 Fugu Ultra High。前者用于第一个任务后续更复杂的任务基本都交给更贵的 Ultra 版本。第一轮普通Fugu做了一个“浏览器OS”第一个任务是让 Fugu 生成一个类似浏览器操作系统的网页应用。里面要有桌面、窗口、应用、终端、笔记工具、壁纸工具还要包含一个类似 GTA 的小游戏。普通版 Fugu 大约 6 分钟完成任务。费用也不高从原来的 4 美分涨到 9 美分整个任务大约花了 5 美分。生成结果属于可用级别。界面完整有应用图标有窗口交互也有一个能开的小游戏。小车可以移动地图里有建筑、警车、漂浮现金捡到现金后还会弹出提示。建筑虽然是透明的但也设置了碰撞体车不会直接穿过去。另一个“时间胶囊”功能也能保存窗口状态再恢复出来。这轮测试给人的第一印象是Fugu 的完成度不错至少没有明显翻车。但他也发现了一个有趣细节。这个界面的视觉风格非常像 GPT-5.x 系列背景渐变、窗口设计、UI结构都有明显的“GPT味”。这意味着Fugu 背后的编排很可能会让某些底层模型的风格渗出来。第二轮Fugu Ultra做3D地铁站干净但不惊艳第二个任务开始Bowen切换到 Fugu Ultra High。这个版本强调更高质量、更深编排也意味着更高费用和更长等待时间。他先让 Fugu Ultra 生成一个精致的 3D 地铁站场景。结果里有站台、轨道、长椅、标识、灯光、垃圾桶甚至还出现了交通锥。整体空间结构比较合理元素摆放也符合真实地铁站的基本逻辑。从完成度看这个结果不差。场景能运行移动也流畅空间布局清楚没有出现严重混乱。但如果把它放在“高端AI模型评测”的语境里它就显得有些保守。材质不够丰富氛围不够强细节也没有特别出彩的地方。Bowen用的评价很直接它很干净也很有序但没有让人“哇”的时刻。更现实的问题是成本。由于模型在后期不断尝试截图和检查结果这个任务费用从 9 美分涨到了 3.54 美元单次大约花了 3.45 美元。这个价格已经不适合随便试错。第三轮把地铁站改成射击游戏细节开始暴露接下来他要求 Fugu Ultra 在已有地铁站基础上继续改造把它变成一个第一人称射击游戏加入类僵尸敌人、武器、音效、奔跑和换弹机制。这次结果依然能跑。敌人有上臂、下臂、上腿、下腿造型不是简单方块。枪口闪光会映射到周围环境音效也有R键换弹、冲刺等基础交互都做了出来。这一轮说明 Fugu Ultra 确实有不错的工程执行能力。它能接住一个复杂的后续需求也能把静态场景改造成可玩的交互游戏。可问题还是出现在细节。他特别提到子弹打到环境上没有留下弹孔。这个细节听起来很小但在他长期做模型评测的体系里它是判断模型有没有“多做一步”的重要信号。很多顶级模型在类似任务中会主动补上弹孔、破坏痕迹、环境反馈等沉浸式细节。Fugu Ultra 做到了能玩但没有把游戏体验打磨到更高级。第四轮C滑板游戏合格但离顶级还有距离随后他又让 Fugu Ultra 写一个自包含的 C 滑板游戏。他还特意拒绝模型使用 Raylib 这类简化开发的库因为那会降低任务难度。这个任务花费明显更高。费用从 4.99 美元涨到 8.81 美元单次大约花了 3.82 美元。最终生成的游戏有海边木板路、商店、行人、棕榈树、海水、坡道和滑板动作。玩家可以移动、加速、跳跃也可以执行一些滑板动作。街道两侧的商店会循环出现比如 motel、donuts、records、diner、tattoo、surf、pizza 等画面元素算是完整。但它的缺点也很清楚。角色动作有些僵硬速度偏快部分坡道嵌进了商店动作表现不够自然。Bowen拿它和此前测试过的 Fable 5 结果相比认为它明显没有达到那个级别。这也是整轮测试里反复出现的感受Fugu Ultra 很少彻底失败但也很少真正惊艳。它像一个稳定的执行者能把任务完成到及格线以上却经常缺少顶级模型单独发挥时的细腻和灵气。第五轮照片还原3D模型Fugu开始“偷懒”为了测试视觉理解和空间还原能力他又给 Fugu Ultra 一个照片文件夹里面是一台复古小笔记本外壳的多角度照片。他要求模型根据这些图片生成一个 3D 复刻版本并且键盘要能点击。第一次生成的结果很有意思。模型抓住了图片里的颜色桌面、背景、笔记本色调都比较接近键盘也能响应输入。但问题在于它没有真正做成3D更像一个有立体错觉的 2.5D 纸片模型。他不满意又追加提示要求它必须做成真正的3D。第二次结果确实改进了笔记本可以旋转盖子可以关闭也保留了一些房间元素。只是键盘方向出现反转整体仍有瑕疵。这轮测试很能说明 Fugu Ultra 的一个习惯它能理解需求也能修正错误但在复杂视觉任务里容易先给出一个“看起来差不多”的方案。对于普通用户这也许已经够用对于严肃评测它就会被放大。横向对比手表官网暴露了核心差距最关键的一轮测试是高端手表品牌官网。他要求 Fugu Ultra 做一个精致的手表官网首页核心区域要有一个高端手表模型放在桌面上并做出类似 KeyShot 渲染的镜头环绕效果。为了对比他把同样提示词分别交给 GPT-5.5、Claude Opus 4.8 和 Gemini 3.1 Pro。Gemini 做了两个版本有一定3D感和反射效果但产品卡片里的模型质量一般。Claude 的表盘细节很漂亮产品卡片也有质感不过主视觉里的手表出现了半透明、漂浮等问题。Fugu Ultra 的结果看起来混合了多种模型风格导航有 GPT 味浅色布局又有一些 Claude 的感觉。手表本身做得不错秒针也在运动但核心问题再次出现它没有真正完成高质量 3D 手表更像 2.5D 的视觉方案。最强结果来自 GPT-5.5 单独生成的版本。它做出了更完整的手表模型皮革表带有缝线表带孔位也做了出来产品卡片里还生成了不同材质的款式。虽然表盘方向仍有小瑕疵但整体完成度明显领先。这轮对比让Bowen的判断变得非常明确在这类复杂创造型任务里直接使用 GPT-5.5 或 Claude Opus可能比通过 Fugu Ultra 编排更便宜、更直接结果也更好。最后一轮飞行战斗模拟器没能扭转印象最后他又跑了一个飞行战斗模拟器任务。这个任务同样使用 Fugu Ultra。结果里有一些基本元素但整体表现没有达到预期。他认为如果单独调用那些可能被 Fugu 调度的底层模型效果大概率会更好。到测试结束时他一共充值了 40 美元整轮测试花掉 21.57 美元。除了第一个 browser OS 用普通 Fugu其余复杂任务基本都跑在 Fugu Ultra 上。考虑到多数结果只是“稳定完成”这个成本很难说有明显优势。模型编排有价值但Fugu还没打穿Bowen最终给出的判断其实很克制。Fugu 的技术路线值得关注。它代表了一种新形态用户不再直接选择某一个模型而是把任务交给一个智能调度系统由它决定调用谁、怎么分工、如何整合结果。随着模型越来越多这种“模型编排”很可能会成为AI应用的重要方向。但至少在这次测试里Fugu Ultra 还没有证明自己能稳定超过单个顶级模型。它比 OpenRouter Fusion 这类编排方案表现更好任务完成度更高也更稳定。可一旦进入复杂网页、3D、游戏、视觉还原等任务它经常停留在“干净、完整、能用”的层面。OpenRouter Fusion 可以理解为更早一批“模型融合”尝试。它的思路同样不是让用户只依赖某一个模型而是试图在多个模型之间做选择和组合让系统自动找到更合适的回答路径。听起来这和 Fugu 很接近但实际体验里两者的差别很明显。OpenRouter Fusion 更像是在模型之间做一次相对简单的路由某些特定任务可能会有亮点但整体稳定性和复杂任务的交付质量并不算突出。Fugu 的进步在于它不只是把请求转交给某个模型而是围绕任务搭建一个更复杂的协作框架让不同模型承担不同角色再由系统综合输出结果。所以在这次测试里Fugu 至少证明了自己比 OpenRouter Fusion 更像一个真正的“模型编排系统”。然而相比之下GPT-5.5 或 Claude Opus 单独出手反而更容易做出有细节、有风格、有完成度的结果。至顶AI实验室洞察这次测试真正提醒人的地方在于AI系统强不强不能只看它背后调度了多少模型也不能只看官方基准成绩。真正的判断标准还是具体任务里的成品质量、交互细节、成本和稳定性。Fugu 像是一个提前露面的新物种。它展示了模型编排的未来形状也暴露了今天这条路线的现实限制。对于开发者和内容创作者来说它值得观察但现在还没到可以替代 GPT-5.5、Claude Opus 这类顶级模型的程度。END本文来自至顶AI实验室一个专注于对AI计算机、工作站及各类AI相关硬件设备开展基于真实使用场景评测的研究机构。‍