博主实测爆火的 Sakana Fugu，发现它还不如一个GPT？

发布时间：2026/6/25 13:33:34

一个日本AI团队最近把模型圈又搅动了一下。这家公司叫 Sakana推出的新系统叫 Fugu。它最吸引眼球的地方在于它声称可以把 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 这类前沿模型组织起来像一个总导演一样把不同任务分给不同模型再把结果整合成一个答案。如果官方基准成绩可信Fugu 在部分编码任务上的表现非常靠前甚至能压过不少顶级模型。于是问题来了一个靠“模型编排”工作的AI系统真的能比单个最强模型更强吗最近YouTube上的一位科技博主Bijan Bowen做了一轮实测。他没有只看跑分也没有只复述官方说法而是把 Fugu 放进自己常用的测试体系里连续跑了网页应用、3D 场景、小游戏、视觉还原、前端设计和飞行模拟等任务。测试之后他给出的判断相当克制Fugu 很有意思但现在还没有证明自己能稳定超过 GPT 或 Claude 单独出手。Fugu到底是什么一个会“指挥模型”的模型Sakana Fugu 这个项目主要由公司 CEO David Ha 与联合创始人 Llion Jones 主导。值得一提的是Llion Jones 还是Transformer 架构的奠基之作《Attention Is All You Need》的共同作者之一可以说 Fugu 从诞生之初就带着浓厚的技术基因。按照 Sakana 的介绍Fugu 更像一个“模型路由与编排系统”。用户表面上只是在调用 Fugu实际上系统内部可能会调用多个前沿模型参与任务包括 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 等。Fugu 自己也不是空壳。它有一套训练出来的调度能力可以判断用户任务需要哪些模型参与给不同模型安排什么角色中间结果怎样验证和合并最终再生成一个统一答案。这个思路很像一个AI项目经理它不一定亲自完成每一个细节但它要知道谁适合写代码谁适合做视觉谁适合补充推理最后把多人协作变成一个完整成品。为了验证这个思路他分别测试了普通版 Fugu 和更强的 Fugu Ultra High。前者用于第一个任务后续更复杂的任务基本都交给更贵的 Ultra 版本。第一轮普通Fugu做了一个“浏览器OS”第一个任务是让 Fugu 生成一个类似浏览器操作系统的网页应用。里面要有桌面、窗口、应用、终端、笔记工具、壁纸工具还要包含一个类似 GTA 的小游戏。普通版 Fugu 大约 6 分钟完成任务。费用也不高从原来的 4 美分涨到 9 美分整个任务大约花了 5 美分。生成结果属于可用级别。界面完整有应用图标有窗口交互也有一个能开的小游戏。小车可以移动地图里有建筑、警车、漂浮现金捡到现金后还会弹出提示。建筑虽然是透明的但也设置了碰撞体车不会直接穿过去。另一个“时间胶囊”功能也能保存窗口状态再恢复出来。这轮测试给人的第一印象是Fugu 的完成度不错至少没有明显翻车。但他也发现了一个有趣细节。这个界面的视觉风格非常像 GPT-5.x 系列背景渐变、窗口设计、UI结构都有明显的“GPT味”。这意味着Fugu 背后的编排很可能会让某些底层模型的风格渗出来。第二轮Fugu Ultra做3D地铁站干净但不惊艳第二个任务开始Bowen切换到 Fugu Ultra High。这个版本强调更高质量、更深编排也意味着更高费用和更长等待时间。他先让 Fugu Ultra 生成一个精致的 3D 地铁站场景。结果里有站台、轨道、长椅、标识、灯光、垃圾桶甚至还出现了交通锥。整体空间结构比较合理元素摆放也符合真实地铁站的基本逻辑。从完成度看这个结果不差。场景能运行移动也流畅空间布局清楚没有出现严重混乱。但如果把它放在“高端AI模型评测”的语境里它就显得有些保守。材质不够丰富氛围不够强细节也没有特别出彩的地方。Bowen用的评价很直接它很干净也很有序但没有让人“哇”的时刻。更现实的问题是成本。由于模型在后期不断尝试截图和检查结果这个任务费用从 9 美分涨到了 3.54 美元单次大约花了 3.45 美元。这个价格已经不适合随便试错。第三轮把地铁站改成射击游戏细节开始暴露接下来他要求 Fugu Ultra 在已有地铁站基础上继续改造把它变成一个第一人称射击游戏加入类僵尸敌人、武器、音效、奔跑和换弹机制。这次结果依然能跑。敌人有上臂、下臂、上腿、下腿造型不是简单方块。枪口闪光会映射到周围环境音效也有R键换弹、冲刺等基础交互都做了出来。这一轮说明 Fugu Ultra 确实有不错的工程执行能力。它能接住一个复杂的后续需求也能把静态场景改造成可玩的交互游戏。可问题还是出现在细节。他特别提到子弹打到环境上没有留下弹孔。这个细节听起来很小但在他长期做模型评测的体系里它是判断模型有没有“多做一步”的重要信号。很多顶级模型在类似任务中会主动补上弹孔、破坏痕迹、环境反馈等沉浸式细节。Fugu Ultra 做到了能玩但没有把游戏体验打磨到更高级。第四轮C滑板游戏合格但离顶级还有距离随后他又让 Fugu Ultra 写一个自包含的 C 滑板游戏。他还特意拒绝模型使用 Raylib 这类简化开发的库因为那会降低任务难度。这个任务花费明显更高。费用从 4.99 美元涨到 8.81 美元单次大约花了 3.82 美元。最终生成的游戏有海边木板路、商店、行人、棕榈树、海水、坡道和滑板动作。玩家可以移动、加速、跳跃也可以执行一些滑板动作。街道两侧的商店会循环出现比如 motel、donuts、records、diner、tattoo、surf、pizza 等画面元素算是完整。但它的缺点也很清楚。角色动作有些僵硬速度偏快部分坡道嵌进了商店动作表现不够自然。Bowen拿它和此前测试过的 Fable 5 结果相比认为它明显没有达到那个级别。这也是整轮测试里反复出现的感受Fugu Ultra 很少彻底失败但也很少真正惊艳。它像一个稳定的执行者能把任务完成到及格线以上却经常缺少顶级模型单独发挥时的细腻和灵气。第五轮照片还原3D模型Fugu开始“偷懒”为了测试视觉理解和空间还原能力他又给 Fugu Ultra 一个照片文件夹里面是一台复古小笔记本外壳的多角度照片。他要求模型根据这些图片生成一个 3D 复刻版本并且键盘要能点击。第一次生成的结果很有意思。模型抓住了图片里的颜色桌面、背景、笔记本色调都比较接近键盘也能响应输入。但问题在于它没有真正做成3D更像一个有立体错觉的 2.5D 纸片模型。他不满意又追加提示要求它必须做成真正的3D。第二次结果确实改进了笔记本可以旋转盖子可以关闭也保留了一些房间元素。只是键盘方向出现反转整体仍有瑕疵。这轮测试很能说明 Fugu Ultra 的一个习惯它能理解需求也能修正错误但在复杂视觉任务里容易先给出一个“看起来差不多”的方案。对于普通用户这也许已经够用对于严肃评测它就会被放大。横向对比手表官网暴露了核心差距最关键的一轮测试是高端手表品牌官网。他要求 Fugu Ultra 做一个精致的手表官网首页核心区域要有一个高端手表模型放在桌面上并做出类似 KeyShot 渲染的镜头环绕效果。为了对比他把同样提示词分别交给 GPT-5.5、Claude Opus 4.8 和 Gemini 3.1 Pro。Gemini 做了两个版本有一定3D感和反射效果但产品卡片里的模型质量一般。Claude 的表盘细节很漂亮产品卡片也有质感不过主视觉里的手表出现了半透明、漂浮等问题。Fugu Ultra 的结果看起来混合了多种模型风格导航有 GPT 味浅色布局又有一些 Claude 的感觉。手表本身做得不错秒针也在运动但核心问题再次出现它没有真正完成高质量 3D 手表更像 2.5D 的视觉方案。最强结果来自 GPT-5.5 单独生成的版本。它做出了更完整的手表模型皮革表带有缝线表带孔位也做了出来产品卡片里还生成了不同材质的款式。虽然表盘方向仍有小瑕疵但整体完成度明显领先。这轮对比让Bowen的判断变得非常明确在这类复杂创造型任务里直接使用 GPT-5.5 或 Claude Opus可能比通过 Fugu Ultra 编排更便宜、更直接结果也更好。最后一轮飞行战斗模拟器没能扭转印象最后他又跑了一个飞行战斗模拟器任务。这个任务同样使用 Fugu Ultra。结果里有一些基本元素但整体表现没有达到预期。他认为如果单独调用那些可能被 Fugu 调度的底层模型效果大概率会更好。到测试结束时他一共充值了 40 美元整轮测试花掉 21.57 美元。除了第一个 browser OS 用普通 Fugu其余复杂任务基本都跑在 Fugu Ultra 上。考虑到多数结果只是“稳定完成”这个成本很难说有明显优势。模型编排有价值但Fugu还没打穿Bowen最终给出的判断其实很克制。Fugu 的技术路线值得关注。它代表了一种新形态用户不再直接选择某一个模型而是把任务交给一个智能调度系统由它决定调用谁、怎么分工、如何整合结果。随着模型越来越多这种“模型编排”很可能会成为AI应用的重要方向。但至少在这次测试里Fugu Ultra 还没有证明自己能稳定超过单个顶级模型。它比 OpenRouter Fusion 这类编排方案表现更好任务完成度更高也更稳定。可一旦进入复杂网页、3D、游戏、视觉还原等任务它经常停留在“干净、完整、能用”的层面。OpenRouter Fusion 可以理解为更早一批“模型融合”尝试。它的思路同样不是让用户只依赖某一个模型而是试图在多个模型之间做选择和组合让系统自动找到更合适的回答路径。听起来这和 Fugu 很接近但实际体验里两者的差别很明显。OpenRouter Fusion 更像是在模型之间做一次相对简单的路由某些特定任务可能会有亮点但整体稳定性和复杂任务的交付质量并不算突出。Fugu 的进步在于它不只是把请求转交给某个模型而是围绕任务搭建一个更复杂的协作框架让不同模型承担不同角色再由系统综合输出结果。所以在这次测试里Fugu 至少证明了自己比 OpenRouter Fusion 更像一个真正的“模型编排系统”。然而相比之下GPT-5.5 或 Claude Opus 单独出手反而更容易做出有细节、有风格、有完成度的结果。至顶AI实验室洞察这次测试真正提醒人的地方在于AI系统强不强不能只看它背后调度了多少模型也不能只看官方基准成绩。真正的判断标准还是具体任务里的成品质量、交互细节、成本和稳定性。Fugu 像是一个提前露面的新物种。它展示了模型编排的未来形状也暴露了今天这条路线的现实限制。对于开发者和内容创作者来说它值得观察但现在还没到可以替代 GPT-5.5、Claude Opus 这类顶级模型的程度。END本文来自至顶AI实验室一个专注于对AI计算机、工作站及各类AI相关硬件设备开展基于真实使用场景评测的研究机构。‍

Xiaomi MiMo 开放平台，邀请码白嫖

Xiaomi MiMo 开放平台，邀请码 VTM8VP 我在用 MiMo 开放平台，体验小米顶尖模型 MiMo V2.5 等。通过我的邀请码注册：双方各得 10 API 体验金首单 9 折。邀请码：VTM8VP。注册：https://platform.xiaomimimo.com?refVTM8…

2026/6/25 13:33:13 阅读更多

如何用AI把一段demo续写成完整歌曲

一、开篇很多创作者都会先随手录一段哼唱demo、几句钢琴动机或是半段副歌旋律，但不懂完整编曲结构、不会拓展桥段与主歌，小段灵感很难延伸成完整可发布的歌曲。市面上不少AI工具续写能力参差不齐，有的会直接改掉demo原本的核心旋律&#xff0…

2026/6/25 13:32:53 阅读更多

基于诊断抗体开发的蛋白检测技术研究

摘要：蛋白检测是生命科学研究与临床诊断的核心环节，其特异性和灵敏度高度依赖于所使用的诊断抗体。本文系统阐述了基于诊断抗体开发的关键蛋白检测技术，重点分析了抗体制备与表征、检测体系构建以及技术应用逻辑，并对未来发展趋势…

2026/6/25 13:32:53 阅读更多

进程的栈大小限制

ulimit -s 查出的结果是当前 Shell 进程的栈大小限制，单位是 KB（千字节）。📊 典型输出值bash$ ulimit -s 8192这表示栈大小限制为 8 MB（8192 KB）。不同系统默认值不同：Linux：通常是 …

2026/6/25 14:50:16 阅读更多

终极指南：如何用League Akari自动化英雄联盟客户端，提升游戏效率3倍

终极指南：如何用League Akari自动化英雄联盟客户端，提升游戏效率3倍【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit Le…

2026/6/25 14:49:15 阅读更多

生成式AI实操入门：8小时建立人机协作肌肉记忆

1. 项目概述：这不是速成课，而是一份“生成式AI操作手册”的雏形“#TAI 135: Introducing the 8-Hour Generative AI Primer”——这个标题里藏着一个被严重低估的信号：它不是又一门泛泛而谈的AI通识课，而是一次针对真实工作流的“…

2026/6/25 14:48:32 阅读更多

VSCode 提交大量文件卡顿，我是这么排查和解决的

不知道你有没有遇到过这种情况：在 VSCode 里改了一堆文件，点个提交按钮，界面直接卡死，或者得等上几分钟才有反应。项目规模稍微大一点，碰到这个问题的概率就高很多。下面记录一下我平时处理这类卡顿的排查顺序和改动点…

2026/6/25 14:48:12 阅读更多

[Android MVVM 架构笔记] 基于 Kotlin 类委托与系统级安全扩展的全局 Loading 方案

在实际项目开发中，像“收藏、删除、分享、修改”这类由用户点击按钮触发的异步网络操作，在架构上被称为操作性动作（Action Operations）。本方案遵循 “单一职责原则”、“组合优于继承” 以及 “编译期绝对安全” 的原则，将 Loading 业务完全从基类中剥离，利用 Kotlin类…

2026/6/25 14:47:31 阅读更多

解密FanControl风扇调校：从电脑噪音到静音高手的完美蜕变

解密FanControl风扇调校：从电脑噪音到静音高手的完美蜕变【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending…

2026/6/25 14:47:31 阅读更多

面试辅助工具横评：我试了5款AI面试工具，最后留下了OfferGo

上半年跳槽，面了十几家公司。说句实话，不是能力不行，是面试现场太容易崩了。明明准备了一周，面试官换个问法脑子就一片白。面完之后那个懊悔——其实我会的。后来开始试市面上的AI面试辅助工具。前前后后装了5款，踩…

2026/6/25 11:52:18 阅读更多

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

MONKEYCODE 教程系列 MonkeyCode教程及推广系列 MC-037 自定义 Skill 开发：创建你的AI能力模块 >官网链接注册更放心哦https://monkeycode-ai.com/?ic019e0aed-c823-783c-b08a-4f030f891e4e 系列: 不爱土豆唯爱马铃薯 MonkeyCode 教程系列字数: 约 1400 字…

2026/6/25 11:52:18 阅读更多

PEER模型：多模型协作范式的工程化实践指南

1. 项目概述：这不是又一个大模型，而是一次协作范式的重构 “META’s PEER: A Collaborative Language Model”这个标题里藏着一个被多数人忽略的关键词—— Collaborative （协作）。它不是在说“模型更大了”“参数更多了”“训练…

2026/6/25 11:54:48 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/25 1:04:34 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/25 1:04:45 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 1:04:41 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/25 12:27:19 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/25 12:27:19 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/25 12:27:19 阅读更多

相关文章

Xiaomi MiMo 开放平台，邀请码白嫖

如何用AI把一段demo续写成完整歌曲

基于诊断抗体开发的蛋白检测技术研究

进程的栈大小限制

终极指南：如何用League Akari自动化英雄联盟客户端，提升游戏效率3倍

生成式AI实操入门：8小时建立人机协作肌肉记忆

VSCode 提交大量文件卡顿，我是这么排查和解决的

[Android MVVM 架构笔记] 基于 Kotlin 类委托与系统级安全扩展的全局 Loading 方案

解密FanControl风扇调校：从电脑噪音到静音高手的完美蜕变

面试辅助工具横评：我试了5款AI面试工具，最后留下了OfferGo

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

PEER模型：多模型协作范式的工程化实践指南

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因