Vision Banana：图像生成器也是通用视觉学习器？

发布时间：2026/6/27 6:17:10

论文Image Generators are Generalist Vision Learners项目页vision-banana.github.io arXiv2604.203291. 一句话总结Vision Banana 的核心观点很直接也很有冲击力强大的图像生成模型不只是会“画图”它在生成预训练中已经学到了可迁移的视觉理解能力只要用少量视觉任务数据做 instruction tuning并把各种视觉任务统一成“生成可解码 RGB 图像”就能在分割、深度、表面法线等任务上逼近甚至超过专门模型。这篇论文之所以火是因为它把计算机视觉里长期分开的两条线重新接上了一条是图像生成另一条是视觉理解。过去我们通常认为生成模型负责合成图片SAM、Depth Anything、Lotus 等专门模型负责理解图片而 Vision Banana 试图证明未来可能会出现类似 LLM 的视觉基础模型范式用生成式预训练获得通用能力再通过指令对齐把能力释放到不同任务上。2. 背景为什么这件事重要近年来视觉生成模型已经能生成高保真、强语义控制、复杂结构一致的图像和视频。直觉上如果一个模型能画出“一个人在雨夜街头撑伞、地面反光、远处车灯虚化”的场景它似乎应该理解物体、空间、遮挡、材质和语义关系。但在主流视觉理解任务中领先方法仍然多来自判别式或任务专用路线例如语义/实例/开放词汇分割SAM 系列、DINO-X、OWLv2 等。深度估计Depth Anything、Depth Pro、MoGe、UniK3D 等。表面法线估计Lotus、Marigold、StableNormal 等。此前也有工作观察到扩散模型或图像生成器内部存在语义、深度、法线等隐式表征但这些能力往往难以稳定输出到标准评测格式或者需要改模型结构、加任务头、做全量微调从而牺牲生成模型原本的通用性。Vision Banana 的问题意识是能不能像 LLM 一样把图像生成模型当作“视觉基座模型”再通过轻量 instruction tuning 让它按任务要求输出可评测结果3. 方法把视觉理解任务改写成图像生成Vision Banana 基于 Google 的图像生成模型Nano Banana Pro。论文没有提出一个复杂的新网络结构而是采用一种很“LLM 化”的范式保留原始图像生成训练数据混合。以很低比例混入视觉任务数据。用自然语言提示模型生成特定格式的 RGB 图像。再把生成的 RGB 图像解析回标准视觉任务输出。换句话说它不是让模型输出类别 ID、mask 张量或深度数组而是让模型生成一张“看起来像任务可视化结果”的图片。例如语义分割生成每个类别对应固定颜色的分割图。实例分割生成多色 mask再通过聚类解析不同实例。指代表达分割根据自然语言描述把目标区域渲染成指定颜色。深度估计生成一张伪彩色深度图再通过可逆颜色映射还原为米制深度。表面法线把法线向量的 x、y、z 分量直接映射到 RGB 通道。这个设计的关键不是“可视化”本身而是可逆和可评测。生成出来的 RGB 图必须能被稳定解码回标准 benchmark 所需的 mask、depth map 或 normal map否则就只能停留在 qualitative demo不能证明模型真的达到 SOTA 水平。4. 技术细节RGB 作为统一输出接口论文最有意思的地方是把不同视觉任务都塞进 RGB 图像这个统一接口里。4.1 分割任务对于语义分割和指代表达分割模型被提示生成指定颜色的 mask。比如某个类别或目标区域用纯黄色背景用黑色。评测时只需要在 RGB 空间中找到接近目标颜色的像素就能解析出 mask。对于实例分割问题更复杂因为同一类别可能有多个实例。论文使用多阶段聚类算法解析生成图包括背景识别、颜色相似分组、噪声剔除、边界伪影处理、空间约束合并等步骤。也就是说实例分割并不是“生成完就直接得分”中间还有较重的后处理。4.2 深度估计深度估计要求输出真实物理距离范围是[0, ∞)而 RGB 只有有限颜色空间。论文设计了一个从米制深度到 RGB 的可逆映射先用 Barron power transform 对深度做非线性压缩让近处深度更精细。再沿 RGB 立方体边缘构造伪彩色映射。推理时把生成的 RGB 图投影回颜色路径再反变换得到米制深度。论文强调Vision Banana 在深度预测时不使用相机内参或外参依靠图像生成预训练获得的世界知识和物体尺度先验来恢复绝对尺度。4.3 表面法线表面法线天然适合 RGB 表示。论文采用相机坐标系下的法线向量(x, y, z)把三个分量映射到 RGB。这样模型生成的 normal map 可以直接解码成每个像素的单位法线向量。5. 实验结果概览论文覆盖了 2D 理解、3D 理解和生成能力保留三个方向。5.1 2D 视觉理解在 2D 任务上Vision Banana 主要评测语义分割、实例分割和指代表达分割。任务BenchmarkVision Banana对比对象语义分割Cityscapes val mIoU69.9SAM 3 为 65.2实例分割SA-Co/Gold cgF147.5OWLv2 为 24.6指代表达分割RefCOCOg UMD val cIoU73.8SAM 3 Agent 为 73.4推理型指代表达分割ReasonSeg val gIoU79.3SAM 3 Agent 为 77.0需要注意两个细节在 SA-Co/Gold 实例分割中Vision Banana 搭配了 Gemini 3.1 Flash-Lite 做目标是否存在的判断然后再让 Vision Banana 生成 mask。在 ReasonSeg 中复杂推理查询先由 Gemini 2.5 Pro 转写成更适合分割的描述再交给 Vision Banana。因此它的成绩展示了生成式视觉基座的强能力但部分 pipeline 不是纯 Vision Banana 单模型完成。5.2 3D 视觉理解在单目深度估计中论文报告 Vision Banana 在六个公共数据集上的平均δ1为 0.882。与 Depth Anything V3 对齐的四个数据集上Vision Banana 平均δ1为 0.929高于 Depth Anything V3 的 0.918。论文还强调其深度训练数据来自仿真合成数据没有使用评测数据集训练集也不依赖相机参数。在表面法线估计中Vision Banana 在 NYUv2、DIODE indoor、ScanNet 三个室内数据集平均上取得最低 mean/median angular error并在 Virtual KITTI 这类室外数据上保持竞争力。总体平均 mean angle error 为 18.928优于论文对比中的 Lotus-2 19.642。5.3 生成能力是否被破坏论文很重视“不要把生成模型训成一个只会做 CV 任务的模型”。因此它用人类偏好评估比较 Vision Banana 和 Nano Banana Pro生成任务BenchmarkVision Banana 相对 Nano Banana Pro文生图GenAI-Bench53.5% win rate图像编辑ImgEdit47.8% win rate这个结果说明轻量 instruction tuning 没有明显破坏原本的图像生成能力。换句话说Vision Banana 不是一个“拿生成器改造成的分割器”而更像一个仍然会生成、同时会做视觉理解的通用模型。6. 主要贡献第一论文提出并实证了一个强命题图像生成预训练可以扮演类似语言模型预训练的角色成为视觉理解的通用预训练方式。这比“生成模型里有一些可探测的语义特征”更进一步因为它在多个标准视觉 benchmark 上给出了可量化结果。第二论文把 RGB 图像作为视觉任务的统一输出空间。这个接口很朴素但很有扩展潜力只要任务输出能编码成图像就可以被纳入同一个生成模型和同一套自然语言提示框架。第三Vision Banana 在多任务上使用共享权重只靠 prompt 切换任务。这与传统 CV 里每个任务定制模型结构、损失函数、输出头的路线形成鲜明对比。第四论文展示了生成能力与理解能力可以共存。它通过混入原生成数据进行低比例视觉任务 instruction tuning避免灾难性遗忘。7. 值得警惕的局限这篇论文很亮眼但不能只看标题级结论。首先底座 Nano Banana Pro 是闭源/内部模型训练数据、模型规模、训练细节、成本都不透明。这让外部研究者很难复现也很难判断成功来自范式本身、模型规模、私有数据还是三者叠加。其次部分结果依赖额外 MLLM。比如实例分割中的存在性判断、ReasonSeg 中的复杂语言推理都借助 Gemini 系列模型完成。这不削弱 Vision Banana 的视觉生成式输出能力但在比较“单模型通用视觉能力”时需要分清 pipeline 边界。第三RGB 统一接口优雅但也有代价。生成图像再解码会引入颜色漂移、边界伪影、解析阈值、聚类后处理等问题。对于工业部署或高精度几何任务这种输出路径可能不如直接回归张量稳定。第四推理成本可能很高。论文也承认调用大型图像生成器做分割或深度估计比运行轻量专门模型昂贵得多。Vision Banana 更像是范式验证和未来方向而不是马上替代所有专门 CV 模型的工程方案。第五评测任务仍集中在单目图像的基础 2D/3D 理解。视频、多视角、时序一致性、交互式视觉推理、开放世界持续学习等方向还没有充分验证。第六它并没有在所有维度上打败所有专门模型。比如 Cityscapes 上非零样本迁移的 SegMan-L mIoU 仍高很多SA-Co/Gold 中使用 SA-Co 训练过的 SAM 3 Llama 方案也更强。论文真正强调的是 zero-shot transfer 和通用性而不是每个封闭任务上的绝对最强。8. 与现有视觉范式的关系Vision Banana 可以被看作三类趋势的交汇生成式视觉预训练从“生成图片”走向“学习世界模型/视觉表征”。统一多任务接口类似 Unified-IO、Pix2Seq、InstructCV 等路线把任务输出格式统一化。LLM 式 instruction tuning不再为每个任务大改结构而是通过提示和少量对齐数据释放能力。它最像 LLM 时代的一个视觉类比GPT 的预训练目标是预测文本但 instruction tuning 后可以回答问题、写代码、做推理Vision Banana 的预训练目标是生成图像但 instruction tuning 后可以生成分割图、深度图、法线图并通过解码参与标准评测。9. 影响与启发如果这条路线继续成立计算机视觉模型的形态可能会发生几件变化。首先视觉任务的工程边界会变模糊。分割、深度、法线、编辑、合成不再是完全不同模型而可能是同一生成式视觉基座的不同输出模式。其次数据标注需求可能改变。专门模型通常需要大量任务标注而 Vision Banana 暗示大规模生成预训练已经学到很多结构性知识后续只需要少量任务数据教会模型“按格式回答”。第三多模态模型可能更自然地融合视觉生成、视觉理解和语言推理。比如“找出图中最可能被遮挡的危险物体并生成对应分割图”这类任务传统 pipeline 需要多个模块而生成式统一接口可能更顺滑。第四视觉 benchmark 的设计也可能被影响。未来评测不只看模型是否能输出张量还要看它是否能根据自然语言指令切换输出格式、解释输出、处理歧义和多模态上下文。10. 我的评价Vision Banana 是一篇“范式感”很强的论文。它的技术手段并不花哨低比例混合视觉任务数据、输出 RGB 可视化、再解析回标准答案。但它抓住了一个大问题生成模型到底只是会拟合图片分布还是在学习可迁移的视觉世界模型从实验看它给出了相当有力的证据。尤其是单目 metric depth 不用相机参数、只用合成深度数据却能在真实数据集上达到强结果这一点很值得关注。它说明强生成模型内部可能已经形成了丰富的尺度、空间和物体先验。不过这篇论文也更像一个高势能信号而不是最终答案。由于底座模型和数据不开放外部社区还需要在开源生成模型上复现类似结论才能判断“图像生成器是通用视觉学习器”到底是普遍规律还是顶级闭源模型规模下才出现的现象。总体而言Vision Banana 值得重点跟进。它不会立刻让 SAM、Depth Anything、Lotus 这类专门模型失去价值但它很可能推动大家重新思考视觉基础模型的主训练目标未来的通用视觉模型也许不再是“先理解再生成”而是通过生成学会理解。11. 后续可关注问题开源图像生成模型能否复现 Vision Banana 的多任务 SOTA 现象RGB 输出接口能否扩展到光流、姿态、3D 重建、视频跟踪、多视角一致性等更复杂任务是否可以减少后处理让生成结果更稳定、可校准、可置信度估计如何降低图像生成器执行视觉理解任务的推理成本生成式视觉基座与 LLM/MLLM 的职责边界应该如何划分benchmark 是否需要区分“单模型能力”和“LLM 生成式视觉模型 pipeline 能力”

园区数字化转型：四个方向，一套“国标答案”

文|方寸产研当前，人工智能、大模型、具身智能等新技术一日千里，工业园区作为我国工业发展的核心载体，正站在一个不得不变、不变则退的历史关口。近日，工业和信息化部明确了推进园区数字化转型的四大方向——产业数字化转型、园区数…

2026/6/27 6:17:10 阅读更多

TVA在物理AI领域的决定性意义（9）

前沿技术介绍：AI智能体视觉（TVA，Transformer-based Vision Agent）是依托Transformer架构与“因式智能体”理论所构建的颠覆性工业视觉技术，属于“物理AI” 领域的一种全新技术形态，完成了从“虚拟世界”到“…

2026/6/27 6:16:09 阅读更多

Java面试-04-Java多线程与并发

Java多线程与并发面试题目录 1. 创建线程的方式2. 线程生命周期（6大状态）3. 线程池 3.1 创建线程池的方式3.2 为什么不建议用Executors创建线程池3.3 线程池的核心参数3.4 线程池的执行原理3.5 任务类型特点与线程数分配3.6 submit与execute的区别3.7…

2026/6/27 6:15:49 阅读更多

跨境电商的热门数码消费品怎样？亚马逊消费电子品类攻略

跨境 3C 数码一直是亚马逊平台流量与销售额双高的核心赛道，近期亚马逊官方推出专属消费电子运营指导手册，完整拆解海外消费者选购偏好、细分赛道增长机遇，同时给出合规落地、供应链匹配、品牌打造全套实操方案。本文结合美、欧、日三大核心站…

2026/6/27 7:57:10 阅读更多

密码学完整理论知识详解｜古典密码 / 对称 / 非对称 / PKI 全体系梳理

文章摘要本文完整梳理密码学全套核心理论知识，覆盖古典密码、对称分组密码、非对称公钥密码、密钥交换、CRT、数字签名、PKI 数字证书、Shamir 门限秘密共享全模块，适合计算机专业学习、网络安全面试、密码学入门阅读。密码体制基础分类对称密码与…

2026/6/27 7:56:29 阅读更多

邢台去天津打工机构对比评测与风险揭示之天津鸿泰劳务

一、资质实力对比：筑牢可靠根基在邢台去天津打工的众多机构中，资质是衡量其合法性与可靠性的重要基石。首先看那些资质不全的邢台去天津打工公司，它们往往在证照办理上存在缺失，可能没有完整的劳务输出相关许可证，这就…

2026/6/27 7:56:09 阅读更多

433/315MHz无线通讯发射芯片 XL4456，简单易用、高性能的射频IC

XL4456是一款专为315MHz和433MHz频段设计的低功耗、高性能无线发射芯片。它的核心作用是把数字信号转换成无线电波发射出去，常用于各种遥控器和无线传感器。芯片内部集成了PLL（频率合成器）和PA（功率放大器）&#xff0c…

2026/6/27 7:55:49 阅读更多

认知神经科学研究报告【20260100】

文章目录A Three-Enzyme Memory-Augmented Transformer for Phase-Invariant Waveform ClassificationAbstract1. Introduction2. Proposed Method2.1 Problem Formulation2.2 Model Architecture2.3 Optimization Strategy: "Three Learning Rates"3. Experiments3.…

2026/6/27 7:55:49 阅读更多

统信程序（十五）bin文件启动免提示及其自启动

python打包的bin等文件，在统信中每次运行都有选择提示，让你判断是在终端中运行，还是直接运行（安全中心中打开允许任意应用也不行）。用维护服务器的思维让你用，时间长了你会想起windows的便捷。为了所见即所…

2026/6/27 7:55:29 阅读更多

千问AI眼镜：阿里AI战略急先锋，能否在激烈竞争中突围？

千问眼镜：销量第一背后的挑战不久前，不少第三方统计机构给千问背书，甚至给出全国销量第一的统计结果。这个第一的含金量有多高？暂且先打个问号。但这些榜单至少说明，千问眼镜延续了阿里AI战略整体偏激进的风格&#xf…

2026/6/27 0:01:13 阅读更多

Tomcat中X-Frame-Options配置实战：防御点击劫持的四种方法与最佳实践

1. 项目概述：为什么X-Frame-Options是Web安全的“防盗门”？最近在排查一个老项目的安全审计报告时，又被提到了“点击劫持”风险，矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了，很多开发团队，尤…

2026/6/27 0:01:34 阅读更多

10分钟AI语音克隆与实时变声：Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声：Retrieval-based-Voice-Conversion-WebUI完整指南【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:02 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/27 1:16:50 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/27 1:16:49 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/27 1:16:48 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/26 12:42:30 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…