论文Image Generators are Generalist Vision Learners项目页vision-banana.github.io arXiv2604.203291. 一句话总结Vision Banana 的核心观点很直接也很有冲击力强大的图像生成模型不只是会“画图”它在生成预训练中已经学到了可迁移的视觉理解能力只要用少量视觉任务数据做 instruction tuning并把各种视觉任务统一成“生成可解码 RGB 图像”就能在分割、深度、表面法线等任务上逼近甚至超过专门模型。这篇论文之所以火是因为它把计算机视觉里长期分开的两条线重新接上了一条是图像生成另一条是视觉理解。过去我们通常认为生成模型负责合成图片SAM、Depth Anything、Lotus 等专门模型负责理解图片而 Vision Banana 试图证明未来可能会出现类似 LLM 的视觉基础模型范式用生成式预训练获得通用能力再通过指令对齐把能力释放到不同任务上。2. 背景为什么这件事重要近年来视觉生成模型已经能生成高保真、强语义控制、复杂结构一致的图像和视频。直觉上如果一个模型能画出“一个人在雨夜街头撑伞、地面反光、远处车灯虚化”的场景它似乎应该理解物体、空间、遮挡、材质和语义关系。但在主流视觉理解任务中领先方法仍然多来自判别式或任务专用路线例如语义/实例/开放词汇分割SAM 系列、DINO-X、OWLv2 等。深度估计Depth Anything、Depth Pro、MoGe、UniK3D 等。表面法线估计Lotus、Marigold、StableNormal 等。此前也有工作观察到扩散模型或图像生成器内部存在语义、深度、法线等隐式表征但这些能力往往难以稳定输出到标准评测格式或者需要改模型结构、加任务头、做全量微调从而牺牲生成模型原本的通用性。Vision Banana 的问题意识是能不能像 LLM 一样把图像生成模型当作“视觉基座模型”再通过轻量 instruction tuning 让它按任务要求输出可评测结果3. 方法把视觉理解任务改写成图像生成Vision Banana 基于 Google 的图像生成模型Nano Banana Pro。论文没有提出一个复杂的新网络结构而是采用一种很“LLM 化”的范式保留原始图像生成训练数据混合。以很低比例混入视觉任务数据。用自然语言提示模型生成特定格式的 RGB 图像。再把生成的 RGB 图像解析回标准视觉任务输出。换句话说它不是让模型输出类别 ID、mask 张量或深度数组而是让模型生成一张“看起来像任务可视化结果”的图片。例如语义分割生成每个类别对应固定颜色的分割图。实例分割生成多色 mask再通过聚类解析不同实例。指代表达分割根据自然语言描述把目标区域渲染成指定颜色。深度估计生成一张伪彩色深度图再通过可逆颜色映射还原为米制深度。表面法线把法线向量的 x、y、z 分量直接映射到 RGB 通道。这个设计的关键不是“可视化”本身而是可逆和可评测。生成出来的 RGB 图必须能被稳定解码回标准 benchmark 所需的 mask、depth map 或 normal map否则就只能停留在 qualitative demo不能证明模型真的达到 SOTA 水平。4. 技术细节RGB 作为统一输出接口论文最有意思的地方是把不同视觉任务都塞进 RGB 图像这个统一接口里。4.1 分割任务对于语义分割和指代表达分割模型被提示生成指定颜色的 mask。比如某个类别或目标区域用纯黄色背景用黑色。评测时只需要在 RGB 空间中找到接近目标颜色的像素就能解析出 mask。对于实例分割问题更复杂因为同一类别可能有多个实例。论文使用多阶段聚类算法解析生成图包括背景识别、颜色相似分组、噪声剔除、边界伪影处理、空间约束合并等步骤。也就是说实例分割并不是“生成完就直接得分”中间还有较重的后处理。4.2 深度估计深度估计要求输出真实物理距离范围是[0, ∞)而 RGB 只有有限颜色空间。论文设计了一个从米制深度到 RGB 的可逆映射先用 Barron power transform 对深度做非线性压缩让近处深度更精细。再沿 RGB 立方体边缘构造伪彩色映射。推理时把生成的 RGB 图投影回颜色路径再反变换得到米制深度。论文强调Vision Banana 在深度预测时不使用相机内参或外参依靠图像生成预训练获得的世界知识和物体尺度先验来恢复绝对尺度。4.3 表面法线表面法线天然适合 RGB 表示。论文采用相机坐标系下的法线向量(x, y, z)把三个分量映射到 RGB。这样模型生成的 normal map 可以直接解码成每个像素的单位法线向量。5. 实验结果概览论文覆盖了 2D 理解、3D 理解和生成能力保留三个方向。5.1 2D 视觉理解在 2D 任务上Vision Banana 主要评测语义分割、实例分割和指代表达分割。任务BenchmarkVision Banana对比对象语义分割Cityscapes val mIoU69.9SAM 3 为 65.2实例分割SA-Co/Gold cgF147.5OWLv2 为 24.6指代表达分割RefCOCOg UMD val cIoU73.8SAM 3 Agent 为 73.4推理型指代表达分割ReasonSeg val gIoU79.3SAM 3 Agent 为 77.0需要注意两个细节在 SA-Co/Gold 实例分割中Vision Banana 搭配了 Gemini 3.1 Flash-Lite 做目标是否存在的判断然后再让 Vision Banana 生成 mask。在 ReasonSeg 中复杂推理查询先由 Gemini 2.5 Pro 转写成更适合分割的描述再交给 Vision Banana。因此它的成绩展示了生成式视觉基座的强能力但部分 pipeline 不是纯 Vision Banana 单模型完成。5.2 3D 视觉理解在单目深度估计中论文报告 Vision Banana 在六个公共数据集上的平均δ1为 0.882。与 Depth Anything V3 对齐的四个数据集上Vision Banana 平均δ1为 0.929高于 Depth Anything V3 的 0.918。论文还强调其深度训练数据来自仿真合成数据没有使用评测数据集训练集也不依赖相机参数。在表面法线估计中Vision Banana 在 NYUv2、DIODE indoor、ScanNet 三个室内数据集平均上取得最低 mean/median angular error并在 Virtual KITTI 这类室外数据上保持竞争力。总体平均 mean angle error 为 18.928优于论文对比中的 Lotus-2 19.642。5.3 生成能力是否被破坏论文很重视“不要把生成模型训成一个只会做 CV 任务的模型”。因此它用人类偏好评估比较 Vision Banana 和 Nano Banana Pro生成任务BenchmarkVision Banana 相对 Nano Banana Pro文生图GenAI-Bench53.5% win rate图像编辑ImgEdit47.8% win rate这个结果说明轻量 instruction tuning 没有明显破坏原本的图像生成能力。换句话说Vision Banana 不是一个“拿生成器改造成的分割器”而更像一个仍然会生成、同时会做视觉理解的通用模型。6. 主要贡献第一论文提出并实证了一个强命题图像生成预训练可以扮演类似语言模型预训练的角色成为视觉理解的通用预训练方式。这比“生成模型里有一些可探测的语义特征”更进一步因为它在多个标准视觉 benchmark 上给出了可量化结果。第二论文把 RGB 图像作为视觉任务的统一输出空间。这个接口很朴素但很有扩展潜力只要任务输出能编码成图像就可以被纳入同一个生成模型和同一套自然语言提示框架。第三Vision Banana 在多任务上使用共享权重只靠 prompt 切换任务。这与传统 CV 里每个任务定制模型结构、损失函数、输出头的路线形成鲜明对比。第四论文展示了生成能力与理解能力可以共存。它通过混入原生成数据进行低比例视觉任务 instruction tuning避免灾难性遗忘。7. 值得警惕的局限这篇论文很亮眼但不能只看标题级结论。首先底座 Nano Banana Pro 是闭源/内部模型训练数据、模型规模、训练细节、成本都不透明。这让外部研究者很难复现也很难判断成功来自范式本身、模型规模、私有数据还是三者叠加。其次部分结果依赖额外 MLLM。比如实例分割中的存在性判断、ReasonSeg 中的复杂语言推理都借助 Gemini 系列模型完成。这不削弱 Vision Banana 的视觉生成式输出能力但在比较“单模型通用视觉能力”时需要分清 pipeline 边界。第三RGB 统一接口优雅但也有代价。生成图像再解码会引入颜色漂移、边界伪影、解析阈值、聚类后处理等问题。对于工业部署或高精度几何任务这种输出路径可能不如直接回归张量稳定。第四推理成本可能很高。论文也承认调用大型图像生成器做分割或深度估计比运行轻量专门模型昂贵得多。Vision Banana 更像是范式验证和未来方向而不是马上替代所有专门 CV 模型的工程方案。第五评测任务仍集中在单目图像的基础 2D/3D 理解。视频、多视角、时序一致性、交互式视觉推理、开放世界持续学习等方向还没有充分验证。第六它并没有在所有维度上打败所有专门模型。比如 Cityscapes 上非零样本迁移的 SegMan-L mIoU 仍高很多SA-Co/Gold 中使用 SA-Co 训练过的 SAM 3 Llama 方案也更强。论文真正强调的是 zero-shot transfer 和通用性而不是每个封闭任务上的绝对最强。8. 与现有视觉范式的关系Vision Banana 可以被看作三类趋势的交汇生成式视觉预训练从“生成图片”走向“学习世界模型/视觉表征”。统一多任务接口类似 Unified-IO、Pix2Seq、InstructCV 等路线把任务输出格式统一化。LLM 式 instruction tuning不再为每个任务大改结构而是通过提示和少量对齐数据释放能力。它最像 LLM 时代的一个视觉类比GPT 的预训练目标是预测文本但 instruction tuning 后可以回答问题、写代码、做推理Vision Banana 的预训练目标是生成图像但 instruction tuning 后可以生成分割图、深度图、法线图并通过解码参与标准评测。9. 影响与启发如果这条路线继续成立计算机视觉模型的形态可能会发生几件变化。首先视觉任务的工程边界会变模糊。分割、深度、法线、编辑、合成不再是完全不同模型而可能是同一生成式视觉基座的不同输出模式。其次数据标注需求可能改变。专门模型通常需要大量任务标注而 Vision Banana 暗示大规模生成预训练已经学到很多结构性知识后续只需要少量任务数据教会模型“按格式回答”。第三多模态模型可能更自然地融合视觉生成、视觉理解和语言推理。比如“找出图中最可能被遮挡的危险物体并生成对应分割图”这类任务传统 pipeline 需要多个模块而生成式统一接口可能更顺滑。第四视觉 benchmark 的设计也可能被影响。未来评测不只看模型是否能输出张量还要看它是否能根据自然语言指令切换输出格式、解释输出、处理歧义和多模态上下文。10. 我的评价Vision Banana 是一篇“范式感”很强的论文。它的技术手段并不花哨低比例混合视觉任务数据、输出 RGB 可视化、再解析回标准答案。但它抓住了一个大问题生成模型到底只是会拟合图片分布还是在学习可迁移的视觉世界模型从实验看它给出了相当有力的证据。尤其是单目 metric depth 不用相机参数、只用合成深度数据却能在真实数据集上达到强结果这一点很值得关注。它说明强生成模型内部可能已经形成了丰富的尺度、空间和物体先验。不过这篇论文也更像一个高势能信号而不是最终答案。由于底座模型和数据不开放外部社区还需要在开源生成模型上复现类似结论才能判断“图像生成器是通用视觉学习器”到底是普遍规律还是顶级闭源模型规模下才出现的现象。总体而言Vision Banana 值得重点跟进。它不会立刻让 SAM、Depth Anything、Lotus 这类专门模型失去价值但它很可能推动大家重新思考视觉基础模型的主训练目标未来的通用视觉模型也许不再是“先理解再生成”而是通过生成学会理解。11. 后续可关注问题开源图像生成模型能否复现 Vision Banana 的多任务 SOTA 现象RGB 输出接口能否扩展到光流、姿态、3D 重建、视频跟踪、多视角一致性等更复杂任务是否可以减少后处理让生成结果更稳定、可校准、可置信度估计如何降低图像生成器执行视觉理解任务的推理成本生成式视觉基座与 LLM/MLLM 的职责边界应该如何划分benchmark 是否需要区分“单模型能力”和“LLM 生成式视觉模型 pipeline 能力”
Vision Banana:图像生成器也是通用视觉学习器?
发布时间:2026/6/27 6:17:10
论文Image Generators are Generalist Vision Learners项目页vision-banana.github.io arXiv2604.203291. 一句话总结Vision Banana 的核心观点很直接也很有冲击力强大的图像生成模型不只是会“画图”它在生成预训练中已经学到了可迁移的视觉理解能力只要用少量视觉任务数据做 instruction tuning并把各种视觉任务统一成“生成可解码 RGB 图像”就能在分割、深度、表面法线等任务上逼近甚至超过专门模型。这篇论文之所以火是因为它把计算机视觉里长期分开的两条线重新接上了一条是图像生成另一条是视觉理解。过去我们通常认为生成模型负责合成图片SAM、Depth Anything、Lotus 等专门模型负责理解图片而 Vision Banana 试图证明未来可能会出现类似 LLM 的视觉基础模型范式用生成式预训练获得通用能力再通过指令对齐把能力释放到不同任务上。2. 背景为什么这件事重要近年来视觉生成模型已经能生成高保真、强语义控制、复杂结构一致的图像和视频。直觉上如果一个模型能画出“一个人在雨夜街头撑伞、地面反光、远处车灯虚化”的场景它似乎应该理解物体、空间、遮挡、材质和语义关系。但在主流视觉理解任务中领先方法仍然多来自判别式或任务专用路线例如语义/实例/开放词汇分割SAM 系列、DINO-X、OWLv2 等。深度估计Depth Anything、Depth Pro、MoGe、UniK3D 等。表面法线估计Lotus、Marigold、StableNormal 等。此前也有工作观察到扩散模型或图像生成器内部存在语义、深度、法线等隐式表征但这些能力往往难以稳定输出到标准评测格式或者需要改模型结构、加任务头、做全量微调从而牺牲生成模型原本的通用性。Vision Banana 的问题意识是能不能像 LLM 一样把图像生成模型当作“视觉基座模型”再通过轻量 instruction tuning 让它按任务要求输出可评测结果3. 方法把视觉理解任务改写成图像生成Vision Banana 基于 Google 的图像生成模型Nano Banana Pro。论文没有提出一个复杂的新网络结构而是采用一种很“LLM 化”的范式保留原始图像生成训练数据混合。以很低比例混入视觉任务数据。用自然语言提示模型生成特定格式的 RGB 图像。再把生成的 RGB 图像解析回标准视觉任务输出。换句话说它不是让模型输出类别 ID、mask 张量或深度数组而是让模型生成一张“看起来像任务可视化结果”的图片。例如语义分割生成每个类别对应固定颜色的分割图。实例分割生成多色 mask再通过聚类解析不同实例。指代表达分割根据自然语言描述把目标区域渲染成指定颜色。深度估计生成一张伪彩色深度图再通过可逆颜色映射还原为米制深度。表面法线把法线向量的 x、y、z 分量直接映射到 RGB 通道。这个设计的关键不是“可视化”本身而是可逆和可评测。生成出来的 RGB 图必须能被稳定解码回标准 benchmark 所需的 mask、depth map 或 normal map否则就只能停留在 qualitative demo不能证明模型真的达到 SOTA 水平。4. 技术细节RGB 作为统一输出接口论文最有意思的地方是把不同视觉任务都塞进 RGB 图像这个统一接口里。4.1 分割任务对于语义分割和指代表达分割模型被提示生成指定颜色的 mask。比如某个类别或目标区域用纯黄色背景用黑色。评测时只需要在 RGB 空间中找到接近目标颜色的像素就能解析出 mask。对于实例分割问题更复杂因为同一类别可能有多个实例。论文使用多阶段聚类算法解析生成图包括背景识别、颜色相似分组、噪声剔除、边界伪影处理、空间约束合并等步骤。也就是说实例分割并不是“生成完就直接得分”中间还有较重的后处理。4.2 深度估计深度估计要求输出真实物理距离范围是[0, ∞)而 RGB 只有有限颜色空间。论文设计了一个从米制深度到 RGB 的可逆映射先用 Barron power transform 对深度做非线性压缩让近处深度更精细。再沿 RGB 立方体边缘构造伪彩色映射。推理时把生成的 RGB 图投影回颜色路径再反变换得到米制深度。论文强调Vision Banana 在深度预测时不使用相机内参或外参依靠图像生成预训练获得的世界知识和物体尺度先验来恢复绝对尺度。4.3 表面法线表面法线天然适合 RGB 表示。论文采用相机坐标系下的法线向量(x, y, z)把三个分量映射到 RGB。这样模型生成的 normal map 可以直接解码成每个像素的单位法线向量。5. 实验结果概览论文覆盖了 2D 理解、3D 理解和生成能力保留三个方向。5.1 2D 视觉理解在 2D 任务上Vision Banana 主要评测语义分割、实例分割和指代表达分割。任务BenchmarkVision Banana对比对象语义分割Cityscapes val mIoU69.9SAM 3 为 65.2实例分割SA-Co/Gold cgF147.5OWLv2 为 24.6指代表达分割RefCOCOg UMD val cIoU73.8SAM 3 Agent 为 73.4推理型指代表达分割ReasonSeg val gIoU79.3SAM 3 Agent 为 77.0需要注意两个细节在 SA-Co/Gold 实例分割中Vision Banana 搭配了 Gemini 3.1 Flash-Lite 做目标是否存在的判断然后再让 Vision Banana 生成 mask。在 ReasonSeg 中复杂推理查询先由 Gemini 2.5 Pro 转写成更适合分割的描述再交给 Vision Banana。因此它的成绩展示了生成式视觉基座的强能力但部分 pipeline 不是纯 Vision Banana 单模型完成。5.2 3D 视觉理解在单目深度估计中论文报告 Vision Banana 在六个公共数据集上的平均δ1为 0.882。与 Depth Anything V3 对齐的四个数据集上Vision Banana 平均δ1为 0.929高于 Depth Anything V3 的 0.918。论文还强调其深度训练数据来自仿真合成数据没有使用评测数据集训练集也不依赖相机参数。在表面法线估计中Vision Banana 在 NYUv2、DIODE indoor、ScanNet 三个室内数据集平均上取得最低 mean/median angular error并在 Virtual KITTI 这类室外数据上保持竞争力。总体平均 mean angle error 为 18.928优于论文对比中的 Lotus-2 19.642。5.3 生成能力是否被破坏论文很重视“不要把生成模型训成一个只会做 CV 任务的模型”。因此它用人类偏好评估比较 Vision Banana 和 Nano Banana Pro生成任务BenchmarkVision Banana 相对 Nano Banana Pro文生图GenAI-Bench53.5% win rate图像编辑ImgEdit47.8% win rate这个结果说明轻量 instruction tuning 没有明显破坏原本的图像生成能力。换句话说Vision Banana 不是一个“拿生成器改造成的分割器”而更像一个仍然会生成、同时会做视觉理解的通用模型。6. 主要贡献第一论文提出并实证了一个强命题图像生成预训练可以扮演类似语言模型预训练的角色成为视觉理解的通用预训练方式。这比“生成模型里有一些可探测的语义特征”更进一步因为它在多个标准视觉 benchmark 上给出了可量化结果。第二论文把 RGB 图像作为视觉任务的统一输出空间。这个接口很朴素但很有扩展潜力只要任务输出能编码成图像就可以被纳入同一个生成模型和同一套自然语言提示框架。第三Vision Banana 在多任务上使用共享权重只靠 prompt 切换任务。这与传统 CV 里每个任务定制模型结构、损失函数、输出头的路线形成鲜明对比。第四论文展示了生成能力与理解能力可以共存。它通过混入原生成数据进行低比例视觉任务 instruction tuning避免灾难性遗忘。7. 值得警惕的局限这篇论文很亮眼但不能只看标题级结论。首先底座 Nano Banana Pro 是闭源/内部模型训练数据、模型规模、训练细节、成本都不透明。这让外部研究者很难复现也很难判断成功来自范式本身、模型规模、私有数据还是三者叠加。其次部分结果依赖额外 MLLM。比如实例分割中的存在性判断、ReasonSeg 中的复杂语言推理都借助 Gemini 系列模型完成。这不削弱 Vision Banana 的视觉生成式输出能力但在比较“单模型通用视觉能力”时需要分清 pipeline 边界。第三RGB 统一接口优雅但也有代价。生成图像再解码会引入颜色漂移、边界伪影、解析阈值、聚类后处理等问题。对于工业部署或高精度几何任务这种输出路径可能不如直接回归张量稳定。第四推理成本可能很高。论文也承认调用大型图像生成器做分割或深度估计比运行轻量专门模型昂贵得多。Vision Banana 更像是范式验证和未来方向而不是马上替代所有专门 CV 模型的工程方案。第五评测任务仍集中在单目图像的基础 2D/3D 理解。视频、多视角、时序一致性、交互式视觉推理、开放世界持续学习等方向还没有充分验证。第六它并没有在所有维度上打败所有专门模型。比如 Cityscapes 上非零样本迁移的 SegMan-L mIoU 仍高很多SA-Co/Gold 中使用 SA-Co 训练过的 SAM 3 Llama 方案也更强。论文真正强调的是 zero-shot transfer 和通用性而不是每个封闭任务上的绝对最强。8. 与现有视觉范式的关系Vision Banana 可以被看作三类趋势的交汇生成式视觉预训练从“生成图片”走向“学习世界模型/视觉表征”。统一多任务接口类似 Unified-IO、Pix2Seq、InstructCV 等路线把任务输出格式统一化。LLM 式 instruction tuning不再为每个任务大改结构而是通过提示和少量对齐数据释放能力。它最像 LLM 时代的一个视觉类比GPT 的预训练目标是预测文本但 instruction tuning 后可以回答问题、写代码、做推理Vision Banana 的预训练目标是生成图像但 instruction tuning 后可以生成分割图、深度图、法线图并通过解码参与标准评测。9. 影响与启发如果这条路线继续成立计算机视觉模型的形态可能会发生几件变化。首先视觉任务的工程边界会变模糊。分割、深度、法线、编辑、合成不再是完全不同模型而可能是同一生成式视觉基座的不同输出模式。其次数据标注需求可能改变。专门模型通常需要大量任务标注而 Vision Banana 暗示大规模生成预训练已经学到很多结构性知识后续只需要少量任务数据教会模型“按格式回答”。第三多模态模型可能更自然地融合视觉生成、视觉理解和语言推理。比如“找出图中最可能被遮挡的危险物体并生成对应分割图”这类任务传统 pipeline 需要多个模块而生成式统一接口可能更顺滑。第四视觉 benchmark 的设计也可能被影响。未来评测不只看模型是否能输出张量还要看它是否能根据自然语言指令切换输出格式、解释输出、处理歧义和多模态上下文。10. 我的评价Vision Banana 是一篇“范式感”很强的论文。它的技术手段并不花哨低比例混合视觉任务数据、输出 RGB 可视化、再解析回标准答案。但它抓住了一个大问题生成模型到底只是会拟合图片分布还是在学习可迁移的视觉世界模型从实验看它给出了相当有力的证据。尤其是单目 metric depth 不用相机参数、只用合成深度数据却能在真实数据集上达到强结果这一点很值得关注。它说明强生成模型内部可能已经形成了丰富的尺度、空间和物体先验。不过这篇论文也更像一个高势能信号而不是最终答案。由于底座模型和数据不开放外部社区还需要在开源生成模型上复现类似结论才能判断“图像生成器是通用视觉学习器”到底是普遍规律还是顶级闭源模型规模下才出现的现象。总体而言Vision Banana 值得重点跟进。它不会立刻让 SAM、Depth Anything、Lotus 这类专门模型失去价值但它很可能推动大家重新思考视觉基础模型的主训练目标未来的通用视觉模型也许不再是“先理解再生成”而是通过生成学会理解。11. 后续可关注问题开源图像生成模型能否复现 Vision Banana 的多任务 SOTA 现象RGB 输出接口能否扩展到光流、姿态、3D 重建、视频跟踪、多视角一致性等更复杂任务是否可以减少后处理让生成结果更稳定、可校准、可置信度估计如何降低图像生成器执行视觉理解任务的推理成本生成式视觉基座与 LLM/MLLM 的职责边界应该如何划分benchmark 是否需要区分“单模型能力”和“LLM 生成式视觉模型 pipeline 能力”