DualToken如何让模型理解自己画出来的东西？

发布时间：2026/6/24 3:16:35

依旧非常长的论文题目依旧底部给arxiv链接话说主包一直很喜欢看毕导漫士沉思录小Lin说这种风格的科普视频这种科普风格都有一种共同点就是不咋叠公式叠细节但是及其凝练让没有专业背景的人也能看懂其实理解了这个也就能理解今天所说的ViT层级特性也就是DualToken的核心了首先我们要明白一点目前的LLM看不懂图片你直接给LLM塞一张图片它只能看到一堆莫名其妙的RGB矩阵如果我们要做文生图或者图生文应该怎么做呢虽然LLM看不懂图片但是我们可以通过某种方式把一张图片从图像翻译成token就能让LLM“理解”图片了这个图像-token翻译官有一个名字叫Visual Tokenizer以下简称偷啃来者不同的偷啃来者处理图片的方法也是不同的主要有两个流派微操派微操派担大梁的是VQ-VAE。把一张图一刀一刀切成很多小patch生成的就是一串离散码本token就是会弄一本字典记不同的token对怎样的小patch它最擅长把一个图片尽可能的还原清楚。最擅长的是纹理颜色边缘清晰度等等特别细的细节宏观派宏观派主要是CLIP/SigLIP。拿着图片和文字训练它最擅长的就是比相似度看图文匹不匹配这种工作。看到这里读者应该差不多懂了微操派像无聊的课本事无巨细适合拿来做图像生成宏观派像科普视频适合拿来做真正的图像理解。那怎么才能让模型又会图像理解又会生成图像呢在此前主要有两种办法首先是直接正面硬刚一张网络训练两种目标VILA-U,MUSE-VL,QLIP等这种也是很拉的人本来就是水火不相容强行同时训练最后基本上是两头不讨好还有一种方法是东拼西凑干脆直接上两个模型然后再拿管道接起来这导致结构复杂不说LLM还要学两套视觉语言特征空间不一致速度也是很慢讲到这里我们先放一放讲一下图像识别的方法的演进在以前的时候我们做图像识别都是用的CNN网络比如ResNetVGG这些什么视觉人物都是靠的CNN图片分类目标检测图片分割等。。。在以前CV就是CNN但是2017年注意力机制魔童降世很快就把NLP领域搅成了浑水2020年有注意力特别集中的神人发现注意力似乎也可以拿来做图像分类呀于是伴随着一股强劲的BGMViT降生了很快就在图像分类领域和多模态领域把CNN绞杀了ViT的工作流程是首先把一整张图片切成很多小Patch比如16 * 16像素然后把它们映射成向量最后再送入Transformer慢慢拼凑出整体信息为什么我们讲着LLM的两种tokenizer突然跳到了ViT呢原来论文的灵珠作者注意到了一件事情ViT的比较浅的层数特别接近微操派的分token而比较深的层数就比较接近宏观派的分token了这就像你第一次打开一本三角函数速查表你看到了从1倍到3倍到无穷多倍的值你不断发动你的注意力并且一遍又一遍苦读后面你发现了诱导公式最后你终于发现了奇变偶不变符号看象限作者是通过观察1-26层的ViT不同的聚类发现这一现象的低层数偏好按色彩和纹理等分类比如金色的猫和金色的狗放一类高层数偏好按语义分类比如猫一类狗一类恭喜这就是论文提出的核心的解决方案现在我们只要训好一张ViT就能同时输出两种我们要的Token论文的核心设计就是准备两个码本一个是像素码本来自前四分之一层特征用来做生成然后是语义码本来自深层用来做图文版对齐同时两个任务要在不同层训练互不干扰。浅层就弄重建损失深层就做语义损失互相独立量化不共用和干扰最后加VQ两户损失保证不漂移最后把两套token送给大模型完美结语本论文rFID是0.25ImageNet零样本分类达到82%3B小模型优于7B模型

Responses WebSocket 协议详解：为什么它会让 Agent 工作流更快

WebSocket”。这个理解不算错，但也不够准确。真正关键的点在于：Responses WebSocket 优化的不是单次文本生成本身，而是多轮、工具密集、长链路 Agent 工作流里的 continuation 成本。本文主要 Daniel Vaughan 那篇文章讲的是 Codex app-ser…

2026/6/24 3:16:35 阅读更多

景里雨竹｜200-300 人小众活动场地

筹备一场活动，无论是小众婚礼、企业团建还是家族寿宴，最怕的不是预算不够，而是场地与心意错位。当“规模感”逐渐让位于“体验感”，越来越多人开始寻找能装下情感、又不失私密度的空间。在成都郫都，成立近20年的郫县景…

2026/6/24 3:16:15 阅读更多

2026年市场风向大变！光伏路灯制造厂将迎来怎样的机遇与挑战？

在能源转型和绿色发展的大背景下，光伏路灯市场近年来呈现出蓬勃发展的态势。随着2026年市场风向的转变，光伏路灯制造厂既面临着前所未有的机遇，也遭遇着诸多挑战。今天我们就以泉州市高靓照明科技有限公司为例，深入剖析光伏路灯制…

2026/6/24 3:15:55 阅读更多

Gobuster高效目录扫描：终极配置模板与实战策略

1. 项目概述：为什么需要一个“终极”配置模板？在渗透测试或安全评估的初期，目录和文件枚举几乎是绕不开的一步。Gobuster，作为一款用Go语言编写的高性能暴力破解工具，因其速度快、资源占用相对友好而备受青睐。但很多朋…

2026/6/24 4:40:36 阅读更多

自动驾驶感知系统实战：多传感器融合与BEV+Occupancy落地

1. 项目概述：这不是“开车不用手”，而是让机器真正“看见”世界“自动驾驶之感知篇”这六个字，乍看像教科书目录里的一节小标题，但在我过去十年跑遍全国23个智能驾驶测试基地、拆解过47套量产车前视系统、亲手标定过上万帧激光雷达…

2026/6/24 4:40:15 阅读更多

SOPS密钥管理实战：从原理到CI/CD集成与多环境策略

1. 项目概述：为什么我们需要SOPS这样的密钥管理神器？在任何一个涉及敏感信息的项目中，密钥、密码、API Token这些“数字钥匙”的管理，都是让开发者头疼又不得不面对的核心问题。我见过太多团队把数据库密码硬编码在配置文件里&…

2026/6/24 4:39:55 阅读更多

BEVDet与BEVDet4D：纯视觉BEV感知的工业级落地实践

1. 项目概述：BEVDet与BEVDet4D到底在解决什么问题？BEVDet和BEVDet4D是黄骏杰团队提出的、面向自动驾驶感知任务的两代核心算法框架，它们不是实验室里的概念玩具，而是真正跑在车端嵌入式平台上的工业级方案。如果你正在做多摄像头3…

2026/6/24 4:39:35 阅读更多

Hermes+Kimi K2.6构建可量产AI工作流系统

1. 项目概述：这不是一个“装完就能跑”的玩具，而是一套可量产的AI工作流操作系统你搜到这个标题时，大概率正卡在某个环节：Hermes桌面版下载后双击没反应，Kimi网页版弹出“你和Kimi聊得太长啦”，或者在配置A…

2026/6/24 4:39:14 阅读更多

DeepSeek V4+Tabbit：本地智能体工作流的临界点突破

1. 项目概述：这不是一次普通升级，而是本地智能体工作流的临界点突破“DeepSeek V4 上线，Tabbit 更会干活了（限时白嫖 pro 会员）”——这个标题乍看像一则营销快讯，但在我拆解过二十多个主流AI工具链、亲手部…

2026/6/24 4:38:54 阅读更多

软件直方图管理化的分布分析

软件直方图管理化的分布分析：数据洞察的新视角在当今数据驱动的时代，软件直方图管理化的分布分析成为挖掘数据价值的重要工具。直方图通过可视化数据的分布特征，帮助用户快速识别趋势、异常和规律。无论是统计分析、质量管理还是业务决策&a…

2026/6/24 1:02:47 阅读更多

分布式系统一致性算法详解

分布式系统一致性算法详解在当今互联网和大数据时代，分布式系统已成为支撑高并发、高可用的核心技术架构。分布式系统的节点间通信存在延迟、故障等问题，如何保证数据一致性成为关键挑战。一致性算法正是解决这一问题的核心方法，它们确保系…

2026/6/24 1:04:08 阅读更多

Jenkins 管道(Pipeline)脚本编写坑

Jenkins管道(Pipeline)脚本编写坑：避坑指南与实践在现代DevOps实践中，Jenkins管道(Pipeline)因其灵活性和可扩展性成为持续集成与交付的核心工具。编写高效稳定的Pipeline脚本时，开发者常会遇到各种“坑”，轻则导致构建失败&…

2026/6/24 1:04:28 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/24 0:45:51 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/24 0:45:51 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/24 0:45:51 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/23 12:17:43 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/23 12:17:43 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/23 12:17:43 阅读更多

相关文章

Responses WebSocket 协议详解：为什么它会让 Agent 工作流更快

景里雨竹｜200-300 人 小众活动场地

2026年市场风向大变！光伏路灯制造厂将迎来怎样的机遇与挑战？

Gobuster高效目录扫描：终极配置模板与实战策略

自动驾驶感知系统实战：多传感器融合与BEV+Occupancy落地

SOPS密钥管理实战：从原理到CI/CD集成与多环境策略

BEVDet与BEVDet4D：纯视觉BEV感知的工业级落地实践

Hermes+Kimi K2.6构建可量产AI工作流系统

DeepSeek V4+Tabbit：本地智能体工作流的临界点突破

软件直方图管理化的分布分析

分布式系统一致性算法详解

Jenkins 管道(Pipeline)脚本编写坑

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

景里雨竹｜200-300 人小众活动场地