依旧非常长的论文题目依旧底部给arxiv链接话说主包一直很喜欢看毕导漫士沉思录小Lin说这种风格的科普视频这种科普风格都有一种共同点就是不咋叠公式叠细节但是及其凝练让没有专业背景的人也能看懂其实理解了这个也就能理解今天所说的ViT层级特性也就是DualToken的核心了首先我们要明白一点目前的LLM看不懂图片你直接给LLM塞一张图片它只能看到一堆莫名其妙的RGB矩阵如果我们要做文生图或者图生文应该怎么做呢虽然LLM看不懂图片但是我们可以通过某种方式把一张图片从图像翻译成token就能让LLM“理解”图片了这个图像-token翻译官有一个名字叫Visual Tokenizer以下简称偷啃来者不同的偷啃来者处理图片的方法也是不同的主要有两个流派微操派微操派担大梁的是VQ-VAE。把一张图一刀一刀切成很多小patch生成的就是一串离散码本token就是会弄一本字典记不同的token对怎样的小patch它最擅长把一个图片尽可能的还原清楚。最擅长的是纹理颜色边缘清晰度等等特别细的细节宏观派宏观派主要是CLIP/SigLIP。拿着图片和文字训练它最擅长的就是比相似度看图文匹不匹配这种工作。看到这里读者应该差不多懂了微操派像无聊的课本事无巨细适合拿来做图像生成宏观派像科普视频适合拿来做真正的图像理解。那怎么才能让模型又会图像理解又会生成图像呢在此前主要有两种办法首先是直接正面硬刚一张网络训练两种目标VILA-U,MUSE-VL,QLIP等这种也是很拉的人本来就是水火不相容强行同时训练最后基本上是两头不讨好还有一种方法是东拼西凑干脆直接上两个模型然后再拿管道接起来这导致结构复杂不说LLM还要学两套视觉语言特征空间不一致速度也是很慢讲到这里我们先放一放讲一下图像识别的方法的演进在以前的时候我们做图像识别都是用的CNN网络比如ResNetVGG这些什么视觉人物都是靠的CNN图片分类目标检测图片分割等。。。在以前CV就是CNN但是2017年注意力机制魔童降世很快就把NLP领域搅成了浑水2020年有注意力特别集中的神人发现注意力似乎也可以拿来做图像分类呀于是伴随着一股强劲的BGMViT降生了很快就在图像分类领域和多模态领域把CNN绞杀了ViT的工作流程是首先把一整张图片切成很多小Patch比如16 * 16像素然后把它们映射成向量最后再送入Transformer慢慢拼凑出整体信息为什么我们讲着LLM的两种tokenizer突然跳到了ViT呢原来论文的灵珠作者注意到了一件事情ViT的比较浅的层数特别接近微操派的分token而比较深的层数就比较接近宏观派的分token了这就像你第一次打开一本三角函数速查表你看到了从1倍到3倍到无穷多倍的值你不断发动你的注意力并且一遍又一遍苦读后面你发现了诱导公式最后你终于发现了奇变偶不变符号看象限作者是通过观察1-26层的ViT不同的聚类发现这一现象的低层数偏好按色彩和纹理等分类比如金色的猫和金色的狗放一类高层数偏好按语义分类比如猫一类狗一类恭喜这就是论文提出的核心的解决方案现在我们只要训好一张ViT就能同时输出两种我们要的Token论文的核心设计就是准备两个码本一个是像素码本来自前四分之一层特征用来做生成然后是语义码本来自深层用来做图文版对齐同时两个任务要在不同层训练互不干扰。浅层就弄重建损失深层就做语义损失互相独立量化不共用和干扰最后加VQ两户损失保证不漂移最后把两套token送给大模型完美结语本论文rFID是0.25ImageNet零样本分类达到82%3B小模型优于7B模型
DualToken如何让模型理解自己画出来的东西?
发布时间:2026/6/24 3:16:35
依旧非常长的论文题目依旧底部给arxiv链接话说主包一直很喜欢看毕导漫士沉思录小Lin说这种风格的科普视频这种科普风格都有一种共同点就是不咋叠公式叠细节但是及其凝练让没有专业背景的人也能看懂其实理解了这个也就能理解今天所说的ViT层级特性也就是DualToken的核心了首先我们要明白一点目前的LLM看不懂图片你直接给LLM塞一张图片它只能看到一堆莫名其妙的RGB矩阵如果我们要做文生图或者图生文应该怎么做呢虽然LLM看不懂图片但是我们可以通过某种方式把一张图片从图像翻译成token就能让LLM“理解”图片了这个图像-token翻译官有一个名字叫Visual Tokenizer以下简称偷啃来者不同的偷啃来者处理图片的方法也是不同的主要有两个流派微操派微操派担大梁的是VQ-VAE。把一张图一刀一刀切成很多小patch生成的就是一串离散码本token就是会弄一本字典记不同的token对怎样的小patch它最擅长把一个图片尽可能的还原清楚。最擅长的是纹理颜色边缘清晰度等等特别细的细节宏观派宏观派主要是CLIP/SigLIP。拿着图片和文字训练它最擅长的就是比相似度看图文匹不匹配这种工作。看到这里读者应该差不多懂了微操派像无聊的课本事无巨细适合拿来做图像生成宏观派像科普视频适合拿来做真正的图像理解。那怎么才能让模型又会图像理解又会生成图像呢在此前主要有两种办法首先是直接正面硬刚一张网络训练两种目标VILA-U,MUSE-VL,QLIP等这种也是很拉的人本来就是水火不相容强行同时训练最后基本上是两头不讨好还有一种方法是东拼西凑干脆直接上两个模型然后再拿管道接起来这导致结构复杂不说LLM还要学两套视觉语言特征空间不一致速度也是很慢讲到这里我们先放一放讲一下图像识别的方法的演进在以前的时候我们做图像识别都是用的CNN网络比如ResNetVGG这些什么视觉人物都是靠的CNN图片分类目标检测图片分割等。。。在以前CV就是CNN但是2017年注意力机制魔童降世很快就把NLP领域搅成了浑水2020年有注意力特别集中的神人发现注意力似乎也可以拿来做图像分类呀于是伴随着一股强劲的BGMViT降生了很快就在图像分类领域和多模态领域把CNN绞杀了ViT的工作流程是首先把一整张图片切成很多小Patch比如16 * 16像素然后把它们映射成向量最后再送入Transformer慢慢拼凑出整体信息为什么我们讲着LLM的两种tokenizer突然跳到了ViT呢原来论文的灵珠作者注意到了一件事情ViT的比较浅的层数特别接近微操派的分token而比较深的层数就比较接近宏观派的分token了这就像你第一次打开一本三角函数速查表你看到了从1倍到3倍到无穷多倍的值你不断发动你的注意力并且一遍又一遍苦读后面你发现了诱导公式最后你终于发现了奇变偶不变符号看象限作者是通过观察1-26层的ViT不同的聚类发现这一现象的低层数偏好按色彩和纹理等分类比如金色的猫和金色的狗放一类高层数偏好按语义分类比如猫一类狗一类恭喜这就是论文提出的核心的解决方案现在我们只要训好一张ViT就能同时输出两种我们要的Token论文的核心设计就是准备两个码本一个是像素码本来自前四分之一层特征用来做生成然后是语义码本来自深层用来做图文版对齐同时两个任务要在不同层训练互不干扰。浅层就弄重建损失深层就做语义损失互相独立量化不共用和干扰最后加VQ两户损失保证不漂移最后把两套token送给大模型完美结语本论文rFID是0.25ImageNet零样本分类达到82%3B小模型优于7B模型