【论文解读】FullFlow:用参数高效方法将文生图 Flow 模型升级为双向视觉-语言生成器 论文:FullFlow: Upgrading Text-to-Image Flow Matching Models for Bidirectional Vision–Language Generation作者:Eric Tillmann Bill, Enis Simsar, Alessio Tonioni, Thomas Hofmann(ETH Zurich Google)arXiv:2605.20316 |项目主页:https://ericbill21.github.io/fullflow/一、背景与动机现代文生图(Text-to-Image)扩散/流模型,如Stable Diffusion 3(SD3)和FLUX.1,已在高保真图像合成任务上取得了令人瞩目的成果。这些模型通过大规模预训练,在连续潜在空间中习得了极为丰富的视觉语义先验。然而,这些模型存在一个根本性的局限:它们只能单向工作——文本进、图像出。要让一个预训练的文生图模型同时支持"图生文"(image captioning)或视觉问答(VQA),通常有两种思路:大规模联合预