图像、视频一模搞定!字节全能原生多模态本地可部署 字节刚刚开源了一个原生多模态全能王Lance。仅3B激活参数40G显存就能跑。真正的本地全能多边形战士。已经登顶huggingface趋势榜而且仅一天社区已有大量量化版发布24G以下也能玩转了。图像与视频理解、生成、编辑统统不在话下。问“这个人做了一系列重复的动作。这个人做了多少个不同的重复动作”它能精准回答出来。文生图图像随意编辑图像理解统一的原生多模态框架无论是X2T、X2I和X2V所有的多任务输入Lance都将所有输入编码为统一的MaPE模态感知旋转位置编码增强多模态上下文序列。双专家骨干在共享上下文中执行广义的3D因果注意力并产生特定任务的隐藏状态这些状态由LM头进一步解码用于自回归下一个令牌预测并由flow头进一步解码用于视觉潜在空间中的速度预测。全能的六边形战士在DPG Bench和GenEval图像生成基准上参数少但多模态性能多项第一甚至一些超越前沿开源单模态模型如FluxQwen-Image。视频生成基准超越开源比肩闭源。图像编辑超越GPTImage 1和Qwen-Image-Edit。视频理解把很多专用模型按地上摩擦。这么强的模型你不赶紧试试参考资料https://huggingface.co/bytedance-research/Lancehttps://lance-project.github.io/https://github.com/bytedance/Lancehttps://arxiv.org/pdf/2605.18678