一、统一对比 Emu3、Emu3.5 和 Show-o2 的训练数据量(以token计)以及模型参数量可以。下面我按统一口径来比:Emu3 / Emu3.5:用论文里直接给出的预训练 token 数。Show-o2:论文没有直接给总 token 数,所以我用论文给出的样本数 + context length做近似换算。参数量:尽量用论文或官方发布页里对应的主模型 / 旗舰公开模型口径。(Springer)统一对比模型训练数据量(以 token 计)模型参数量备注Emu312.3T8Btoken 数是论文补充材料直接给的seen tokens;参数量按官方公开主模型Emu3-Gen / Emu3-Chat / Emu3-Stage1 = 8BEmu3.5约 13T(正文写over 13T;训练阶段写10T + 3T)34.1B论文直接给出Show-o2约 0.10T–0.11T(估算)7B(另有 1.5B)token 数是按论文样本数和 context length 换算,不是作者直接报告值Emu3 的补充材料把三阶段预训练写成2.4T + 2.4T + 7.5T = 12.3T seen tokens;官方 Hugging Face collection 中,Emu3-Gen、Emu3-Chat 和 Emu3-Stage1 都标为8B。(Springer)Emu3.5 的正文写得更直接:预训练数据是over 13 trillion multimodal tokens,并且训练分成Stage 1 = 10T、Stage 2 = 约 3T;模型结构部分明确写34.1B parameters。(ar5iv)Show-o2 方面,论文明确给了:Stage 1 用约 66M image-text pairs;Stage 2 用 9M 高质量 understanding 数据 + 16M 高质量 generation 数据;并且单图文样本 context length = 1024、视频样本 context length = 7006。表 2 里还明确出现了1.5M Internal Data,以及OpenVid-1M。模型规模方面,论文和官方 repo 都说明 Show-o2 有1.5B和7B两个版本;这里我用更常拿来横比的7B。(ar5iv)Show-o2 的 token 换算先按论文里最明确的数据做下界估算:66 M × 1024 + ( 9 M + 16 M ) × 1024 + 1.5 M × 7006 66\text{M}\times 1024 + (9\text{M}+16\text{M})\times 1024 + 1.5\text{M}\times 700666M×1024+(9M+16M)×1024+1.5M×7006= 67.584 B + 25.600 B + 10.509 B = 103.693 B ≈ 0.104 T = 67.584\text{B} + 25.600\text{B} + 10.509\text{B} = 103.693\text{B} \approx 0.104\text{T}=67.584B+25.600B+10.509B=103.693B≈0.104T如果再把表 2 里的OpenVid-1M粗略按1M个视频样本计入:103.693 B + 1.0 M × 7006 = 110.699 B ≈ 0.111 T 103.693\text{B} + 1.0\text{M}\times 7006 = 110.699\text{B} \approx 0.111\text{T}103.693B+1.0M×7006=110.699B≈0.111T所以,Show-o2 更合理的统一口径是:约 0.10T–0.11T token。但这一定要注明:这是估算值,因为论文没有把所有 video-text / interleaved 数据统一汇总成一个总 token 数。(ar5iv)直接结论按这个统一口径看:训练 token 量:Emu3.5 ≈ Emu3 ≫ Show-o2参数量:Emu3.5 ≫ Emu3 ≈ Show-o2更具体一点:Emu3.5 vs Emu3:token 量只大约1.06x,但参数量大约4.3x。Emu3.5 vs Show-o2:token 量大约大117x–125x,参数量大约4.9x。Emu3 vs Show-o2:token 量大约大111x–118x,但参数量只大约1.14x(8B 对 7B)。 (ar5iv)所以,如果你是从“训练规模”这个维度看,这三个模型其实分成两档:第一档:Emu3 / Emu3.5,都在10T+级别;第二档:Show-o2,按可见信息估算大约在0.1T级别。 (Springer)你要的话,我下一条可以继续把这张表再扩成一个更有用的版本:再加上“是否 world-model 导向、是否原生视频、训练目标(AR / flow)、以及对自动驾驶/具身智能更相关的能力维度”一起并排。二、对比 Emu3、Emu3.5 和 Show-o2 在模型架构上的区别,详细说明每一个模型哪一部分直接使用开源模型作为初始化。每一个模块的参数量大小。下面我统一按Emu3 (8B)、Emu3.5 (34.1B)、Show-o2-7B来比。先说一个口径问题:Show-o2 论文和 repo 里的 “1.5B / 7B” 指的是 LLM backbone 的规模,不是整套系统(再加上语义分支、fusion、flow head、3D causal VAE)之后的总参数。相比之下,Emu3和Emu3.5更接近“把核心统一模型本体的参数量直接报出来”。(GitHub)先给结论如果只看“原生统一基座”这一层:Emu3:最“纯”的路线,从头训练一个 decoder-only transformer,把图像、视频、文本都离散成 token,统一做 next-token prediction。它不用预训练视觉编码器,也不用预训练 LLM 权重。(Nature)Emu3.5/
对比 Emu3、Emu3.5 和 Show-o2 【①训练数据量(以token计)、②初始化权重、③模型参数量、④在相同benchmark上的效果】
发布时间:2026/6/23 0:56:51
一、统一对比 Emu3、Emu3.5 和 Show-o2 的训练数据量(以token计)以及模型参数量可以。下面我按统一口径来比:Emu3 / Emu3.5:用论文里直接给出的预训练 token 数。Show-o2:论文没有直接给总 token 数,所以我用论文给出的样本数 + context length做近似换算。参数量:尽量用论文或官方发布页里对应的主模型 / 旗舰公开模型口径。(Springer)统一对比模型训练数据量(以 token 计)模型参数量备注Emu312.3T8Btoken 数是论文补充材料直接给的seen tokens;参数量按官方公开主模型Emu3-Gen / Emu3-Chat / Emu3-Stage1 = 8BEmu3.5约 13T(正文写over 13T;训练阶段写10T + 3T)34.1B论文直接给出Show-o2约 0.10T–0.11T(估算)7B(另有 1.5B)token 数是按论文样本数和 context length 换算,不是作者直接报告值Emu3 的补充材料把三阶段预训练写成2.4T + 2.4T + 7.5T = 12.3T seen tokens;官方 Hugging Face collection 中,Emu3-Gen、Emu3-Chat 和 Emu3-Stage1 都标为8B。(Springer)Emu3.5 的正文写得更直接:预训练数据是over 13 trillion multimodal tokens,并且训练分成Stage 1 = 10T、Stage 2 = 约 3T;模型结构部分明确写34.1B parameters。(ar5iv)Show-o2 方面,论文明确给了:Stage 1 用约 66M image-text pairs;Stage 2 用 9M 高质量 understanding 数据 + 16M 高质量 generation 数据;并且单图文样本 context length = 1024、视频样本 context length = 7006。表 2 里还明确出现了1.5M Internal Data,以及OpenVid-1M。模型规模方面,论文和官方 repo 都说明 Show-o2 有1.5B和7B两个版本;这里我用更常拿来横比的7B。(ar5iv)Show-o2 的 token 换算先按论文里最明确的数据做下界估算:66 M × 1024 + ( 9 M + 16 M ) × 1024 + 1.5 M × 7006 66\text{M}\times 1024 + (9\text{M}+16\text{M})\times 1024 + 1.5\text{M}\times 700666M×1024+(9M+16M)×1024+1.5M×7006= 67.584 B + 25.600 B + 10.509 B = 103.693 B ≈ 0.104 T = 67.584\text{B} + 25.600\text{B} + 10.509\text{B} = 103.693\text{B} \approx 0.104\text{T}=67.584B+25.600B+10.509B=103.693B≈0.104T如果再把表 2 里的OpenVid-1M粗略按1M个视频样本计入:103.693 B + 1.0 M × 7006 = 110.699 B ≈ 0.111 T 103.693\text{B} + 1.0\text{M}\times 7006 = 110.699\text{B} \approx 0.111\text{T}103.693B+1.0M×7006=110.699B≈0.111T所以,Show-o2 更合理的统一口径是:约 0.10T–0.11T token。但这一定要注明:这是估算值,因为论文没有把所有 video-text / interleaved 数据统一汇总成一个总 token 数。(ar5iv)直接结论按这个统一口径看:训练 token 量:Emu3.5 ≈ Emu3 ≫ Show-o2参数量:Emu3.5 ≫ Emu3 ≈ Show-o2更具体一点:Emu3.5 vs Emu3:token 量只大约1.06x,但参数量大约4.3x。Emu3.5 vs Show-o2:token 量大约大117x–125x,参数量大约4.9x。Emu3 vs Show-o2:token 量大约大111x–118x,但参数量只大约1.14x(8B 对 7B)。 (ar5iv)所以,如果你是从“训练规模”这个维度看,这三个模型其实分成两档:第一档:Emu3 / Emu3.5,都在10T+级别;第二档:Show-o2,按可见信息估算大约在0.1T级别。 (Springer)你要的话,我下一条可以继续把这张表再扩成一个更有用的版本:再加上“是否 world-model 导向、是否原生视频、训练目标(AR / flow)、以及对自动驾驶/具身智能更相关的能力维度”一起并排。二、对比 Emu3、Emu3.5 和 Show-o2 在模型架构上的区别,详细说明每一个模型哪一部分直接使用开源模型作为初始化。每一个模块的参数量大小。下面我统一按Emu3 (8B)、Emu3.5 (34.1B)、Show-o2-7B来比。先说一个口径问题:Show-o2 论文和 repo 里的 “1.5B / 7B” 指的是 LLM backbone 的规模,不是整套系统(再加上语义分支、fusion、flow head、3D causal VAE)之后的总参数。相比之下,Emu3和Emu3.5更接近“把核心统一模型本体的参数量直接报出来”。(GitHub)先给结论如果只看“原生统一基座”这一层:Emu3:最“纯”的路线,从头训练一个 decoder-only transformer,把图像、视频、文本都离散成 token,统一做 next-token prediction。它不用预训练视觉编码器,也不用预训练 LLM 权重。(Nature)Emu3.5/