对比 Emu3、Emu3.5 和 Show-o2 【①训练数据量（以token计）、②初始化权重、③模型参数量、④在相同benchmark上的效果】

发布时间：2026/6/23 0:56:51

一、统一对比 Emu3、Emu3.5 和 Show-o2 的训练数据量（以token计）以及模型参数量可以。下面我按统一口径来比：Emu3 / Emu3.5：用论文里直接给出的预训练 token 数。Show-o2：论文没有直接给总 token 数，所以我用论文给出的样本数 + context length做近似换算。参数量：尽量用论文或官方发布页里对应的主模型 / 旗舰公开模型口径。(Springer)统一对比模型训练数据量（以 token 计）模型参数量备注Emu312.3T8Btoken 数是论文补充材料直接给的seen tokens；参数量按官方公开主模型Emu3-Gen / Emu3-Chat / Emu3-Stage1 = 8BEmu3.5约 13T（正文写over 13T；训练阶段写10T + 3T）34.1B论文直接给出Show-o2约 0.10T–0.11T（估算）7B（另有 1.5B）token 数是按论文样本数和 context length 换算，不是作者直接报告值Emu3 的补充材料把三阶段预训练写成2.4T + 2.4T + 7.5T = 12.3T seen tokens；官方 Hugging Face collection 中，Emu3-Gen、Emu3-Chat 和 Emu3-Stage1 都标为8B。(Springer)Emu3.5 的正文写得更直接：预训练数据是over 13 trillion multimodal tokens，并且训练分成Stage 1 = 10T、Stage 2 = 约 3T；模型结构部分明确写34.1B parameters。(ar5iv)Show-o2 方面，论文明确给了：Stage 1 用约 66M image-text pairs；Stage 2 用 9M 高质量 understanding 数据 + 16M 高质量 generation 数据；并且单图文样本 context length = 1024、视频样本 context length = 7006。表 2 里还明确出现了1.5M Internal Data，以及OpenVid-1M。模型规模方面，论文和官方 repo 都说明 Show-o2 有1.5B和7B两个版本；这里我用更常拿来横比的7B。(ar5iv)Show-o2 的 token 换算先按论文里最明确的数据做下界估算：66 M × 1024 + ( 9 M + 16 M ) × 1024 + 1.5 M × 7006 66\text{M}\times 1024 + (9\text{M}+16\text{M})\times 1024 + 1.5\text{M}\times 700666M×1024+(9M+16M)×1024+1.5M×7006= 67.584 B + 25.600 B + 10.509 B = 103.693 B ≈ 0.104 T = 67.584\text{B} + 25.600\text{B} + 10.509\text{B} = 103.693\text{B} \approx 0.104\text{T}=67.584B+25.600B+10.509B=103.693B≈0.104T如果再把表 2 里的OpenVid-1M粗略按1M个视频样本计入：103.693 B + 1.0 M × 7006 = 110.699 B ≈ 0.111 T 103.693\text{B} + 1.0\text{M}\times 7006 = 110.699\text{B} \approx 0.111\text{T}103.693B+1.0M×7006=110.699B≈0.111T所以，Show-o2 更合理的统一口径是：约 0.10T–0.11T token。但这一定要注明：这是估算值，因为论文没有把所有 video-text / interleaved 数据统一汇总成一个总 token 数。(ar5iv)直接结论按这个统一口径看：训练 token 量：Emu3.5 ≈ Emu3 ≫ Show-o2参数量：Emu3.5 ≫ Emu3 ≈ Show-o2更具体一点：Emu3.5 vs Emu3：token 量只大约1.06x，但参数量大约4.3x。Emu3.5 vs Show-o2：token 量大约大117x–125x，参数量大约4.9x。Emu3 vs Show-o2：token 量大约大111x–118x，但参数量只大约1.14x（8B 对 7B）。 (ar5iv)所以，如果你是从“训练规模”这个维度看，这三个模型其实分成两档：第一档：Emu3 / Emu3.5，都在10T+级别；第二档：Show-o2，按可见信息估算大约在0.1T级别。 (Springer)你要的话，我下一条可以继续把这张表再扩成一个更有用的版本：再加上“是否 world-model 导向、是否原生视频、训练目标（AR / flow）、以及对自动驾驶/具身智能更相关的能力维度”一起并排。二、对比 Emu3、Emu3.5 和 Show-o2 在模型架构上的区别，详细说明每一个模型哪一部分直接使用开源模型作为初始化。每一个模块的参数量大小。下面我统一按Emu3 (8B)、Emu3.5 (34.1B)、Show-o2-7B来比。先说一个口径问题：Show-o2 论文和 repo 里的 “1.5B / 7B” 指的是 LLM backbone 的规模，不是整套系统（再加上语义分支、fusion、flow head、3D causal VAE）之后的总参数。相比之下，Emu3和Emu3.5更接近“把核心统一模型本体的参数量直接报出来”。(GitHub)先给结论如果只看“原生统一基座”这一层：Emu3：最“纯”的路线，从头训练一个 decoder-only transformer，把图像、视频、文本都离散成 token，统一做 next-token prediction。它不用预训练视觉编码器，也不用预训练 LLM 权重。(Nature)Emu3.5/

隐私计算新选择：OpenClaw+nanobot本地化数据处理

隐私计算新选择：OpenClawnanobot本地化数据处理 1. 为什么我们需要本地化数据处理方案作为一名长期关注数据隐私的技术从业者，我最近在探索如何在不牺牲便利性的前提下，确保敏感数据处理的绝对安全。金融行业的朋友经常向我抱怨&#xff1…

2026/6/22 15:23:07 阅读更多

周红伟：OpenClaw安全防控：OpenClaw+Skills+私有大模型安全部署、实操和企业应用实操

《OpenClaw安全防控：OpenClawSkills私有大模型安全部署、实操和企业应用实操》大模型实战专家—周红伟法国科学院数据算法博士/曾任阿里人工智能专家课程背景随着企业数字化转型的深入，以大模型为核心的智能体技术正在重构业务流程与办公模式。然而&…

2026/6/23 5:20:55 阅读更多

OpenClaw模型微调：让Qwen3.5-9B更好理解你的操作习惯

OpenClaw模型微调：让Qwen3.5-9B更好理解你的操作习惯 1. 为什么需要个性化模型微调在使用OpenClaw自动化工具的过程中，我发现一个有趣的现象：同样的指令，不同用户表达习惯差异巨大。比如"整理桌面文件"这个需求&…

2026/6/21 22:51:18 阅读更多

Codex兼容任意大模型：协议抽象层原理与CC-Switch实战

1. 破除迷思：Codex 并非只能绑定 OpenAI，它的本质是“协议兼容层” “谁说用不了 Codex？”——这句话不是营销话术，而是对当前大量用户认知偏差的一次精准纠正。我第一次在客户现场看到运维同事盯着 Codex 插件报错日志发呆时&…

2026/6/23 18:14:34 阅读更多

Python交互式调试终端：用code.interact()替代IDE断点

1. 项目概述：这不是“加个断点就完事”的调试，而是把Python代码当场解剖给你看你有没有过这种体验：在PyCharm里打了十个断点，单步跳进跳出二十次，变量窗口里一堆<function xxx at 0x...>和<module xxx from .…

2026/6/23 18:14:34 阅读更多

Python map函数深度解析：从惰性迭代器到数据流编程

1. 项目概述：为什么一个看似简单的 map 函数，值得你花整整一小时真正搞懂？在 Python 初学者的代码里，“map()” 这个词出现频率极高，但绝大多数人只把它当成一个“能批量处理列表”的快捷键——比如把一串数字全转成字…

2026/6/23 18:14:13 阅读更多

MongoDB findAndModify原子操作详解：解决超卖、状态更新与并发安全

1. 项目概述：为什么这个看似冷门的命令值得你花20分钟认真读完 MongoDB findAndModify() 是一个在真实业务场景中反复救我命的“低调高手”。它不像 insert 或 find 那样天天露脸，但一旦你遇到“查出来立刻改”“改完必须返回新值”“防止并发覆盖”这类…

2026/6/23 18:13:52 阅读更多

在 deepx 中集成 Anthropic SKILL.md 实现 CLI 智能化

1. 项目概述：这不是在装一个“插件”，而是在给命令行注入AI代理的神经反射弧 “给命令行 AI 加技能：Anthropic SKILL.md 标准在 deepx 里怎么装”——这个标题乍看像一句技术圈黑话拼贴，但拆开来看，它精准击中了当前开…

2026/6/23 18:11:42 阅读更多

Java MD5哈希算法原理、安全风险与生产级工具类实现

1. 项目概述：为什么Java开发者绕不开MD5？ 如果你是一名Java开发者，无论是处理用户密码存储、验证文件完整性，还是进行简单的数据签名，大概率都接触过MD5。这个看似简单的“加密”工具，几乎成了程序员工具箱…

2026/6/23 18:10:15 阅读更多

AI谈判中透明度与人格特质如何影响人机信任与合作

1. 项目概述：当AI成为谈判桌上的“新同事”最近几年，AI从后台的“计算器”逐渐走向前台，开始扮演“协作者”甚至“谈判者”的角色。无论是电商平台的智能议价客服，还是企业内部用于采购、资源分配的自动化谈判代理，人机…

2026/6/23 0:00:12 阅读更多

跨平台Java开发：构建无处不在的应用

在当今数字化时代，应用的跨平台能力已成为企业竞争的关键因素。无论是移动设备、桌面系统还是嵌入式设备，用户都期望能够无缝访问他们喜爱的应用。Java，作为一种成熟且强大的编程语言，凭借其“一次编写，到处运行”的核…

2026/6/23 0:01:34 阅读更多

解锁学术高效写法！paperxie智能写作，搞定毕业论文全程难题

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/课程论文毕业论文 - PaperXie智能写作PaperXieAi论文智能生成软件，10分钟生成万字毕业论文、期刊论文、文献综述、PPT，Aigc查重、降重报告、文献资料。只需一个标题，从开…

2026/6/23 0:02:15 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/23 0:12:24 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/23 0:12:20 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/23 0:12:27 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/23 12:17:43 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/23 12:17:43 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/23 12:17:43 阅读更多

相关文章

隐私计算新选择：OpenClaw+nanobot本地化数据处理

周红伟：OpenClaw安全防控：OpenClaw+Skills+私有大模型安全部署、实操和企业应用实操

OpenClaw模型微调：让Qwen3.5-9B更好理解你的操作习惯

Codex兼容任意大模型：协议抽象层原理与CC-Switch实战

Python交互式调试终端：用code.interact()替代IDE断点

Python map函数深度解析：从惰性迭代器到数据流编程

MongoDB findAndModify原子操作详解：解决超卖、状态更新与并发安全

在 deepx 中集成 Anthropic SKILL.md 实现 CLI 智能化

Java MD5哈希算法原理、安全风险与生产级工具类实现

AI谈判中透明度与人格特质如何影响人机信任与合作

跨平台Java开发：构建无处不在的应用

解锁学术高效写法！paperxie智能写作，搞定毕业论文全程难题

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因