qwen版本 一、版本发布总览版本发布日期关键参数规模核心改动Qwen v12023.08-111.8B / 7B / 14B / 72B首代开源SFT RLHF 对齐Qwen1.52024.02.050.5B ~ 110B8档 MoE-A2.7BDPO/PPO 对齐首个 MoE 模型Qwen22024.06.060.5B ~ 72B 57B-A14BMoEGQA / SwiGLU / RoPE7T tokens 数据Qwen2.52024.09.190.5B ~ 72B7档18T tokens 数据151K 词表衍生 Coder/Math/VLQwen32025.04.29Dense 0.6B~32B MoE 235B-A22BThinking/Instruct 模式256K→1M 上下文Qwen3-Omni2025.09.22全模态 MoE端到端多模态实时语音交互Qwen3.52026.02.16Dense 0.8B~27B MoE 至 397B-A17B统一视觉语言基座Gated Delta Net MoE201 语言Qwen3.62026.04.1627B Dense 35B-A3B MoEAgentic CodingThinking Preservation二、各版本详细信息2.1 Qwen v12023年8月-11月参数规模1.8B、7B、14B、72B模型变体模型训练数据量最大上下文长度Qwen-1.8B / Chat2.2T tokens32KQwen-7B / Chat2.4T tokens32KQwen-14B / Chat3.0T tokens8KQwen-72B / Chat3.0T tokens32K每个尺寸提供Base基座和Chat对话版本Chat 模型额外提供Int4 / Int8 量化版对话模型采用SFT RLHF对齐支持工具调用Tool Use、Agent能力、代码解释器相关链接GitHubhttps://github.com/QwenLM/Qwen技术报告https://arxiv.org/abs/2309.166092.2 Qwen1.52024年2月参数规模类型尺寸Dense稠密0.5B、1.8B、4B、7B、14B、32B、72B、110BMoE混合专家Qwen1.5-MoE-A2.7B2024-03-28 发布核心升级vs Qwen v1对齐方法升级引入DPODirect Policy Optimization和PPOProximal Policy Optimization替代纯 RLHF尺寸覆盖扩大新增 0.5B、4B、32B、110B 四个规格首次引入 MoE 架构Qwen1.5-MoE-A2.7B仅激活 2.7B 参数Chat 模型人类偏好对齐显著提升相关链接官方博客https://qwenlm.github.io/blog/qwen1.5/2.3 Qwen22024年6月参数规模0.5B、1.5B、7B、57B-A14BMoE、72B核心升级vs Qwen1.5训练数据扩展至7T tokens架构引入GQAGrouped Query Attention、SwiGLU激活函数、RoPE位置编码新增57B-A14B的 MoE 模型总参数 57B活跃参数 14B作为 Qwen2.5 系列的技术基础衍生专项模型模型说明参数规模Qwen2-VL视觉语言模型2B、7B、72BQwen2-Audio音频理解模型—相关链接官方博客https://qwenlm.github.io/blog/qwen2/技术报告https://arxiv.org/abs/2407.10671GitHubQwen2-Audiohttps://github.com/QwenLM/Qwen2-Audio2.4 Qwen2.52024年9月参数规模0.5B、1.5B、3B、7B、14B、32B、72B共 7 个开源尺寸另有 Qwen2.5-Turbo 和 Qwen2.5-PlusMoE闭源 API 访问架构细节特性说明注意力机制GQAGrouped Query Attention位置编码RoPERotary Position Embedding激活函数SwiGLU归一化RMSNorm QKV bias分词器BBPE词表大小 151,643核心升级vs Qwen2预训练数据从7T → 18T tokens2.5 倍增长改进数据过滤、合成数据生成、领域数据配比MoE 模型采用细粒度专家分片 共享专家路由Qwen2.5-72B-Instruct性能与 Llama-3-405B-Instruct5 倍参数量相当衍生专项模型模型发布时间参数规模说明Qwen2.5-Coder2024多尺寸代码专项模型Qwen2.5-Math2024多尺寸数学推理模型QwQ-32B2025.0332B推理增强模型Qwen2.5-VL2025.01.283B / 7B / 32B / 72B视觉语言模型32B 于 2025.03.25 补充发布Qwen2.5-Omni2025.03.22—全模态模型相关链接GitHubhttps://github.com/QwenLM/Qwen2.5技术报告https://arxiv.org/abs/2412.15115官方博客https://qwenlm.github.io/blog/qwen2.5/Qwen2.5-VL GitHubhttps://github.com/QwenLM/Qwen2.5-VLQwen2.5-Math GitHubhttps://github.com/QwenLM/Qwen2.5-MathHuggingFaceQwQ-32Bhttps://huggingface.co/Qwen/QwQ-32B2.5 Qwen32025年4月参数规模类型尺寸Dense稠密0.6B、1.7B、4B、8B、14B、32BMoE混合专家30B-A3B、235B-A22BQwen3-2507 更新2025年7-8月在 3 个尺寸235B-A22B、30B-A3B、4B上分离出两个独立变体Instruct版本非思考模式高效通用对话Thinking版本思考模式复杂逻辑推理上下文长度达256K tokens可扩展至1M tokens核心升级vs Qwen2.5Dense 模型尺寸重新设计0.6B / 1.7B / 8B 为新增规格MoE 旗舰235B-A22B总参数 235B活跃 22B从统一模式切换演进为Thinking / Instruct 独立变体上下文窗口大幅扩展至 256K-1M衍生专项模型模型发布时间说明Qwen3-VL2025 下半年Dense2B/4B/8B/32B MoE30B-A3B / 235B-A22B含 Instruct 和 Thinking 版Qwen3-Coder-Next2026Hybrid Attention MoE 架构基于 Qwen3-Next-80B-A3B-BaseQwen3-Next-80B-A3B2025.09.11超稀疏 MoE Hybrid Attention极致推理效率相关链接GitHubhttps://github.com/QwenLM/Qwen3官方博客https://qwenlm.github.io/blog/qwen3/HuggingFacehttps://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967fQwen3-VL GitHubhttps://github.com/QwenLM/Qwen3-VLQwen3-Coder GitHubhttps://github.com/QwenLM/Qwen3-CoderQwen3-Coder 技术报告https://arxiv.org/abs/2603.007292.6 Qwen3-Omni2025年9月定位端到端全模态基座模型核心能力输入文本、图像、音频、视频输出文本 实时自然语音流式响应架构MoE Thinker-Talker设计 多码本低延迟方案支持119 种文本语言、19 种语音输入语言、10 种语音输出语言在 36 项音频/视频基准中 22 项达到 SOTA相关链接GitHubhttps://github.com/QwenLM/Qwen3-Omni论文https://arxiv.org/abs/2509.17765HuggingFacehttps://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe2.7 Qwen3.52026年2月发布时间线日期发布模型2026-02-16Qwen3.5-397B-A17BMoE 旗舰2026-02-24Qwen3.5-122B-A10B / 35B-A3BMoE 27BDense2026-03-02Qwen3.5-9B / 4B / 2B / 0.8BDense 小模型参数规模类型尺寸MoE混合专家397B-A17B、122B-A10B、35B-A3BDense稠密27B、9B、4B、2B、0.8B核心升级vs Qwen3统一视觉-语言基座Early Fusion在万亿级多模态 token 上预训练单一模型同时达到 Qwen3 文本能力 超越 Qwen3-VL 的视觉能力高效混合架构引入Gated Delta Networks 稀疏 MoE实现高吞吐低延迟推理可扩展 RL 泛化跨百万级 Agent 环境的强化学习渐进式复杂任务分布全球语言覆盖扩展至201 种语言和方言下一代训练基础设施多模态训练效率接近纯文本训练的 100%异步 RL 框架支持大规模 Agent 编排相关链接GitHubhttps://github.com/QwenLM/Qwen3.63.5 和 3.6 共用仓库HuggingFacehttps://huggingface.co/collections/Qwen/qwen35官方博客https://qwen.ai/blog?idqwen3.52.8 Qwen3.62026年4月发布时间线日期发布模型2026-04-16Qwen3.6-35B-A3BMoE2026-04-22Qwen3.6-27BDense参数规模类型尺寸MoE35B-A3BDense27B核心升级vs Qwen3.5Agentic Coding 增强前端工作流和仓库级推理能力更流畅精准Thinking Preservation思维保留新特性在对话历史中保留思考上下文简化迭代开发、减少重复推理开销定位为稳定性和实际可用性优先的迭代版本基于社区反馈打磨相关链接GitHubhttps://github.com/QwenLM/Qwen3.6HuggingFacehttps://huggingface.co/collections/Qwen/qwen36博客27Bhttps://qwen.ai/blog?idqwen3.6-27b博客35B-A3Bhttps://qwen.ai/blog?idqwen3.6-35b-a3b三、其他重要衍生模型模型发布时间类型说明GitHubQwen3-TTS2026.01.21语音合成流式生成、声音克隆、自由声音设计11.8K starsQwenLM/Qwen3-TTSQwen3-ASR2026.01.28语音识别多语言语音/音乐/歌曲识别语言检测时间戳预测QwenLM/Qwen3-ASRQwen-Image2025.08.03图像生成图像生成基座模型复杂文字渲染精确图像编辑8K starsQwenLM/Qwen-ImageQwen-VLA2026.05.28具身智能视觉-语言-动作模型面向机器人等具身智能场景QwenLM/Qwen-VLAQwen3-VL-Embedding2026.01.08多模态嵌入视觉语言嵌入模型QwenLM/Qwen3-VL-EmbeddingQwen3-Embedding2025.06.05文本嵌入文本嵌入模型QwenLM/Qwen3-EmbeddingQwen3Guard2025.09.23安全安全护栏模型QwenLM/Qwen3GuardQwen Code2025.06.26开发工具终端 AI Agent类似 Claude Code25K starsQwenLM/qwen-code四、关键技术演进总结技术特性首次引入版本说明SFT RLHFQwen v1基础对齐方法DPO / PPOQwen1.5替代纯 RLHF提升偏好对齐MoE 架构Qwen1.5-MoE激活参数 2.7B大幅降低推理成本GQAQwen2分组查询注意力提升推理效率SwiGLUQwen2替代传统激活函数RoPEQwen2旋转位置编码BBPE Tokenizer151KQwen2.5统一多语言词表18T 数据规模Qwen2.5预训练数据从 7T 翻倍至 18TThinking / Instruct 分离Qwen3-2507推理与对话解耦为独立模型Hybrid Attention MoEQwen3-Next / Coder混合注意力代码/效率专项架构创新256K → 1M 上下文Qwen3-2507超长上下文支持MoE Thinker-TalkerQwen3-Omni端到端多模态架构Gated Delta Networks MoEQwen3.5极致推理效率的混合架构Early Fusion 多模态训练Qwen3.5统一视觉语言基座Thinking PreservationQwen3.6跨轮对话保留思考上下文五、模型变体分类汇总类别代表模型基座模型BaseQwen-7B、Qwen2.5-72B、Qwen3-32B对话模型Chat / InstructQwen-Chat、Qwen2.5-Instruct、Qwen3-Instruct、Qwen3.6-27B推理模型ThinkingQwen3-Thinking、QwQ-32B代码模型CoderQwen2.5-Coder、Qwen3-Coder-Next数学模型MathQwen2.5-Math视觉语言模型VLQwen2-VL、Qwen2.5-VL、Qwen3-VL全模态模型OmniQwen2.5-Omni、Qwen3-Omni音频模型Audio / TTS / ASRQwen2-Audio、Qwen3-TTS、Qwen3-ASR图像生成模型Qwen-Image具身智能模型VLAQwen-VLA嵌入模型EmbeddingQwen3-Embedding、Qwen3-VL-EmbeddingMoE 模型Qwen1.5-MoE-A2.7B、Qwen2-57B-A14B、Qwen3-235B-A22B、Qwen3.5-397B-A17B六、参数规模对比一览版本 参数规模B 十亿参数 ───────────────────────────────────────────────────────────────────── Qwen v1 1.8B ─── 7B ─────── 14B ────────── 72B Qwen1.5 0.5B ─ 1.8B ─ 4B ─ 7B ── 14B ─ 32B ─ 72B ─ 110B ─ MoE-A2.7B Qwen2 0.5B ─ 1.5B ─────── 7B ──────────── 72B ─ MoE-57B-A14B Qwen2.5 0.5B ─ 1.5B ─ 3B ─ 7B ── 14B ─ 32B ─ 72B Qwen3 0.6B ─ 1.7B ─ 4B ─ 8B ── 14B ─ 32B ─── MoE-30B-A3B ─ MoE-235B-A22B Qwen3.5 0.8B ─ 2B ─── 4B ─ 9B ── 27B ─── MoE-35B-A3B ─ MoE-122B-A10B ─ MoE-397B-A17B Qwen3.6 ──────────────────── 27B ─── MoE-35B-A3B七、注意事项Qwen2.5 的 MoE 模型Turbo、Plus为闭源 API 模型不在开源范围内Qwen v1 的量化版Int4/Int8仅针对 Chat 模型提供Qwen3-2507 中 Thinking 和 Instruct 的分离标志着从统一模式切换到独立模型的策略转变Qwen3.5 起所有开源模型均采用 Apache 2.0 许可证Qwen3.5 的视觉-语言统一基座是重大架构突破——单一模型同时具备强文本和强视觉能力无需分别训练Qwen3.6 目前仅发布两个尺寸27B / 35B-A3B更多尺寸可能后续补充八、官方资源汇总资源链接QwenLM GitHub 组织https://github.com/QwenLMHuggingFace 主页https://huggingface.co/QwenModelScope 主页https://modelscope.cn/organization/qwenQwen Studio在线体验https://chat.qwen.ai/Qwen 官方博客https://qwen.ai/blogQwen Agent 框架https://github.com/QwenLM/Qwen-AgentQwen Code终端 AI Agenthttps://github.com/QwenLM/qwen-code