qwen版本

发布时间：2026/6/9 1:46:28

一、版本发布总览版本发布日期关键参数规模核心改动Qwen v12023.08-111.8B / 7B / 14B / 72B首代开源SFT RLHF 对齐Qwen1.52024.02.050.5B ~ 110B8档 MoE-A2.7BDPO/PPO 对齐首个 MoE 模型Qwen22024.06.060.5B ~ 72B 57B-A14BMoEGQA / SwiGLU / RoPE7T tokens 数据Qwen2.52024.09.190.5B ~ 72B7档18T tokens 数据151K 词表衍生 Coder/Math/VLQwen32025.04.29Dense 0.6B~32B MoE 235B-A22BThinking/Instruct 模式256K→1M 上下文Qwen3-Omni2025.09.22全模态 MoE端到端多模态实时语音交互Qwen3.52026.02.16Dense 0.8B~27B MoE 至 397B-A17B统一视觉语言基座Gated Delta Net MoE201 语言Qwen3.62026.04.1627B Dense 35B-A3B MoEAgentic CodingThinking Preservation二、各版本详细信息2.1 Qwen v12023年8月-11月参数规模1.8B、7B、14B、72B模型变体模型训练数据量最大上下文长度Qwen-1.8B / Chat2.2T tokens32KQwen-7B / Chat2.4T tokens32KQwen-14B / Chat3.0T tokens8KQwen-72B / Chat3.0T tokens32K每个尺寸提供Base基座和Chat对话版本Chat 模型额外提供Int4 / Int8 量化版对话模型采用SFT RLHF对齐支持工具调用Tool Use、Agent能力、代码解释器相关链接GitHubhttps://github.com/QwenLM/Qwen技术报告https://arxiv.org/abs/2309.166092.2 Qwen1.52024年2月参数规模类型尺寸Dense稠密0.5B、1.8B、4B、7B、14B、32B、72B、110BMoE混合专家Qwen1.5-MoE-A2.7B2024-03-28 发布核心升级vs Qwen v1对齐方法升级引入DPODirect Policy Optimization和PPOProximal Policy Optimization替代纯 RLHF尺寸覆盖扩大新增 0.5B、4B、32B、110B 四个规格首次引入 MoE 架构Qwen1.5-MoE-A2.7B仅激活 2.7B 参数Chat 模型人类偏好对齐显著提升相关链接官方博客https://qwenlm.github.io/blog/qwen1.5/2.3 Qwen22024年6月参数规模0.5B、1.5B、7B、57B-A14BMoE、72B核心升级vs Qwen1.5训练数据扩展至7T tokens架构引入GQAGrouped Query Attention、SwiGLU激活函数、RoPE位置编码新增57B-A14B的 MoE 模型总参数 57B活跃参数 14B作为 Qwen2.5 系列的技术基础衍生专项模型模型说明参数规模Qwen2-VL视觉语言模型2B、7B、72BQwen2-Audio音频理解模型—相关链接官方博客https://qwenlm.github.io/blog/qwen2/技术报告https://arxiv.org/abs/2407.10671GitHubQwen2-Audiohttps://github.com/QwenLM/Qwen2-Audio2.4 Qwen2.52024年9月参数规模0.5B、1.5B、3B、7B、14B、32B、72B共 7 个开源尺寸另有 Qwen2.5-Turbo 和 Qwen2.5-PlusMoE闭源 API 访问架构细节特性说明注意力机制GQAGrouped Query Attention位置编码RoPERotary Position Embedding激活函数SwiGLU归一化RMSNorm QKV bias分词器BBPE词表大小 151,643核心升级vs Qwen2预训练数据从7T → 18T tokens2.5 倍增长改进数据过滤、合成数据生成、领域数据配比MoE 模型采用细粒度专家分片共享专家路由Qwen2.5-72B-Instruct性能与 Llama-3-405B-Instruct5 倍参数量相当衍生专项模型模型发布时间参数规模说明Qwen2.5-Coder2024多尺寸代码专项模型Qwen2.5-Math2024多尺寸数学推理模型QwQ-32B2025.0332B推理增强模型Qwen2.5-VL2025.01.283B / 7B / 32B / 72B视觉语言模型32B 于 2025.03.25 补充发布Qwen2.5-Omni2025.03.22—全模态模型相关链接GitHubhttps://github.com/QwenLM/Qwen2.5技术报告https://arxiv.org/abs/2412.15115官方博客https://qwenlm.github.io/blog/qwen2.5/Qwen2.5-VL GitHubhttps://github.com/QwenLM/Qwen2.5-VLQwen2.5-Math GitHubhttps://github.com/QwenLM/Qwen2.5-MathHuggingFaceQwQ-32Bhttps://huggingface.co/Qwen/QwQ-32B2.5 Qwen32025年4月参数规模类型尺寸Dense稠密0.6B、1.7B、4B、8B、14B、32BMoE混合专家30B-A3B、235B-A22BQwen3-2507 更新2025年7-8月在 3 个尺寸235B-A22B、30B-A3B、4B上分离出两个独立变体Instruct版本非思考模式高效通用对话Thinking版本思考模式复杂逻辑推理上下文长度达256K tokens可扩展至1M tokens核心升级vs Qwen2.5Dense 模型尺寸重新设计0.6B / 1.7B / 8B 为新增规格MoE 旗舰235B-A22B总参数 235B活跃 22B从统一模式切换演进为Thinking / Instruct 独立变体上下文窗口大幅扩展至 256K-1M衍生专项模型模型发布时间说明Qwen3-VL2025 下半年Dense2B/4B/8B/32B MoE30B-A3B / 235B-A22B含 Instruct 和 Thinking 版Qwen3-Coder-Next2026Hybrid Attention MoE 架构基于 Qwen3-Next-80B-A3B-BaseQwen3-Next-80B-A3B2025.09.11超稀疏 MoE Hybrid Attention极致推理效率相关链接GitHubhttps://github.com/QwenLM/Qwen3官方博客https://qwenlm.github.io/blog/qwen3/HuggingFacehttps://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967fQwen3-VL GitHubhttps://github.com/QwenLM/Qwen3-VLQwen3-Coder GitHubhttps://github.com/QwenLM/Qwen3-CoderQwen3-Coder 技术报告https://arxiv.org/abs/2603.007292.6 Qwen3-Omni2025年9月定位端到端全模态基座模型核心能力输入文本、图像、音频、视频输出文本实时自然语音流式响应架构MoE Thinker-Talker设计多码本低延迟方案支持119 种文本语言、19 种语音输入语言、10 种语音输出语言在 36 项音频/视频基准中 22 项达到 SOTA相关链接GitHubhttps://github.com/QwenLM/Qwen3-Omni论文https://arxiv.org/abs/2509.17765HuggingFacehttps://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe2.7 Qwen3.52026年2月发布时间线日期发布模型2026-02-16Qwen3.5-397B-A17BMoE 旗舰2026-02-24Qwen3.5-122B-A10B / 35B-A3BMoE 27BDense2026-03-02Qwen3.5-9B / 4B / 2B / 0.8BDense 小模型参数规模类型尺寸MoE混合专家397B-A17B、122B-A10B、35B-A3BDense稠密27B、9B、4B、2B、0.8B核心升级vs Qwen3统一视觉-语言基座Early Fusion在万亿级多模态 token 上预训练单一模型同时达到 Qwen3 文本能力超越 Qwen3-VL 的视觉能力高效混合架构引入Gated Delta Networks 稀疏 MoE实现高吞吐低延迟推理可扩展 RL 泛化跨百万级 Agent 环境的强化学习渐进式复杂任务分布全球语言覆盖扩展至201 种语言和方言下一代训练基础设施多模态训练效率接近纯文本训练的 100%异步 RL 框架支持大规模 Agent 编排相关链接GitHubhttps://github.com/QwenLM/Qwen3.63.5 和 3.6 共用仓库HuggingFacehttps://huggingface.co/collections/Qwen/qwen35官方博客https://qwen.ai/blog?idqwen3.52.8 Qwen3.62026年4月发布时间线日期发布模型2026-04-16Qwen3.6-35B-A3BMoE2026-04-22Qwen3.6-27BDense参数规模类型尺寸MoE35B-A3BDense27B核心升级vs Qwen3.5Agentic Coding 增强前端工作流和仓库级推理能力更流畅精准Thinking Preservation思维保留新特性在对话历史中保留思考上下文简化迭代开发、减少重复推理开销定位为稳定性和实际可用性优先的迭代版本基于社区反馈打磨相关链接GitHubhttps://github.com/QwenLM/Qwen3.6HuggingFacehttps://huggingface.co/collections/Qwen/qwen36博客27Bhttps://qwen.ai/blog?idqwen3.6-27b博客35B-A3Bhttps://qwen.ai/blog?idqwen3.6-35b-a3b三、其他重要衍生模型模型发布时间类型说明GitHubQwen3-TTS2026.01.21语音合成流式生成、声音克隆、自由声音设计11.8K starsQwenLM/Qwen3-TTSQwen3-ASR2026.01.28语音识别多语言语音/音乐/歌曲识别语言检测时间戳预测QwenLM/Qwen3-ASRQwen-Image2025.08.03图像生成图像生成基座模型复杂文字渲染精确图像编辑8K starsQwenLM/Qwen-ImageQwen-VLA2026.05.28具身智能视觉-语言-动作模型面向机器人等具身智能场景QwenLM/Qwen-VLAQwen3-VL-Embedding2026.01.08多模态嵌入视觉语言嵌入模型QwenLM/Qwen3-VL-EmbeddingQwen3-Embedding2025.06.05文本嵌入文本嵌入模型QwenLM/Qwen3-EmbeddingQwen3Guard2025.09.23安全安全护栏模型QwenLM/Qwen3GuardQwen Code2025.06.26开发工具终端 AI Agent类似 Claude Code25K starsQwenLM/qwen-code四、关键技术演进总结技术特性首次引入版本说明SFT RLHFQwen v1基础对齐方法DPO / PPOQwen1.5替代纯 RLHF提升偏好对齐MoE 架构Qwen1.5-MoE激活参数 2.7B大幅降低推理成本GQAQwen2分组查询注意力提升推理效率SwiGLUQwen2替代传统激活函数RoPEQwen2旋转位置编码BBPE Tokenizer151KQwen2.5统一多语言词表18T 数据规模Qwen2.5预训练数据从 7T 翻倍至 18TThinking / Instruct 分离Qwen3-2507推理与对话解耦为独立模型Hybrid Attention MoEQwen3-Next / Coder混合注意力代码/效率专项架构创新256K → 1M 上下文Qwen3-2507超长上下文支持MoE Thinker-TalkerQwen3-Omni端到端多模态架构Gated Delta Networks MoEQwen3.5极致推理效率的混合架构Early Fusion 多模态训练Qwen3.5统一视觉语言基座Thinking PreservationQwen3.6跨轮对话保留思考上下文五、模型变体分类汇总类别代表模型基座模型BaseQwen-7B、Qwen2.5-72B、Qwen3-32B对话模型Chat / InstructQwen-Chat、Qwen2.5-Instruct、Qwen3-Instruct、Qwen3.6-27B推理模型ThinkingQwen3-Thinking、QwQ-32B代码模型CoderQwen2.5-Coder、Qwen3-Coder-Next数学模型MathQwen2.5-Math视觉语言模型VLQwen2-VL、Qwen2.5-VL、Qwen3-VL全模态模型OmniQwen2.5-Omni、Qwen3-Omni音频模型Audio / TTS / ASRQwen2-Audio、Qwen3-TTS、Qwen3-ASR图像生成模型Qwen-Image具身智能模型VLAQwen-VLA嵌入模型EmbeddingQwen3-Embedding、Qwen3-VL-EmbeddingMoE 模型Qwen1.5-MoE-A2.7B、Qwen2-57B-A14B、Qwen3-235B-A22B、Qwen3.5-397B-A17B六、参数规模对比一览版本参数规模B 十亿参数 ───────────────────────────────────────────────────────────────────── Qwen v1 1.8B ─── 7B ─────── 14B ────────── 72B Qwen1.5 0.5B ─ 1.8B ─ 4B ─ 7B ── 14B ─ 32B ─ 72B ─ 110B ─ MoE-A2.7B Qwen2 0.5B ─ 1.5B ─────── 7B ──────────── 72B ─ MoE-57B-A14B Qwen2.5 0.5B ─ 1.5B ─ 3B ─ 7B ── 14B ─ 32B ─ 72B Qwen3 0.6B ─ 1.7B ─ 4B ─ 8B ── 14B ─ 32B ─── MoE-30B-A3B ─ MoE-235B-A22B Qwen3.5 0.8B ─ 2B ─── 4B ─ 9B ── 27B ─── MoE-35B-A3B ─ MoE-122B-A10B ─ MoE-397B-A17B Qwen3.6 ──────────────────── 27B ─── MoE-35B-A3B七、注意事项Qwen2.5 的 MoE 模型Turbo、Plus为闭源 API 模型不在开源范围内Qwen v1 的量化版Int4/Int8仅针对 Chat 模型提供Qwen3-2507 中 Thinking 和 Instruct 的分离标志着从统一模式切换到独立模型的策略转变Qwen3.5 起所有开源模型均采用 Apache 2.0 许可证Qwen3.5 的视觉-语言统一基座是重大架构突破——单一模型同时具备强文本和强视觉能力无需分别训练Qwen3.6 目前仅发布两个尺寸27B / 35B-A3B更多尺寸可能后续补充八、官方资源汇总资源链接QwenLM GitHub 组织https://github.com/QwenLMHuggingFace 主页https://huggingface.co/QwenModelScope 主页https://modelscope.cn/organization/qwenQwen Studio在线体验https://chat.qwen.ai/Qwen 官方博客https://qwen.ai/blogQwen Agent 框架https://github.com/QwenLM/Qwen-AgentQwen Code终端 AI Agenthttps://github.com/QwenLM/qwen-code

别光发短信了！用Redis给你的SpringBoot短信验证码加个5分钟有效期

用Redis为SpringBoot短信验证码打造工业级防护在移动互联网时代，短信验证码就像数字世界的门禁卡，但你是否想过，一个没有失效时间的门禁卡会带来怎样的安全隐患？当我们在SpringBoot中实现了基础的短信发送功能后，接下来…

2026/6/9 1:46:28 阅读更多

AI 驱动的用户行为分析：独立产品智能化的数据引擎，从埋点到洞察

AI 驱动的用户行为分析：独立产品智能化的数据引擎，从埋点到洞察一、独立产品的数据困境：有埋点无洞察独立开发者在产品运营中常面临一个尴尬局面：接入了埋点 SDK，数据在持续采集，但真正能指导产品决策的洞…

2026/6/9 1:45:27 阅读更多

用说人话的方式，管理你的阿里云资源

你有没有过这种经历：老板让你在阿里云上搭个环境，你打开控制台，看着满屏的产品和配置项，完全不知道从哪下手。一个真实的烦恼你刚入职一家小公司，老板让你"在阿里云上搭个环境把项目跑起来"。你打开阿里…

2026/6/9 1:45:07 阅读更多

深度解析Mindustry服务器架构：从源码编译到高可用部署的实践指南

深度解析Mindustry服务器架构：从源码编译到高可用部署的实践指南【免费下载链接】Mindustry The automation tower defense RTS 项目地址: https://gitcode.com/GitHub_Trending/min/Mindustry 在自动化塔防RTS游戏Mindustry的生态系统中，服务器…

2026/6/9 2:43:54 阅读更多

别再只仿真了！手把手教你用滑动变阻器和LM358搭建可调阈值的水位报警器

低成本DIY水位报警器：用滑动变阻器和LM358打造智能水位监控方案水位监测在家庭鱼缸、农业灌溉或地下室防汛等场景中至关重要。市面上成品水位控制器往往价格昂贵且功能固定，而本文将带你用不到50元的成本，打造一个可自由调节报警阈值的智能水…

2026/6/9 2:43:33 阅读更多

叙事型综述论文（Review）写作技巧分享

本人南南，博士毕业于复旦大学，现就职于三甲医院研究岗，每天的本职工作就是搞研究、写论文。已经以第一作者发表多篇SCI论文，包括一篇Nature子刊，一篇10 Top期刊。最近正在研究怎样写好叙事型综述（Review&am…

2026/6/9 2:42:32 阅读更多

OmenSuperHub：惠普游戏本性能控制的终极免费开源方案

OmenSuperHub：惠普游戏本性能控制的终极免费开源方案【免费下载链接】OmenSuperHub Control Omen laptop performance, fan speeds, and keyboard lighting, and unlock power limits. 项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub 你是否厌倦…

2026/6/9 2:42:32 阅读更多

LeetCode 72：编辑距离（Edit Distance）—— 题解

LeetCode 72：编辑距离（Edit Distance）—— 题解 ✅ 🔗 题目链接 👉 https://leetcode.cn/problems/edit-distance/📖 内容概要给定两个字符串 word1 和 word2，你可以对 word1 执行以下三种操作…

2026/6/9 2:42:12 阅读更多

LeetCode 583. 两个字符串的删除操作

LeetCode 583：两个字符串的删除操作（Delete Operation for Two Strings）—— 题解 ✅ 🔗 题目链接 👉 https://leetcode.cn/problems/delete-operation-for-two-strings/📖 内容概要给定两个字符串 word1 …

2026/6/9 2:42:12 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章