【Qwen3.6】关键技术：线性注意力（Linear Attention/DeltaNet）和标准多头注意力（Standard Attention）混合

发布时间：2026/5/25 23:57:33

官方材料https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8/blob/main/README.md分析一款非常前沿的混合架构大模型Qwen3.6-35B-A3B下一代 Qwen 模型。这个模型的核心创新在于它不是纯粹的 Transformer而是将两种不同的序列建模技术——线性注意力Linear Attention/DeltaNet和标准多头注意力Standard Attention混合在一起。以下是每个技术模块的详细解读1. 核心架构概念混合专家 (MoE) 与稀疏激活Number of Parameters: 35B in total and 3B activated总参数量 (35B)模型拥有 350 亿个参数。激活参数量 (3B)在推理过程中每次只使用其中的 30 亿个参数。技术含义这是MoE (Mixture-of-Experts混合专家模型)的典型特征。通过稀疏激活模型在保持大模型性能35B 级别的同时获得了小模型3B 级别的推理速度和低延迟。2. 隐藏层布局 (Hidden Layout)10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))总数 40 层模型共有 40 层 Transformer 块。分组结构这 40 层被分成了 10 个大的 Block组。组内结构每个 Block 包含 4 层3 层 Gated DeltaNet MoE负责高效处理序列的主要部分。1 层 Gated Attention MoE负责在关键位置进行高精度的全局注意力计算。设计意图这是一种混合注意力机制。DeltaNet 计算速度快但精度略低于标准 Attention。通过在每 4 层中插入 1 层标准 Attention模型能在保持高速度的同时捕捉长距离依赖和复杂关系。3. Gated DeltaNet (门控线性注意力)技术背景DeltaNet 是 State Space Models (SSM) 或线性注意力的一种变体旨在替代标准的O(N2)O(N^2)O(N2)注意力机制实现O(N)O(N)O(N)的计算复杂度。Number of Linear Attention Heads: 32 for V and 16 for QK这是线性注意力的特定实现方式可能是基于 SSM 或 RWKV 类的架构。它使用更少的头数来处理状态更新。Head Dimension: 128每个注意力头的维度是 128。作用负责快速扫描文本序列捕捉局部和中等距离的信息速度极快。4. Gated Attention (门控标准注意力)技术背景这就是标准的 Transformer 多头注意力机制但在 Qwen 的混合架构中它被“门控”或稀疏使用。Number of Attention Heads: 16 for Q and 2 for KVGQA (Grouped-Query Attention)查询头数 (Q) 是 16键/值头数 (KV) 是 2。这意味着每 8 个 Q 头共享一个 KV 头。这极大地减少了 KV Cache 的内存占用和推理带宽压力同时保留了多查询头的表达能力。Head Dimension: 256标准注意力的头维度较大以便捕捉更精细的特征。Rotary Position Embedding Dimension: 64RoPE (旋转位置编码)用于编码 token 的位置信息。这里明确指出用于注意力机制的位置编码维度是 64。作用在混合架构的关键节点提供高精度的全局上下文理解解决 DeltaNet 可能丢失长距离依赖的问题。5. Mixture Of Experts (MoE) 配置Number of Experts: 256每层有 256 个独立的“专家”网络通常是 FFN。Number of Activated Experts: 8 Routed 1 Shared8 Routed (路由专家)对于每个输入 token路由器Router会选择 8 个最相关的专家进行计算。1 Shared (共享专家)还有一个专家对所有 token 都是激活的。这有助于捕捉通用的、全局性的特征如语法、常见语义避免专家稀疏导致的信息损失。激活总数8 1 9 个专家被激活。结合专家内部参数构成了总共 3B 的激活参数。Expert Intermediate Dimension: 512每个专家网络内部隐藏层的维度。6. Token OutputToken Embedding: 248,320 (Padded)词表大小约为 248k。这个巨大的词表通常是为了更好地处理多语言、代码符号和各种特殊字符减少 OOV未登录词问题。Padded表示词表大小可能为了硬件优化如 GPU 内存对齐进行了填充实际有效词汇可能略少。LM Output: 248,320 (Padded)模型输出层映射回同样的词表大小。7. MTP (Multi-Step Prediction / Multi-Token Prediction)trained with multi-steps技术含义这是一种训练技巧类似于Lookahead Decoder或Speculative Decoding 的训练版。在训练过程中模型不仅预测下一个 token还被要求预测下两个、下三个 token多步预测。目的提高生成效率模型在推理时可以一次输出多个 token。增强连贯性让模型更好地理解序列的整体结构而不仅仅是单步依赖。总结这是什么类型的模型这是一个Hybrid Linear-Transformer MoE 模型具体来说混合架构它结合了SSM/Linear Attention (DeltaNet)的高效性和Standard Attention的精度。MoE 稀疏激活通过 256 选 9 的方式实现了 35B 参数仅消耗 3B 算力。长上下文优化DeltaNet 天然支持长上下文且内存占用低配合少量的标准 Attention使其在处理超长文本时比纯 Transformer 更稳定、更快。多语言/代码优化248k 的大词表支持更细粒度的语言建模。性能预估这种架构通常旨在实现3B 级别的推理速度但拥有接近 30B 密集模型的性能如搜索结果显示其 SWE-bench 得分 73.4远超同等大小的传统模型。它是为了在消费级硬件如笔记本上运行高质量 AI 代理Agent而设计的。

MySQL 死锁产生原因与避免

我刚工作的时候，有个批量转账的需求：要从 A 账户转钱给 B 账户，同时从 B 账户转钱给 A 账户。结果上线后频繁死锁，用户投诉电话被打爆。今天咱们就来聊聊 MySQL 死锁的产生原因与避免，看完这篇，你就能设计…

2026/5/25 23:57:33 阅读更多

AI 智能充电枪线高效功率 MOSFET 完整选型方案

随着 AI 技术在充电桩及充电枪线中的深度应用（如智能温控、自适应功率分配、实时状态诊断），枪线内部功率 MOSFET 面临更高要求：超低导通电阻、小封装、高集成度、逻辑电平驱动。微碧半导体（VBsemi）基于先进…

2026/5/25 23:56:12 阅读更多

AI 充电枪智能功率 MOSFET 完整选型方案

2026年随着 AI 技术在充电枪系统中的深度渗透（如智能调度、预测性维护、动态功率调整），充电枪对功率 MOSFET 提出更高要求：高频化、低损耗、高可靠性。微碧半导体（VBsemi）基于 SGT、Trench 及 Planar 工艺&…

2026/5/25 23:56:12 阅读更多

【DeepSeek方案生成黄金公式】：基于127个真实POC验证的输入结构化模板（限首批读者领取）

更多请点击： https://codechina.net 第一章：DeepSeek技术方案生成的底层逻辑与范式演进 DeepSeek系列模型的技术方案生成并非简单地堆叠参数或扩大训练数据，其底层逻辑根植于“任务驱动的结构化推理链构建”范式。该范式强调在模型前馈过程中…

2026/5/26 0:45:41 阅读更多

Python小红书数据采集终极指南：3个实战技巧破解反爬机制

Python小红书数据采集终极指南：3个实战技巧破解反爬机制【免费下载链接】xhs 基于小红书 Web 端进行的请求封装。https://reajason.github.io/xhs/ 项目地址: https://gitcode.com/gh_mirrors/xh/xhs 小红书作为中国领先的社交电商平台，其海量的…

2026/5/26 0:45:40 阅读更多

大麦网演唱会门票自动抢票脚本：告别手速焦虑的智能解决方案

大麦网演唱会门票自动抢票脚本：告别手速焦虑的智能解决方案【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 还在为抢不到心仪的演唱会门票而烦恼吗？每次开票瞬间秒光&…

2026/5/26 0:45:20 阅读更多

机器学习与强化学习如何革新黑盒优化：从代理模型到动态策略

1. 项目概述：当黑盒优化遇见机器学习与强化学习在工程、科学和工业界的许多前沿领域，我们常常会遇到一类令人头疼的优化问题：你有一个系统，比如一个复杂的物理仿真模型、一个需要调参的深度神经网络，或者一个昂贵的化学…

2026/5/26 0:43:59 阅读更多

深入解析：douyin-downloader的工作机制与实用价值

深入解析：douyin-downloader的工作机制与实用价值【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. …

2026/5/26 0:43:38 阅读更多

拼多多上架充电电流查看器

这东西别人需求不是很强烈，我觉得，所以5块钱/月好了

2026/5/26 0:43:38 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/25 1:05:14 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/25 11:05:00 阅读更多

相关文章