Qwen3.6-35B-A3B 是阿里巴巴 Qwen 团队于 2026年4月 发布的开源模型是 Qwen3.6 系列的首个开源权重版本。核心参数架构稀疏 MoEMixture-of-Experts 模型总参数量35B350亿激活参数3B仅30亿每 token 只激活这部分类型原生多模态支持文本 图像 视频输入带 Vision Encoder上下文长度原生 262K可通过 YaRN 扩展至 1M许可协议Apache 2.0完全开源可商用主要亮点极致高效的 MoE 设计虽然总参数有 35B但推理时只激活 3B 参数实际算力消耗和显存占用远低于同级别稠密模型。适合本地部署量化后可在消费级硬件上高效运行。智能体编程Agentic Coding能力突出在仓库级代码理解、frontend 工作流、多轮工具调用等任务上大幅超越前代 Qwen3.5-35B-A3B。性能可与 Qwen3.5-27B 等更大稠密模型媲美甚至在部分基准上接近前沿闭源模型。强大多模态能力视觉感知和多模态推理能力远超其激活参数规模。在多数视觉语言基准上接近或超过 Claude Sonnet 4.5尤其在空间智能spatial intelligence任务上表现优秀如 RefCOCO 92.0、ODInW13 50.8。思考模式创新支持多模态思考Thinking 和 非思考 两种模式。新增 preserve_thinking 等机制能更好地保留多轮对话中的推理轨迹显著提升 Agent 长时任务的表现解决了“金鱼记忆”问题。8GB 显存的部署Qwen3.6-35B-A3B解决方案要在 8GB 显存设备上运行 Qwen 3.6 35BA3B 混合专家模型核心难点在于显存容量极其紧张。但由于该模型采用 MoE混合专家架构单次推理仅需激活约 3B 参数因此通过技术手段“拆分”模型负担是可行的。1. 核心准备引擎llama.cpp(强烈推荐因为其对 MoE 卸载支持最完善)。模型格式GGUF。模型版本Qwen3.6-35B-A3B-Q4_K_M兼顾效果与显存占用。多模态增强mmproj-BF16.gguf必须匹配模型版本用于图像/视频处理。首先要去下载llama.cpp:https://github.com/ggml-org/llama.cpp/releases/tag/b9294挑选自己设备匹配的版本下载我的是4060ti 8G ,cuda12,windows系统下载解压就行。然后下载Qwen3.6-35B-A3B-Q4_K_M GGUF量化模型可在unsloth团队的仓库上下载https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/tree/main下载Qwen3.6-35B-A3B-Q4_K_M 和mmproj-BF16.gguf下载后在llama-b9294-bin-win-cuda-12.4-x64目录下新建一个模型文件夹放进去。2. 部署关键步骤第一步准备运行环境驱动更新确保显卡驱动为最新支持最新的 CUDA 版本。系统内存要求虽然显存是 8GB但请确保你的物理内存RAM至少在16GB 以上因为部分“专家模型层”会被卸载到 RAM 中。第二步启动参数调优灵魂配置在 Windows 中创建一个.bat脚本执行以下命令路径根据实际情况修改这个解决方案也是参考了“零度大佬”的配置但是要根据自己电脑配置进行修改如果不会可找AI助理去解决。echo off chcp 65001 nul cd /d E:\Program Files (x86)\llama-b9294-bin-win-cuda-12.4-x64 llama-server.exe ^ -m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf ^ --mmproj models\mmproj-BF16.gguf ^ -ngl 20 ^ --n-cpu-moe 999 ^ --flash-attn on ^ --jinja ^ -c 8192 ^ -t 8 ^ -b 512 ^ -ub 128 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --host 127.0.0.1 ^ --port 8080 pause关键参数说明--n-cpu-moe 999这是关键它会将 MoE 架构中的专家层强制卸载到内存。--cache-type-k q4_0 / --cache-type-v q4_0对 KV Cache 进行量化能节省大量显存允许更长的上下文。-ngl 20允许尽可能多的层卸载到 GPU。-t 8设置 CPU 线程数注意不要设太高建议设为物理核心数否则会抢占资源导致变慢。基本像我设备8G显存、16G内存设置成这样的配置能有相当不错速度和生成质量。将它保存成.bat脚本后双击打开。打开后我测试了图像分析结果非常精准。代码方面我测试了让它写一个贪吃蛇的游戏一共用了20分钟左右。效果如下录了个视频看看8G设备终于也拥有了一个本地最强大脑首先得益于阿里开源然后是社区的共同努力下让这一切得以实现。让普通人也能在消费级的设备下用上先进的AI模型如果对你有帮助请一键三连支持下我哦。谢谢。本地算力不够怎么办如果本地设备算力不好的小伙伴推荐使用线上comfyUI来运行体验runninghub.cnLTX-23mniNFT 图生视频应用体验地址https://www.runninghub.cn/ai-detail/2057046158261968897注册地址https://www.runninghub.cn/?utm_sourcekol01-RH151通过这个链接第一次注册送1000点每日登录送100点runningHug上的无限画布也可以使用GPT image进行生成它集成了多个优秀的闭源模型在图像与视频生成中一个节点就能直接调用使用并生成。十分方便且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得速度很快。是一个不错的选择。通过注册地址https://www.runninghub.cn/?utm_sourcekol01-RH151 注册后打开无限画面说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】
8G显存竟然能跑Qwen3.6-35B-A3B多模态模型?低显存配置的本地推理之王:8GB 显存(如 RTX 3070/4060 等)的部署解决方案!
发布时间:2026/6/9 22:49:38
Qwen3.6-35B-A3B 是阿里巴巴 Qwen 团队于 2026年4月 发布的开源模型是 Qwen3.6 系列的首个开源权重版本。核心参数架构稀疏 MoEMixture-of-Experts 模型总参数量35B350亿激活参数3B仅30亿每 token 只激活这部分类型原生多模态支持文本 图像 视频输入带 Vision Encoder上下文长度原生 262K可通过 YaRN 扩展至 1M许可协议Apache 2.0完全开源可商用主要亮点极致高效的 MoE 设计虽然总参数有 35B但推理时只激活 3B 参数实际算力消耗和显存占用远低于同级别稠密模型。适合本地部署量化后可在消费级硬件上高效运行。智能体编程Agentic Coding能力突出在仓库级代码理解、frontend 工作流、多轮工具调用等任务上大幅超越前代 Qwen3.5-35B-A3B。性能可与 Qwen3.5-27B 等更大稠密模型媲美甚至在部分基准上接近前沿闭源模型。强大多模态能力视觉感知和多模态推理能力远超其激活参数规模。在多数视觉语言基准上接近或超过 Claude Sonnet 4.5尤其在空间智能spatial intelligence任务上表现优秀如 RefCOCO 92.0、ODInW13 50.8。思考模式创新支持多模态思考Thinking 和 非思考 两种模式。新增 preserve_thinking 等机制能更好地保留多轮对话中的推理轨迹显著提升 Agent 长时任务的表现解决了“金鱼记忆”问题。8GB 显存的部署Qwen3.6-35B-A3B解决方案要在 8GB 显存设备上运行 Qwen 3.6 35BA3B 混合专家模型核心难点在于显存容量极其紧张。但由于该模型采用 MoE混合专家架构单次推理仅需激活约 3B 参数因此通过技术手段“拆分”模型负担是可行的。1. 核心准备引擎llama.cpp(强烈推荐因为其对 MoE 卸载支持最完善)。模型格式GGUF。模型版本Qwen3.6-35B-A3B-Q4_K_M兼顾效果与显存占用。多模态增强mmproj-BF16.gguf必须匹配模型版本用于图像/视频处理。首先要去下载llama.cpp:https://github.com/ggml-org/llama.cpp/releases/tag/b9294挑选自己设备匹配的版本下载我的是4060ti 8G ,cuda12,windows系统下载解压就行。然后下载Qwen3.6-35B-A3B-Q4_K_M GGUF量化模型可在unsloth团队的仓库上下载https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/tree/main下载Qwen3.6-35B-A3B-Q4_K_M 和mmproj-BF16.gguf下载后在llama-b9294-bin-win-cuda-12.4-x64目录下新建一个模型文件夹放进去。2. 部署关键步骤第一步准备运行环境驱动更新确保显卡驱动为最新支持最新的 CUDA 版本。系统内存要求虽然显存是 8GB但请确保你的物理内存RAM至少在16GB 以上因为部分“专家模型层”会被卸载到 RAM 中。第二步启动参数调优灵魂配置在 Windows 中创建一个.bat脚本执行以下命令路径根据实际情况修改这个解决方案也是参考了“零度大佬”的配置但是要根据自己电脑配置进行修改如果不会可找AI助理去解决。echo off chcp 65001 nul cd /d E:\Program Files (x86)\llama-b9294-bin-win-cuda-12.4-x64 llama-server.exe ^ -m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf ^ --mmproj models\mmproj-BF16.gguf ^ -ngl 20 ^ --n-cpu-moe 999 ^ --flash-attn on ^ --jinja ^ -c 8192 ^ -t 8 ^ -b 512 ^ -ub 128 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --host 127.0.0.1 ^ --port 8080 pause关键参数说明--n-cpu-moe 999这是关键它会将 MoE 架构中的专家层强制卸载到内存。--cache-type-k q4_0 / --cache-type-v q4_0对 KV Cache 进行量化能节省大量显存允许更长的上下文。-ngl 20允许尽可能多的层卸载到 GPU。-t 8设置 CPU 线程数注意不要设太高建议设为物理核心数否则会抢占资源导致变慢。基本像我设备8G显存、16G内存设置成这样的配置能有相当不错速度和生成质量。将它保存成.bat脚本后双击打开。打开后我测试了图像分析结果非常精准。代码方面我测试了让它写一个贪吃蛇的游戏一共用了20分钟左右。效果如下录了个视频看看8G设备终于也拥有了一个本地最强大脑首先得益于阿里开源然后是社区的共同努力下让这一切得以实现。让普通人也能在消费级的设备下用上先进的AI模型如果对你有帮助请一键三连支持下我哦。谢谢。本地算力不够怎么办如果本地设备算力不好的小伙伴推荐使用线上comfyUI来运行体验runninghub.cnLTX-23mniNFT 图生视频应用体验地址https://www.runninghub.cn/ai-detail/2057046158261968897注册地址https://www.runninghub.cn/?utm_sourcekol01-RH151通过这个链接第一次注册送1000点每日登录送100点runningHug上的无限画布也可以使用GPT image进行生成它集成了多个优秀的闭源模型在图像与视频生成中一个节点就能直接调用使用并生成。十分方便且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得速度很快。是一个不错的选择。通过注册地址https://www.runninghub.cn/?utm_sourcekol01-RH151 注册后打开无限画面说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】