8G显存竟然能跑Qwen3.6-35B-A3B多模态模型？低显存配置的本地推理之王：8GB 显存（如 RTX 3070/4060 等）的部署解决方案！

发布时间：2026/6/9 22:49:38

Qwen3.6-35B-A3B 是阿里巴巴 Qwen 团队于 2026年4月发布的开源模型是 Qwen3.6 系列的首个开源权重版本。核心参数架构稀疏 MoEMixture-of-Experts 模型总参数量35B350亿激活参数3B仅30亿每 token 只激活这部分类型原生多模态支持文本图像视频输入带 Vision Encoder上下文长度原生 262K可通过 YaRN 扩展至 1M许可协议Apache 2.0完全开源可商用主要亮点极致高效的 MoE 设计虽然总参数有 35B但推理时只激活 3B 参数实际算力消耗和显存占用远低于同级别稠密模型。适合本地部署量化后可在消费级硬件上高效运行。智能体编程Agentic Coding能力突出在仓库级代码理解、frontend 工作流、多轮工具调用等任务上大幅超越前代 Qwen3.5-35B-A3B。性能可与 Qwen3.5-27B 等更大稠密模型媲美甚至在部分基准上接近前沿闭源模型。强大多模态能力视觉感知和多模态推理能力远超其激活参数规模。在多数视觉语言基准上接近或超过 Claude Sonnet 4.5尤其在空间智能spatial intelligence任务上表现优秀如 RefCOCO 92.0、ODInW13 50.8。思考模式创新支持多模态思考Thinking 和非思考两种模式。新增 preserve_thinking 等机制能更好地保留多轮对话中的推理轨迹显著提升 Agent 长时任务的表现解决了“金鱼记忆”问题。8GB 显存的部署Qwen3.6-35B-A3B解决方案要在 8GB 显存设备上运行 Qwen 3.6 35BA3B 混合专家模型核心难点在于显存容量极其紧张。但由于该模型采用 MoE混合专家架构单次推理仅需激活约 3B 参数因此通过技术手段“拆分”模型负担是可行的。1. 核心准备引擎llama.cpp(强烈推荐因为其对 MoE 卸载支持最完善)。模型格式GGUF。模型版本Qwen3.6-35B-A3B-Q4_K_M兼顾效果与显存占用。多模态增强mmproj-BF16.gguf必须匹配模型版本用于图像/视频处理。首先要去下载llama.cpp:https://github.com/ggml-org/llama.cpp/releases/tag/b9294挑选自己设备匹配的版本下载我的是4060ti 8G ,cuda12,windows系统下载解压就行。然后下载Qwen3.6-35B-A3B-Q4_K_M GGUF量化模型可在unsloth团队的仓库上下载https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/tree/main下载Qwen3.6-35B-A3B-Q4_K_M 和mmproj-BF16.gguf下载后在llama-b9294-bin-win-cuda-12.4-x64目录下新建一个模型文件夹放进去。2. 部署关键步骤第一步准备运行环境驱动更新确保显卡驱动为最新支持最新的 CUDA 版本。系统内存要求虽然显存是 8GB但请确保你的物理内存RAM至少在16GB 以上因为部分“专家模型层”会被卸载到 RAM 中。第二步启动参数调优灵魂配置在 Windows 中创建一个.bat脚本执行以下命令路径根据实际情况修改这个解决方案也是参考了“零度大佬”的配置但是要根据自己电脑配置进行修改如果不会可找AI助理去解决。echo off chcp 65001 nul cd /d E:\Program Files (x86)\llama-b9294-bin-win-cuda-12.4-x64 llama-server.exe ^ -m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf ^ --mmproj models\mmproj-BF16.gguf ^ -ngl 20 ^ --n-cpu-moe 999 ^ --flash-attn on ^ --jinja ^ -c 8192 ^ -t 8 ^ -b 512 ^ -ub 128 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --host 127.0.0.1 ^ --port 8080 pause关键参数说明--n-cpu-moe 999这是关键它会将 MoE 架构中的专家层强制卸载到内存。--cache-type-k q4_0 / --cache-type-v q4_0对 KV Cache 进行量化能节省大量显存允许更长的上下文。-ngl 20允许尽可能多的层卸载到 GPU。-t 8设置 CPU 线程数注意不要设太高建议设为物理核心数否则会抢占资源导致变慢。基本像我设备8G显存、16G内存设置成这样的配置能有相当不错速度和生成质量。将它保存成.bat脚本后双击打开。打开后我测试了图像分析结果非常精准。代码方面我测试了让它写一个贪吃蛇的游戏一共用了20分钟左右。效果如下录了个视频看看8G设备终于也拥有了一个本地最强大脑首先得益于阿里开源然后是社区的共同努力下让这一切得以实现。让普通人也能在消费级的设备下用上先进的AI模型如果对你有帮助请一键三连支持下我哦。谢谢。本地算力不够怎么办如果本地设备算力不好的小伙伴推荐使用线上comfyUI来运行体验runninghub.cnLTX-23mniNFT 图生视频应用体验地址https://www.runninghub.cn/ai-detail/2057046158261968897注册地址https://www.runninghub.cn/?utm_sourcekol01-RH151通过这个链接第一次注册送1000点每日登录送100点runningHug上的无限画布也可以使用GPT image进行生成它集成了多个优秀的闭源模型在图像与视频生成中一个节点就能直接调用使用并生成。十分方便且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得速度很快。是一个不错的选择。通过注册地址https://www.runninghub.cn/?utm_sourcekol01-RH151 注册后打开无限画面说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

OBS Studio插件生态：如何通过模块化设计打造专业直播工作流？

OBS Studio插件生态：如何通过模块化设计打造专业直播工作流？ 【免费下载链接】obs-studio OBS Studio - Free and open source software for live streaming and screen recording 项目地址: https://gitcode.com/GitHub_Trending/ob/obs-studio …

2026/6/9 22:49:17 阅读更多

瑜伽服品牌差异化——AI助力小而美品牌突围

瑜伽服品牌差异化——AI助力小而美品牌突围瑜伽服市场品牌众多，国际大牌占据高端，电商品牌主打性价比，小而美品牌如何在夹缝中突围？差异化定位和精准营销是关键。北京先智先行科技有限公司推出AI品牌差异化解决方案，帮…

2026/6/9 22:48:16 阅读更多

终极多AI协同指南：如何让ChatGPT、文心一言等10+智能助手同时为你工作

终极多AI协同指南：如何让ChatGPT、文心一言等10智能助手同时为你工作【免费下载链接】ChatALL Concurrently chat with ChatGPT, Bing Chat, Bard, Alpaca, Vicuna, Claude, ChatGLM, MOSS, 讯飞星火, 文心一言 and more, discover the best answers 项目地址: …

2026/6/9 22:47:56 阅读更多

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱，支持下载视频、番剧等等各类资源项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/6/10 0:02:17 阅读更多

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

从导航软件到游戏寻路：用C手把手实现Dijkstra最短路径算法每次打开手机地图导航，或是操控游戏角色穿越复杂地形时，背后都藏着一个数学魔法——最短路径算法。Dijkstra算法作为图论中的经典解决方案，从1956年诞生至今，已…

2026/6/10 0:01:14 阅读更多

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each …

2026/6/10 0:00:34 阅读更多

Mi-Create：免费打造个性化小米穿戴表盘的完整解决方案

Mi-Create：免费打造个性化小米穿戴表盘的完整解决方案【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~2021 and above 项目地址: https://gitcode.com/gh_mirrors/mi/Mi-Create Mi-Create是一款面向小米穿戴设备的专业表盘…

2026/6/9 23:59:11 阅读更多

如何用Point-E在5分钟内生成高质量3D点云？完整指南

如何用Point-E在5分钟内生成高质量3D点云？完整指南【免费下载链接】point-e Point cloud diffusion for 3D model synthesis 项目地址: https://gitcode.com/gh_mirrors/po/point-e 你是否曾经想过，能否像生成图片一样轻松地创建3D模型&#xff…

2026/6/9 23:58:30 阅读更多

嵌入式开发实战：从K20电气规格表到稳定系统设计

1. 项目概述：为什么需要深挖电气规格表？在嵌入式开发的前几年，我一度认为数据手册（Datasheet）里那些密密麻麻的表格和图表，是芯片厂商用来“劝退”新手的。直到有一次，我负责的一个基于Kinetis …

2026/6/9 23:57:09 阅读更多

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

2026/6/10 0:00:34 阅读更多

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

2026/6/10 0:01:14 阅读更多

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

2026/6/10 0:02:17 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/9 9:53:26 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/9 9:53:22 阅读更多

相关文章

OBS Studio插件生态：如何通过模块化设计打造专业直播工作流？

瑜伽服品牌差异化——AI助力小而美品牌突围

终极多AI协同指南：如何让ChatGPT、文心一言等10+智能助手同时为你工作

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

Mi-Create：免费打造个性化小米穿戴表盘的完整解决方案

如何用Point-E在5分钟内生成高质量3D点云？完整指南

嵌入式开发实战：从K20电气规格表到稳定系统设计

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因