背景我这台笔记本配置不算好:i7-10750H、16GB DDR4、Quadro P620 4GB 显存。装好 llama.cpp 跑 Qwen3.6-35B-A3B 的 IQ2_M 量化版,默认参数下一测,4.85 t/s。聊天对话框一个字一个字往外蹦,挺难受的。后来调了四个参数,纯 CPU 跑到 9.5 t/s。中间试了各种 GPU 加速方案,全部翻车。这里把整个过程记下来,给配置类似的人一个参考。效果硬件和模型硬件:硬件规格CPUIntel i7-10750H(6核12线程,笔记本)内存16GB DDR4GPUNVIDIA Quadro P620(4GB 显存)系统Windows 11笔记本的内存带宽大概 41GB/s 左右,桌面平台能到 70 以上,这个差距后面会体现出来。P620 这张卡说实话就是个亮机卡,512 个 CUDA 核心,4GB 显存,干不了什么重活。模型:项目内容模型名Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf架构MoE,总参数 35B,每次激活 3B量化IQ2_M文件大小约 10-12GBMoE 架构有个好处,虽然总参数 35B,但每次推理只激活 3B 参数,理论上对速度比较友好。不过瓶颈不在计算量上,在内存带宽上。这个模型光加载就要占掉大部分内存,留给推理时 KV cache 的空间本来就不多。调参过程起点:什么都不调,4.85 t/s一开始就是最朴素的启动方式:llama-server.exe-m"model.gguf"--host
旧笔记本电脑用llama.cpp 跑 Qwen3-35B,笔记本上怎么调到 9.5 t/s
发布时间:2026/6/10 22:29:43
背景我这台笔记本配置不算好:i7-10750H、16GB DDR4、Quadro P620 4GB 显存。装好 llama.cpp 跑 Qwen3.6-35B-A3B 的 IQ2_M 量化版,默认参数下一测,4.85 t/s。聊天对话框一个字一个字往外蹦,挺难受的。后来调了四个参数,纯 CPU 跑到 9.5 t/s。中间试了各种 GPU 加速方案,全部翻车。这里把整个过程记下来,给配置类似的人一个参考。效果硬件和模型硬件:硬件规格CPUIntel i7-10750H(6核12线程,笔记本)内存16GB DDR4GPUNVIDIA Quadro P620(4GB 显存)系统Windows 11笔记本的内存带宽大概 41GB/s 左右,桌面平台能到 70 以上,这个差距后面会体现出来。P620 这张卡说实话就是个亮机卡,512 个 CUDA 核心,4GB 显存,干不了什么重活。模型:项目内容模型名Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf架构MoE,总参数 35B,每次激活 3B量化IQ2_M文件大小约 10-12GBMoE 架构有个好处,虽然总参数 35B,但每次推理只激活 3B 参数,理论上对速度比较友好。不过瓶颈不在计算量上,在内存带宽上。这个模型光加载就要占掉大部分内存,留给推理时 KV cache 的空间本来就不多。调参过程起点:什么都不调,4.85 t/s一开始就是最朴素的启动方式:llama-server.exe-m"model.gguf"--host