文章目录一结论二前言三步骤3.1软件3.2模型3.3运行四测试4.1作者默认参数4.2降低参数4.3继续降低参数4.4原版五再次结论一结论先说结论如果显卡没有24GB的显存确实没必要折腾。显存容量决定体验上限MTP不是“免费加速”而是用更多显存换 decode 加速。二前言最开始是偶然看到DFlash技术Block Diffusion for Flash Speculative Decoding。感觉速度提升巨大但是不太成熟也不支持llama.cpp部署Windows下还没有到能玩的阶段然后就转向了它对比的对象MTP技术Multi-token Prediction。在抱脸上看了一圈发现有作者放出的支持最小模型是gemma-4-26B-A4B-it-UD-IQ4_XS。然后完全忘记了之前在本机测试过这个模型不加Vision视觉部分已经到了16GB显存的上限位置。开始了一轮折腾。三步骤如果你有24GB或更多的VRAM那么可以试一试。3.1软件原版的llama.cpp截至此刻还不支持Gemma4的MTP。所以需要它的一个fork ik_llama。该仓库是llama.cpp分支拥有更优的CPU和混合GPU/CPU性能、新的SOTA量化类型、一流的Bitnet支持、通过MLA、FlashMLA、融合MoE操作和用于混合GPU/CPU推断的张量覆盖、行交错量化打包等。代码gitclone https://github.com/ikawrakow/ik_llama.cpp.git编译cmake-Bbuild-DGGML_NATIVEON-DGGML_CUDAON#因为我是N卡4060TI16GBcmake--buildbuild--configRelease--parallel#并行编译否则慢到怀疑人生结果如果没报错可执行文件就会出现在XXX\ik_llama.cpp\build\bin\Release\目录里面。这里不讨论编译环境简单说就是要编译器和CUDA环境可参考llama.cpp的官方文档。3.2模型首先从抱脸或者魔搭下载原版的gemma-4-26B-A4B-it-UD-IQ4_XS.gguf模型。然后从 这里 找到gemma-4-26B-A4B-it-assistant-IQ4_XS.gguf模型。3.3运行我们运行这个ik_llama的服务llama-server ^--modelgemma-4-26B-A4B-it-UD-IQ4_XS.gguf ^ --model-draft gemma-4-26B-A4B-it-assistant-IQ4_XS.gguf ^ --spec-type mtp ^ --draft-max3^ --draft-p-min0.0^-ngld99^ --n-gpu-layers99^ --ctx-size32768^-ctkq8_0-ctvq8_0 ^-b1024-ub1024^--jinja^--host127.0.0.1--port8999四测试作者用Q8_0模型的测试结果是RunThroughputAcceptanceBaseline (no MTP)~21 t/s—MTP --draft-max 1~35 t/s~89%MTP --draft-max 2~44 t/s~83%MTP --draft-max 3~49 t/s~74%MTP --draft-max 4~49 t/s~64%所以他推荐预测3个token的参数因为速度最快再高接受率就低了。从这个结果看生成token的速度是原版的2倍以上。刚才的运行参数运行起来后。当我看到共享显存都用掉8GB后就知道这个测试没什么意义了。4.1作者默认参数总耗时3m44s共享显存使用8GBTTFT:2m39s。4.2降低参数--ctx-size12800^-ctkq4_0-ctvq4_0 ^-b256-ub256^总耗时3m25s共享显存使用2.5GBTTFT2m37s。4.3继续降低参数--ctx-size5120^-ctkq4_0-ctvq4_0 ^-b128-ub128^共享显存使用1.3GB……随后报错了server程序在好像要输出token的时候退出了。4.4原版用原版llama.cpp跑gemma-4-26B-A4B-it-UD-IQ4_XS.gguf模型显存占用15GB总耗时1m34s用原版llama.cpp跑gemma-4-26B-A4B-it-UD-IQ2_M.gguf模型显存占用13GB左右。总耗时1m03s五再次结论从上面自己的测试可以看出对我完全没有用。慢的原因是显卡自己的显存用完了。用了所谓共享显存就是系统内存走PCIE总线的速度。这种情况下测试什么都没有意义了俗称显存爆了。如果显卡没有24GB的显存确实没必要折腾。显存还需要计算其它开销例子里没有开vision部分无法图像识别描述。推测MTP技术对于RAG场景提升很小因为RAG是大输入召回信息提示词小输出回答。谁能赠我一张24GB显存的显卡
记一次失败的本地部署 LLM MTP 模型的过程
发布时间:2026/5/17 1:05:21
文章目录一结论二前言三步骤3.1软件3.2模型3.3运行四测试4.1作者默认参数4.2降低参数4.3继续降低参数4.4原版五再次结论一结论先说结论如果显卡没有24GB的显存确实没必要折腾。显存容量决定体验上限MTP不是“免费加速”而是用更多显存换 decode 加速。二前言最开始是偶然看到DFlash技术Block Diffusion for Flash Speculative Decoding。感觉速度提升巨大但是不太成熟也不支持llama.cpp部署Windows下还没有到能玩的阶段然后就转向了它对比的对象MTP技术Multi-token Prediction。在抱脸上看了一圈发现有作者放出的支持最小模型是gemma-4-26B-A4B-it-UD-IQ4_XS。然后完全忘记了之前在本机测试过这个模型不加Vision视觉部分已经到了16GB显存的上限位置。开始了一轮折腾。三步骤如果你有24GB或更多的VRAM那么可以试一试。3.1软件原版的llama.cpp截至此刻还不支持Gemma4的MTP。所以需要它的一个fork ik_llama。该仓库是llama.cpp分支拥有更优的CPU和混合GPU/CPU性能、新的SOTA量化类型、一流的Bitnet支持、通过MLA、FlashMLA、融合MoE操作和用于混合GPU/CPU推断的张量覆盖、行交错量化打包等。代码gitclone https://github.com/ikawrakow/ik_llama.cpp.git编译cmake-Bbuild-DGGML_NATIVEON-DGGML_CUDAON#因为我是N卡4060TI16GBcmake--buildbuild--configRelease--parallel#并行编译否则慢到怀疑人生结果如果没报错可执行文件就会出现在XXX\ik_llama.cpp\build\bin\Release\目录里面。这里不讨论编译环境简单说就是要编译器和CUDA环境可参考llama.cpp的官方文档。3.2模型首先从抱脸或者魔搭下载原版的gemma-4-26B-A4B-it-UD-IQ4_XS.gguf模型。然后从 这里 找到gemma-4-26B-A4B-it-assistant-IQ4_XS.gguf模型。3.3运行我们运行这个ik_llama的服务llama-server ^--modelgemma-4-26B-A4B-it-UD-IQ4_XS.gguf ^ --model-draft gemma-4-26B-A4B-it-assistant-IQ4_XS.gguf ^ --spec-type mtp ^ --draft-max3^ --draft-p-min0.0^-ngld99^ --n-gpu-layers99^ --ctx-size32768^-ctkq8_0-ctvq8_0 ^-b1024-ub1024^--jinja^--host127.0.0.1--port8999四测试作者用Q8_0模型的测试结果是RunThroughputAcceptanceBaseline (no MTP)~21 t/s—MTP --draft-max 1~35 t/s~89%MTP --draft-max 2~44 t/s~83%MTP --draft-max 3~49 t/s~74%MTP --draft-max 4~49 t/s~64%所以他推荐预测3个token的参数因为速度最快再高接受率就低了。从这个结果看生成token的速度是原版的2倍以上。刚才的运行参数运行起来后。当我看到共享显存都用掉8GB后就知道这个测试没什么意义了。4.1作者默认参数总耗时3m44s共享显存使用8GBTTFT:2m39s。4.2降低参数--ctx-size12800^-ctkq4_0-ctvq4_0 ^-b256-ub256^总耗时3m25s共享显存使用2.5GBTTFT2m37s。4.3继续降低参数--ctx-size5120^-ctkq4_0-ctvq4_0 ^-b128-ub128^共享显存使用1.3GB……随后报错了server程序在好像要输出token的时候退出了。4.4原版用原版llama.cpp跑gemma-4-26B-A4B-it-UD-IQ4_XS.gguf模型显存占用15GB总耗时1m34s用原版llama.cpp跑gemma-4-26B-A4B-it-UD-IQ2_M.gguf模型显存占用13GB左右。总耗时1m03s五再次结论从上面自己的测试可以看出对我完全没有用。慢的原因是显卡自己的显存用完了。用了所谓共享显存就是系统内存走PCIE总线的速度。这种情况下测试什么都没有意义了俗称显存爆了。如果显卡没有24GB的显存确实没必要折腾。显存还需要计算其它开销例子里没有开vision部分无法图像识别描述。推测MTP技术对于RAG场景提升很小因为RAG是大输入召回信息提示词小输出回答。谁能赠我一张24GB显存的显卡