记一次失败的本地部署 LLM MTP 模型的过程

发布时间：2026/5/17 1:05:21

文章目录一结论二前言三步骤3.1软件3.2模型3.3运行四测试4.1作者默认参数4.2降低参数4.3继续降低参数4.4原版五再次结论一结论先说结论如果显卡没有24GB的显存确实没必要折腾。显存容量决定体验上限MTP不是“免费加速”而是用更多显存换 decode 加速。二前言最开始是偶然看到DFlash技术Block Diffusion for Flash Speculative Decoding。感觉速度提升巨大但是不太成熟也不支持llama.cpp部署Windows下还没有到能玩的阶段然后就转向了它对比的对象MTP技术Multi-token Prediction。在抱脸上看了一圈发现有作者放出的支持最小模型是gemma-4-26B-A4B-it-UD-IQ4_XS。然后完全忘记了之前在本机测试过这个模型不加Vision视觉部分已经到了16GB显存的上限位置。开始了一轮折腾。三步骤如果你有24GB或更多的VRAM那么可以试一试。3.1软件原版的llama.cpp截至此刻还不支持Gemma4的MTP。所以需要它的一个fork ik_llama。该仓库是llama.cpp分支拥有更优的CPU和混合GPU/CPU性能、新的SOTA量化类型、一流的Bitnet支持、通过MLA、FlashMLA、融合MoE操作和用于混合GPU/CPU推断的张量覆盖、行交错量化打包等。代码gitclone https://github.com/ikawrakow/ik_llama.cpp.git编译cmake-Bbuild-DGGML_NATIVEON-DGGML_CUDAON#因为我是N卡4060TI16GBcmake--buildbuild--configRelease--parallel#并行编译否则慢到怀疑人生结果如果没报错可执行文件就会出现在XXX\ik_llama.cpp\build\bin\Release\目录里面。这里不讨论编译环境简单说就是要编译器和CUDA环境可参考llama.cpp的官方文档。3.2模型首先从抱脸或者魔搭下载原版的gemma-4-26B-A4B-it-UD-IQ4_XS.gguf模型。然后从这里找到gemma-4-26B-A4B-it-assistant-IQ4_XS.gguf模型。3.3运行我们运行这个ik_llama的服务llama-server ^--modelgemma-4-26B-A4B-it-UD-IQ4_XS.gguf ^ --model-draft gemma-4-26B-A4B-it-assistant-IQ4_XS.gguf ^ --spec-type mtp ^ --draft-max3^ --draft-p-min0.0^-ngld99^ --n-gpu-layers99^ --ctx-size32768^-ctkq8_0-ctvq8_0 ^-b1024-ub1024^--jinja^--host127.0.0.1--port8999四测试作者用Q8_0模型的测试结果是RunThroughputAcceptanceBaseline (no MTP)~21 t/s—MTP --draft-max 1~35 t/s~89%MTP --draft-max 2~44 t/s~83%MTP --draft-max 3~49 t/s~74%MTP --draft-max 4~49 t/s~64%所以他推荐预测3个token的参数因为速度最快再高接受率就低了。从这个结果看生成token的速度是原版的2倍以上。刚才的运行参数运行起来后。当我看到共享显存都用掉8GB后就知道这个测试没什么意义了。4.1作者默认参数总耗时3m44s共享显存使用8GBTTFT:2m39s。4.2降低参数--ctx-size12800^-ctkq4_0-ctvq4_0 ^-b256-ub256^总耗时3m25s共享显存使用2.5GBTTFT2m37s。4.3继续降低参数--ctx-size5120^-ctkq4_0-ctvq4_0 ^-b128-ub128^共享显存使用1.3GB……随后报错了server程序在好像要输出token的时候退出了。4.4原版用原版llama.cpp跑gemma-4-26B-A4B-it-UD-IQ4_XS.gguf模型显存占用15GB总耗时1m34s用原版llama.cpp跑gemma-4-26B-A4B-it-UD-IQ2_M.gguf模型显存占用13GB左右。总耗时1m03s五再次结论从上面自己的测试可以看出对我完全没有用。慢的原因是显卡自己的显存用完了。用了所谓共享显存就是系统内存走PCIE总线的速度。这种情况下测试什么都没有意义了俗称显存爆了。如果显卡没有24GB的显存确实没必要折腾。显存还需要计算其它开销例子里没有开vision部分无法图像识别描述。推测MTP技术对于RAG场景提升很小因为RAG是大输入召回信息提示词小输出回答。谁能赠我一张24GB显存的显卡

90%的Python程序员都踩过的8个代码坑，你中了几个？

文章目录前言坑一：函数默认参数的"幽灵"——90%的Python开发者都踩过原因分析正确解法避坑技巧坑二：深拷贝与浅拷贝的"双胞胎"——改一个另一个也变了原因分析正确解法避坑技巧坑三：Python 3.7之后dict有序了&#xff0c…

2026/5/17 1:05:21 阅读更多

Harness 中的请求标识染色：端到端追踪

1. 标题选项（核心关键词：Harness、请求标识染色、端到端追踪、可观测性、CI/CD）「Harness 可观测性实战：请求标识染色实现全链路端到端追踪」「从0到1搞定Harness请求染色：让微服务调用链路+变更链路无所遁形」「告别排查黑洞：Harness请求标识染色的端到端追踪落地指南…

2026/5/17 1:02:18 阅读更多

codex features

这份列表是 OpenAI Codex 内部的功能开关，每个功能都处于特定的开发阶段。下面按稳定程度对这些功能进行了分类说明。 🟢 稳定版 (Stable) - 可以放心使用这些功能已经过充分测试，适合在日常工作流中启用。功能名称功能说明apps支持 AI 直接…

2026/5/17 1:02:18 阅读更多

为什么92%的设计师用错Midjourney极简风？：从色彩压缩率、负空间占比到ASPECT比值的硬核参数校准

更多请点击： https://intelliparadigm.com 第一章：极简主义的视觉哲学与Midjourney失效边界极简主义并非简单地“减少元素”，而是一种通过克制表达强化语义的视觉契约——当提示词中冗余修饰、风格叠加以至语义冲突时，Midjourne…

2026/5/17 1:44:35 阅读更多

可穿戴灯光项目实战：基于Circuit Playground Express与NeoPixel的发光胸衣制作指南

1. 项目概述与核心思路想不想成为派对里最亮眼的存在？几年前，我为了一个主题派对，萌生了制作一件会发光的胸衣的想法。市面上那些简单的LED灯串效果太单一，我想要的是能随着心情变换色彩和图案的动态效果。经过一番折腾&#xff0…

2026/5/17 1:44:35 阅读更多

AI PoE 交换机智能供电与散热功率器件选型方案

在 AI 驱动的下一代 PoE（90W）交换机中，对功率器件提出新挑战：超高功率密度供电、智能热管理、高可靠性与低 EMI。微碧半导体基于 Trench、SGT 及超结工艺，提供覆盖主电源转换、端口功率开关与散热管理的完整 AI PoE 功…

2026/5/17 1:44:15 阅读更多

MySQL 创建，管理，增删改实用笔记

1.1 数据库的创建创建数据库是操作的第一步，合理的命名和字符集设置能避免后续乱码等问题。create {databa|seschema} [if not exists] 数据库名 [[default]character set 字符集名 | [default] collate 校对规则名]注：{|}中的内容表达的意思是二选一if…

2026/5/17 1:44:15 阅读更多

81.人工智能实战：大模型 Badcase 系统怎么搭？从线上问题截图到可复盘、可分类、可回归的质量闭环

人工智能实战：大模型 Badcase 系统怎么搭？从线上问题截图到可复盘、可分类、可回归的质量闭环一、问题场景：用户发来一张截图，团队却不知道怎么复现大模型系统上线后，业务方最常见的反馈方式是： AI 又答错了，你们看一下。然后发来一张截图。截图里可能只有：用户…

2026/5/17 1:43:34 阅读更多

4.2.1 Spark SQL数据源 - 初探默认数据源格式

本节实战围绕 Spark SQL 的默认数据源格式展开，核心是理解当未显式指定 .format() 时，Spark 如何默认使用 Parquet。首先介绍了 spark.sql.sources.default 配置项及其在 spark-defaults.conf 中的设置方法。随后通过一系列命令演示了完整的端到端流程&a…

2026/5/17 1:43:14 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/17 0:01:09 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/17 0:01:09 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/17 0:02:11 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

2026/5/17 0:01:09 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/17 0:01:09 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

2026/5/17 0:02:11 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/16 21:19:19 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/16 19:35:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/16 17:57:38 阅读更多

相关文章

90%的Python程序员都踩过的8个代码坑，你中了几个？

Harness 中的请求标识染色：端到端追踪

codex features

为什么92%的设计师用错Midjourney极简风？：从色彩压缩率、负空间占比到ASPECT比值的硬核参数校准

可穿戴灯光项目实战：基于Circuit Playground Express与NeoPixel的发光胸衣制作指南

AI PoE 交换机智能供电与散热功率器件选型方案

MySQL 创建，管理，增删改实用笔记

81.人工智能实战：大模型 Badcase 系统怎么搭？从线上问题截图到可复盘、可分类、可回归的质量闭环

4.2.1 Spark SQL数据源 - 初探默认数据源格式

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)