llama.cpp进行模型格式转换和量化

发布时间：2026/6/11 9:47:06

llama.cpp进行模型格式转换和量化1. 什么是llama.cpp2. 核心底层GGML GGUF3. 拉取项目4. 安装依赖5. 编译6. 转换模型7. 量化本文介绍如何使用llama将safetensor格式的模型装成gguf并对转换后的模型进行量化。1. 什么是llama.cppllama.cpp 是由开发者 Georgi Gerganov 开源、基于纯 C/C 实现的轻量化大语言模型本地推理引擎MIT 开源协议免费商用最初为在普通消费硬件运行 Meta LLaMA 模型而生现已成为本地 / 边缘跑量化大模型的工业事实标准。核心目标零 Python 依赖、极致轻量化、全硬件兼容、低内存量化推理让 7B/13B/34B/70B 大模型在普通 CPU、轻薄本、树莓派、手机、无独显电脑流畅运行。2. 核心底层GGML GGUFGGML底层张量库llama.cpp 内置自研 C 张量计算库 GGML是高性能的根源无第三方数学库依赖手写硬件原生算子深度优化 CPU 指令集x86 AVX2/AVX512/AMX、ARM NEON延迟计算图、算子融合、栈内存分配、mmap 文件内存映射减少内存开销统一硬件抽象层插拔式后端CPU/CUDA/Metal/Vulkan/ROCm支持 CPUGPU 混合推理。GGUF标准模型格式替代旧 GGMLGGUF GGML Universal Format当前唯一推荐模型格式本地量化模型通用标准Hugging Face、Ollama、LM Studio、KoboldCpp 全部支持单文件打包一切权重、分词器、模型架构、上下文长度、Prompt 模板、量化参数全部存在一个 .gguf 文件无需额外配置原生支持内存映射 mmap模型文件不完整载入内存低配设备4GB/8GB 内存也能加载超大模型完整向后兼容支持 FP16、FP32、各类 2~8bit 量化权重结构化元数据自动识别 LLaMA3、Qwen、Mistral、Gemma、Yi、Mamba 等几乎所有主流开源模型架构。3. 拉取项目gitclone https://github.com/ggerganov/llama.cpp.git# 假设根目录是/home/wengadcdllama.cpp4. 安装依赖pipinstall-rrequirements.txt5. 编译make#或者 cmake -B build cmake --build build --config Releasecmake-Bbuildcmake--buildbuild--configRelease6. 转换模型cd/home/wengad/llama.cpp python convert-hf-to-gguf.py\/mnt/f/vproject/Moment/models/qwen3_5-4b\--outfile/mnt/f/vproject/Moment/models/qwen3_5-4b-f16.gguf\--outtypef16INFO:gguf.gguf_writer:Writing the following files:INFO:gguf.gguf_writer:/mnt/e/models/Qwen3.5-4B.gguf: n_tensors 441,total_size 8.7G Writing:100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████|8.65G/8.65G [00:5900:00, 145Mbyte/s] INFO:hf-to-gguf:Model successfully exported to /mnt/e/models/Qwen3.5-4B.gguf7. 量化# 量化./llama-quantize /mnt/e/models/Qwen3.5-4B.gguf /mnt/e/models/Qwen3.5-4B_q8_0.gguf q8_0[ 434/ 441] blk.32.ffn_down.weight - [ 9216, 2560,1, 1], type f16, converting to q8_0 … size 45.00 MiB- 23.91 MiB [ 435/ 441] blk.32.ffn_gate.weight - [ 2560, 9216, 1, 1], type f16, converting to q8_0 …size 45.00 MiB - 23.91 MiB [ 436/ 441] blk.32.ffn_up.weight[ 2560, 9216, 1, 1], type f16, converting to q8_0 … size 45.00 MiB - 23.91 MiB [ 437/ 441]blk.32.nextn.eh_proj.weight - [ 5120, 2560, 1,1], type f16, converting to q8_0 … size 25.00 MiB -13.28 MiB [ 438/ 441] blk.32.nextn.enorm.weight - [ 2560, 1, 1, 1], type f32, size 0.010 MiB [ 439/ 441]blk.32.nextn.hnorm.weight - [ 2560, 1, 1,1], type f32, size 0.010 MiB [ 440/ 441]blk.32.nextn.shared_head_norm.weight - [ 2560, 1, 1,1], type f32, size 0.010 MiB [ 441/ 441]blk.32.post_attention_norm.weight - [ 2560, 1, 1,1], type f32, size 0.010 MiB llama_model_quantize_impl:model size 8253.72 MiB (16.00 BPW) llama_model_quantize_impl:quant size 4386.53 MiB (8.51 BPW)llama_quantize: quantize time 68303.38 ms llama_quantize: totaltime 68303.38 ms

YOLOv8融合BiFPN实战：从原理到代码，mAP50-95显著提升

1. BiFPN核心原理：为什么它能提升YOLOv8性能 BiFPN全称Bidirectional Feature Pyramid Network，最早出现在谷歌的EfficientDet论文中。它的核心思想是通过加权双向特征融合来解决传统FPN（特征金字塔网络）的信息流失问题。我曾在工…

2026/6/11 9:46:05 阅读更多

3个性能优化小技巧

博主介绍：程序喵大人 35 - 资深C/C/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C20高级编程》《C23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末👇&#x…

2026/6/11 9:46:05 阅读更多

077、模型验证器 Validator 源码深度拆解：TQDM 进度条到Batch 循环到指标累积

077、模型验证器 Validator 源码深度拆解：TQDM 进度条到Batch 循环到指标累积从一次诡异的mAP波动说起上周三凌晨两点，我在调试YOLOv8的验证流程。训练了200个epoch的模型，验证集mAP0.5:0.95在0.523到0.537之间反复横跳，每次跑验…

2026/6/11 9:45:25 阅读更多

Java毕业设计-基于BS模式的医院在线挂号预约系统设计基于SpringBoot的智能在线预约挂号系统(源码+LW+部署文档+全bao+远程调试+代码讲解等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/11 11:07:14 阅读更多

智能基线校正终极指南：为什么airPLS算法是科研数据处理的首选方案

智能基线校正终极指南：为什么airPLS算法是科研数据处理的首选方案【免费下载链接】airPLS baseline correction using adaptive iteratively reweighted Penalized Least Squares 项目地址: https://gitcode.com/gh_mirrors/ai/airPLS 在光谱分析、色谱检测…

2026/6/11 11:05:12 阅读更多

2026 年抚州企业做 GEO 避坑指南：模板内容、隐形收费两大陷阱要警惕

AI 搜索流量红利持续释放，如今抚州工业园区制造工厂、城区实体门店、律所口腔等专业机构，纷纷布局 GEO 优化抢占客源。据本地营销调研数据显示，近一年抚州新增 GEO 服务合作的企业数量涨幅达 40%。但高速发展的同时，行业乱象也随之…

2026/6/11 11:05:12 阅读更多

PyEcharts 热力图实战：从数据到洞察的可视化之旅

1. 热力图入门：为什么选择PyEcharts？ 第一次接触热力图是在分析电商平台的用户行为数据时。当时面对密密麻麻的Excel表格，我盯着数字看了半小时也没看出规律，直到同事用Python画了张热力图——瞬间就发现了用户活跃的高峰时段。这…

2026/6/11 11:05:12 阅读更多

Steam挂刀行情终极指南：免费搭建24小时饰品交易监控系统

Steam挂刀行情终极指南：免费搭建24小时饰品交易监控系统【免费下载链接】SteamTradingSiteTracker Steam 挂刀行情站 —— 24小时更新的 BUFF & IGXE & C5 & UUYP & ECO 挂刀比例数据 | Track cheap Steam Community Market items on buff.163.com…

2026/6/11 11:04:52 阅读更多

微信聊天记录永久保存神器：5分钟搞定你的数字记忆银行

微信聊天记录永久保存神器：5分钟搞定你的数字记忆银行【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/we/WeCha…

2026/6/11 11:04:11 阅读更多

LLM 多轮对话状态管理：从无状态 API 到有状态会话

LLM 多轮对话状态管理：从无状态 API 到有状态会话一、大模型 API 的无状态困境：上下文窗口的有限性与会话连续性大模型的 Chat API 本质上是无状态的——每次请求都需要发送完整的对话历史。这种设计简化了服务端实现，但给后端架构带来了两个…

2026/6/11 1:00:57 阅读更多

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命一、JVM 冷启动的性能困境：云原生环境下的启动延迟 Java 应用在云原生环境中面临的核心挑战是冷启动延迟。一个典型的 Spring Boot 2 应用，启动时间约 3-8 秒，内存占…

2026/6/11 1:01:58 阅读更多

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践一、Go 错误处理的工程困境：哨兵值与信息丢失 Go 的错误处理采用显式返回值模式，if err ! nil 是每个 Go 开发者最熟悉的代码片段。然而，当项目规模增长后，简…

2026/6/11 1:01:58 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/11 9:57:14 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/11 9:57:16 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/11 9:57:14 阅读更多

相关文章

YOLOv8融合BiFPN实战：从原理到代码，mAP50-95显著提升

3个性能优化小技巧

077、模型验证器 Validator 源码深度拆解：TQDM 进度条到Batch 循环到指标累积

Java毕业设计-基于BS模式的医院在线挂号预约系统设计基于SpringBoot的智能在线预约挂号系统(源码+LW+部署文档+全bao+远程调试+代码讲解等)

智能基线校正终极指南：为什么airPLS算法是科研数据处理的首选方案

2026 年抚州企业做 GEO 避坑指南：模板内容、隐形收费两大陷阱要警惕

PyEcharts 热力图实战：从数据到洞察的可视化之旅

Steam挂刀行情终极指南：免费搭建24小时饰品交易监控系统

微信聊天记录永久保存神器：5分钟搞定你的数字记忆银行

LLM 多轮对话状态管理：从无状态 API 到有状态会话

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因