小白也能懂的大模型本地部署学习笔记从零开始用你的显卡跑起第一个大模型写在前面这篇文章记录了我作为一个新手从“想学大模型”到真正在本地跑起来、并且理解背后原理的全过程。如果你也有一张 NVIDIA 显卡我的显卡是 RTX 4070 Ti 12GB那这篇文章可能正是你需要的。你将学到如何用 Ollama 一键部署大模型怎么看显存占用、理解量化如何定制自己的模型改提示词、调参数常见坑怎么踩、怎么跳出来下一步该学什么一、为什么要在本地跑大模型隐私数据不出电脑免费不用买 API学习真正理解模型怎么工作而不是只当调包侠我的目标是不只是跑起来而是弄懂为什么能跑起来。二、环境准备一张 NVIDIA 显卡 一个工具我的配置显卡RTX 4070 Ti12GB 显存系统Windows工具Ollama免费、开源、简单安装 Ollama在 Windows 上直接去 ollama.com/download/windows 下载安装包安装就行。命令行安装可能遇到 SSL 报错用安装包最省心。小贴士安装完成后打开终端CMD 或 PowerShell输入ollama -v看到版本号就说明成功了。三、跑起第一个模型Qwen2.5-7B终端输入ollama run qwen2.5:7b它会自动下载模型约 4.7GB然后出现提示符就可以对话了。第一个问题 请介绍一下你自己模型会回答它是阿里云通义千问。观察显存占用打开另一个终端运行nvidia-smi-l1你会看到显存占用了大约4.5~5GB。这就是 7B 模型经过 4-bit 量化后的“饭量”。知识点7B 模型原始 FP16 需要 14GB 显存量化到 4-bit 只需要约 4GB。量化就是减少每个参数的精度用更少的显存跑起来而且通常不会太损失智能。四、理解“量化”自己动手对比拉取不同量化级别的同一个模型ollama run qwen2.5:7b# 默认 4-bitollama run qwen2.5:7b-q8_0# 8-bit 量化文件更大质量更高同时用nvidia-smi看显存占用。8-bit 版本会吃掉大约 7~8GB。你也可以用ollama list查看已下载的模型。为什么 12GB 显存刚好7B 模型 4-bit 量化 → 约 4GB 显存KV Cache存储上下文→ 随对话变长而增长1024 tokens 大约 0.5GB其他开销CUDA 上下文等→ 约 0.5GB所以 12GB 绰绰有余。但如果想跑 13B 模型就得用 4-bit 量化 缩短上下文12GB 会有点勉强。五、认识 Ollama 的灵魂ModelfileModelfile 就像一个“配方”告诉 Ollama 怎么加载、怎么对话。查看 Qwen 的 Modelfileollama show--modelfileqwen2.5:7b你会看到类似这样的内容FROM /path/to/model/weights TEMPLATE ...复杂模板... SYSTEM You are Qwen, created by Alibaba Cloud. You are a helpful assistant. PARAMETER temperature 0.7关键字段FROM模型权重在哪TEMPLATE把用户消息、系统提示拼成模型能理解的格式比如|im_start|user\n你好\n|im_end|SYSTEM默认的系统提示词决定模型“人设”PARAMETER生成参数如temperature温度值越高回答越随机六、自己动手定制模型实验让模型变成古诗词专家创建一个文件Modelfile无扩展名内容如下FROM qwen2.5:7b SYSTEM 你是一位精通中国古诗词的学者回答问题时请引用相关诗句。 PARAMETER temperature 0.8在终端执行ollama create my-poet-f./Modelfile然后运行ollama run my-poet什么是人生几何看它会引用诗句来回答。这就叫提示工程——不改变模型权重只改提示词就能改变行为。七、翻车现场小模型写诗不靠谱我试着用 Llama 3.23B 小模型写五言诗 写一首关于夏天的五言诗 夏日炎热不已, 绿草弯弛无情眠, 风化草木深夜 人心长眠余止。数数字数6字、7字、6字、6字——根本不是五言原因Llama 3.2 训练数据英文多中文古诗能力弱小参数量模型对格式指令遵循能力差解决方法换回 Qwen2.5-7B或者把提示词写得更明确请严格按照五言绝句格式每句正好5个字共4句。教训不是所有模型都擅长所有任务。中文任务优先选国产模型Qwen、Yi、DeepSeek。八、进阶学习地图如果你也想像我一样“不只是会跑”可以参考这个路线图阶段一巩固基础1-2天对比 Q4 和 Q8 模型的质量、速度、显存长对话观察 KV Cache 增长学会计算理论显存参数量×量化比特数/8 上下文开销阶段二深入量化与推理引擎3-5天用llama.cpp手动转换模型、量化安装vLLM体验生产级推理性能阶段三模型定制与微调1周玩转 Modelfile 的所有参数用unsloth做 LoRA 微调喂你自己的数据阶段四综合实战2周RAG用 Ollama LangChain 做本地知识库问答搭建一个简单的聊天界面Gradio / Streamlit设计评测集对比不同模型的中文能力九、常见问题小白踩坑记录问题解决方案curl: (56) schannel: server closed abruptly直接去官网下载安装包别用命令行安装Error: pull model manifest: file does not exist检查模型名是否拼写错误用ollama list查看已有模型刷新页面就 404前端项目Nginx 需要配置try_files $uri $uri/ /index.html;写古诗格式不对换模型或者把提示词写得更详细甚至给例子十、推荐学习资源Ollama 官方文档github.com/ollama/ollama量化论文LLM.int8()、GPTQ推理优化vLLM 博客动手教程Andrej Karpathy 的 nanoGPT国产模型通义千问Qwen、DeepSeek、Yi写在最后本地跑大模型不再是极客的专利。一张 4070 Ti Ollama你就能拥有一台离线、免费、可定制的 AI 助手。而最重要的是——动手做在命令行里敲下ollama run qwen2.5:7b的那一刻你就已经超越了很多只看不练的人。下一步去试试ollama run qwen2.5:14b可能有点卡或者用你自己的数据微调一个模型。祝你学习愉快本文基于真实学习对话整理记录了从零到一的全过程。如果你遇到任何问题欢迎留言交流。
小白也能懂的大模型本地部署学习笔记
发布时间:2026/5/28 23:48:48
小白也能懂的大模型本地部署学习笔记从零开始用你的显卡跑起第一个大模型写在前面这篇文章记录了我作为一个新手从“想学大模型”到真正在本地跑起来、并且理解背后原理的全过程。如果你也有一张 NVIDIA 显卡我的显卡是 RTX 4070 Ti 12GB那这篇文章可能正是你需要的。你将学到如何用 Ollama 一键部署大模型怎么看显存占用、理解量化如何定制自己的模型改提示词、调参数常见坑怎么踩、怎么跳出来下一步该学什么一、为什么要在本地跑大模型隐私数据不出电脑免费不用买 API学习真正理解模型怎么工作而不是只当调包侠我的目标是不只是跑起来而是弄懂为什么能跑起来。二、环境准备一张 NVIDIA 显卡 一个工具我的配置显卡RTX 4070 Ti12GB 显存系统Windows工具Ollama免费、开源、简单安装 Ollama在 Windows 上直接去 ollama.com/download/windows 下载安装包安装就行。命令行安装可能遇到 SSL 报错用安装包最省心。小贴士安装完成后打开终端CMD 或 PowerShell输入ollama -v看到版本号就说明成功了。三、跑起第一个模型Qwen2.5-7B终端输入ollama run qwen2.5:7b它会自动下载模型约 4.7GB然后出现提示符就可以对话了。第一个问题 请介绍一下你自己模型会回答它是阿里云通义千问。观察显存占用打开另一个终端运行nvidia-smi-l1你会看到显存占用了大约4.5~5GB。这就是 7B 模型经过 4-bit 量化后的“饭量”。知识点7B 模型原始 FP16 需要 14GB 显存量化到 4-bit 只需要约 4GB。量化就是减少每个参数的精度用更少的显存跑起来而且通常不会太损失智能。四、理解“量化”自己动手对比拉取不同量化级别的同一个模型ollama run qwen2.5:7b# 默认 4-bitollama run qwen2.5:7b-q8_0# 8-bit 量化文件更大质量更高同时用nvidia-smi看显存占用。8-bit 版本会吃掉大约 7~8GB。你也可以用ollama list查看已下载的模型。为什么 12GB 显存刚好7B 模型 4-bit 量化 → 约 4GB 显存KV Cache存储上下文→ 随对话变长而增长1024 tokens 大约 0.5GB其他开销CUDA 上下文等→ 约 0.5GB所以 12GB 绰绰有余。但如果想跑 13B 模型就得用 4-bit 量化 缩短上下文12GB 会有点勉强。五、认识 Ollama 的灵魂ModelfileModelfile 就像一个“配方”告诉 Ollama 怎么加载、怎么对话。查看 Qwen 的 Modelfileollama show--modelfileqwen2.5:7b你会看到类似这样的内容FROM /path/to/model/weights TEMPLATE ...复杂模板... SYSTEM You are Qwen, created by Alibaba Cloud. You are a helpful assistant. PARAMETER temperature 0.7关键字段FROM模型权重在哪TEMPLATE把用户消息、系统提示拼成模型能理解的格式比如|im_start|user\n你好\n|im_end|SYSTEM默认的系统提示词决定模型“人设”PARAMETER生成参数如temperature温度值越高回答越随机六、自己动手定制模型实验让模型变成古诗词专家创建一个文件Modelfile无扩展名内容如下FROM qwen2.5:7b SYSTEM 你是一位精通中国古诗词的学者回答问题时请引用相关诗句。 PARAMETER temperature 0.8在终端执行ollama create my-poet-f./Modelfile然后运行ollama run my-poet什么是人生几何看它会引用诗句来回答。这就叫提示工程——不改变模型权重只改提示词就能改变行为。七、翻车现场小模型写诗不靠谱我试着用 Llama 3.23B 小模型写五言诗 写一首关于夏天的五言诗 夏日炎热不已, 绿草弯弛无情眠, 风化草木深夜 人心长眠余止。数数字数6字、7字、6字、6字——根本不是五言原因Llama 3.2 训练数据英文多中文古诗能力弱小参数量模型对格式指令遵循能力差解决方法换回 Qwen2.5-7B或者把提示词写得更明确请严格按照五言绝句格式每句正好5个字共4句。教训不是所有模型都擅长所有任务。中文任务优先选国产模型Qwen、Yi、DeepSeek。八、进阶学习地图如果你也想像我一样“不只是会跑”可以参考这个路线图阶段一巩固基础1-2天对比 Q4 和 Q8 模型的质量、速度、显存长对话观察 KV Cache 增长学会计算理论显存参数量×量化比特数/8 上下文开销阶段二深入量化与推理引擎3-5天用llama.cpp手动转换模型、量化安装vLLM体验生产级推理性能阶段三模型定制与微调1周玩转 Modelfile 的所有参数用unsloth做 LoRA 微调喂你自己的数据阶段四综合实战2周RAG用 Ollama LangChain 做本地知识库问答搭建一个简单的聊天界面Gradio / Streamlit设计评测集对比不同模型的中文能力九、常见问题小白踩坑记录问题解决方案curl: (56) schannel: server closed abruptly直接去官网下载安装包别用命令行安装Error: pull model manifest: file does not exist检查模型名是否拼写错误用ollama list查看已有模型刷新页面就 404前端项目Nginx 需要配置try_files $uri $uri/ /index.html;写古诗格式不对换模型或者把提示词写得更详细甚至给例子十、推荐学习资源Ollama 官方文档github.com/ollama/ollama量化论文LLM.int8()、GPTQ推理优化vLLM 博客动手教程Andrej Karpathy 的 nanoGPT国产模型通义千问Qwen、DeepSeek、Yi写在最后本地跑大模型不再是极客的专利。一张 4070 Ti Ollama你就能拥有一台离线、免费、可定制的 AI 助手。而最重要的是——动手做在命令行里敲下ollama run qwen2.5:7b的那一刻你就已经超越了很多只看不练的人。下一步去试试ollama run qwen2.5:14b可能有点卡或者用你自己的数据微调一个模型。祝你学习愉快本文基于真实学习对话整理记录了从零到一的全过程。如果你遇到任何问题欢迎留言交流。