如果你不希望将数据上传到云端担心隐私安全问题或者害怕哪天突然收到一张失控的“天价” API 账单那么在本地部署大模型或许是更安心的选择。而在众多方案之中Ollama 很可能正是你正在寻找的那把钥匙。必备基础AI 时代为什么显卡如此重要AI 时代拼的是算力而提供算力的主力是图形处理单元GPU而非中央处理单元CPU。这让很多刚接触大语言模型LLM的朋友感到疑惑不是 CPU 更强大吗怎么显卡反倒成了主角核心原因是计算类型的匹配AI 推理本质上是超大规模的矩阵乘法。一个 7B 参数的模型每生成一个字就要完成数十亿次乘加运算。CPU 和 GPU 面对这类任务的方式截然不同CPU 是全能选手每个核心都很强大能处理复杂逻辑、条件判断、操作系统调度……但核心数少4~32 个遇到矩阵乘法只能一个一个排队算就像一位数学家用纸笔逐题计算。GPU 是流水线工厂每个核心很简单只会做基本的乘加运算但核心数量庞大消费级 3080 有 8704 个A100 有 6912 个。矩阵的每个元素可以分配给一个核心同时计算整个矩阵一轮就算完效率天壤之别。还有一个关键因素是显存带宽。AI 模型的参数需要不断从内存读入计算单元GPU 的显存带宽如 A100 达 2TB/s远高于 CPU 内存带宽通常 50~100GB/s数据喂得快算力才不会被饿死。所以跑 AI 用 GPU不是因为 GPU更快而是因为 GPU 的架构天然就是为大量简单重复运算设计的和神经网络的计算模式完美匹配。大语言模型有哪些类型大语言模型按不同维度分很多种最常用的是按参数规模、用途、开源/闭源来进行分类。还有一种按处理方式进行的分类方法满血Full precision 就是模型最原始的状态参数用 FP32 或 BF16 浮点数存储一个字都没省。DeepSeek-R1 671B 满血版需要约 1.3TB 显存只有顶级数据中心才能跑。优点是效果最好缺点是贵、重、没人能在家里跑。蒸馏Distillation 本质上是让小模型模仿大模型。用一个 671B 的大模型教师生成大量高质量输出再拿这些输出去训练一个 7B 的小模型学生。小模型参数量少但因为学的是大模型的思维方式能力往往远超同等规模的普通训练模型。DeepSeek-R1-Distill-Qwen-7B 就是这么来的——7B 的体积却带着 R1 的推理能力。蒸馏改变的是模型结构和参数数量是在训练阶段就完成的。量化Quantization 则是在不改变模型结构的前提下把参数的精度降档压缩。原来每个参数用 32 位浮点数FP32存量化到 4 位整数INT4之后体积直接缩小为原来的八分之一。同一个 7B 模型满血版约需 14GB 显存Q4 量化版只需 4~5GB普通消费级显卡甚至 CPU 都能跑。量化是部署阶段的操作能力损失通常很小Q8 几乎无损Q4 略有下降但日常用途基本感知不到。Ollama 里我们拉取的模型默认就是量化版GGUF 格式。用一句话总结三者关系满血是原版蒸馏是浓缩传承量化是压缩打包。在本地跑 AI我们用的几乎一定是量化版或量化过的蒸馏版这也是为什么 Ollama 能让普通电脑跑起大模型的核心原因。模型名称里的 B 是什么每个模型都有好几种版本7B/14B/32B 等B 是 Billion十亿衡量的是模型的参数数量。7B 70亿个参数70B 700亿个参数。参数就是模型在训练过程中学到的所有数值。参数量衡量的是模型有多大不是精度。 可以把参数理解成模型的记忆格子数——格子越多能记住的知识越多、能做的推理越复杂但同时需要的显存和算力也越多。而精度是另一个独立的概念描述的是每个参数用多少位来存储比如量化版 7B 模型中FP32 精度和 Q4 量化精度是两回事参数数量相同但每个参数占的存储空间不一样。所以一个模型的完整描述经常同时包含两个维度比如 qwen2.5:7b-instruct-q4_K_M——7B 说的是参数量Q4 说的是量化精度。Ollama 是什么Ollama 是一款开源工具让我们可以在本地计算机上一键下载、运行各种主流大语言模型LLM无需联网、无需 API Key、无需月费订阅。Ollama 提供对模型量化的支持可以显著降低显存要求使得在普通家用计算机上运行大型模型成为可能。如果你持有最近已经卖断货的 Mac mini M4那就更适合通过 Ollama 部署本地 LLM 了_它支持的模型包括模型特点llama3.2Meta 开源旗舰综合能力强qwen3.5阿里通义系列中文表现优秀deepseek-r1国产推理模型思维链能力突出mistral欧洲出品轻量高效gemma3Google 开源代码能力强phi4微软小钢炮资源占用少环境要求运行 Ollama 之前先确认你的硬件操作系统macOS 11、Linux主流发行版、Windows 10/11内存建议 8GB跑 7B 模型16GB跑 13B 模型显卡可选但推荐支持 NVIDIACUDA、AMDROCm、Apple SiliconMetal磁盘空间根据模型大小预留 5~30GB没有独显也没关系Ollama 支持 CPU 推理只是速度会慢。安装 OllamamacOS / Linux推荐打开终端执行一行命令curl -fsSL https://ollama.com/install.sh | sh安装完成后Ollama 会自动在后台启动服务监听http://localhost:11434。Windows前往官网下载安装包https://ollama.com/download下载.exe文件双击安装即可安装后会出现系统托盘图标。验证安装ollama --version # 输出示例ollama version is 0.17.7下载并运行第一个模型拉取模型# 下载 Llama 3.23B约 2GB ollama pull llama3.2:3b # 下载通义千问中文友好 ollama pull qwen3.5:9b # 下载 DeepSeek-R1推理增强版 ollama pull deepseek-r1:14b直接对话ollama run llama3.2:3b运行后进入交互式对话界面 你好请介绍一下自己 我是 Llama 3.2一个由 Meta 开发的大语言模型... /bye # 输入 /bye 退出对话单次问答非交互模式echo 用 Python 写一个冒泡排序 | ollama run qwen2.5常用命令速查# 查看已下载的模型列表 ollama list # 查看正在运行的模型 ollama ps # 删除模型释放磁盘空间 ollama rm llama3.2:3b # 从远程拉取最新版本 ollama pull llama3.2:latest通过 REST API 调用Ollama 启动后会在本地暴露一个 HTTP API兼容 OpenAI 接口格式方便开发者集成。基础对话接口curl http://localhost:11434/api/chat / -d { model: qwen2.5, messages: [ { role: user, content: 解释一下什么是 RAG 技术 } ], stream: false }Python 调用示例import requests def chat(prompt: str, model: str qwen2.5) - str: response requests.post( http://localhost:11434/api/chat, json{ model: model, messages: [{role: user, content: prompt}], stream: False } ) return response.json()[message][content] # 使用示例 result chat(用一句话解释量子纠缠) print(result)使用官方 Python SDKpip install ollamaimport ollama # 流式输出 for chunk in ollama.chat( modelllama3.2, messages[{role: user, content: 写一首关于春天的诗}], streamTrue ): print(chunk[message][content], end, flushTrue)搭配 Open WebUI 使用图形界面命令行不够直观用 Open WebUI 给 Ollama 加一个类 ChatGPT 的可视化界面Ollama 官方v0.10.0确实有自带的桌面 GUI但它定位是轻量、开箱即用的基础交互而 Open WebUI 是功能更全、可扩展、适合深度使用的增强型 Web 界面。两者定位不同所以很多人仍会安装 Open WebUI。通过 Docker 一键启动docker run -d / -p 3000:8080 / --add-hosthost.docker.internal:host-gateway / -v open-webui:/app/backend/data / --name open-webui / ghcr.io/open-webui/open-webui:main启动后访问http://localhost:3000即可看到完整的 Web 对话界面支持上传文档进行问答RAG多模型切换对比历史对话管理系统提示词自定义需要团队/多用户使用创建自定义模型ModelfileOllama 支持通过Modelfile定制你自己的模型类似 Docker 的Dockerfile。示例创建一个中文助手新建文件ModelfileFROM qwen2.5 # 设置温度创造性 PARAMETER temperature 0.7 # 设定系统角色 SYSTEM 你是一位专业的中文写作助手擅长撰写公众号文章、营销文案和商业报告。 回答时请使用简洁有力的中文避免冗余表达。 构建并运行# 构建自定义模型 ollama create my-writer -f Modelfile # 运行 ollama run my-writer性能优化小技巧选择合适的模型大小内存推荐模型规模8GB3B ~ 7B16GB7B ~ 13B32GB13B ~ 30B64GB70B 量化版使用量化模型节省资源# Q4 量化版内存占用减少约 50%质量略降 ollama pull qwen2.5:7b-instruct-q4_K_M设置并发线程数# 在启动 Ollama 前设置环境变量 export OLLAMA_NUM_PARALLEL4修改模型存储位置参数较多的模型一般会占用较大的存储空间下载前最好设置好存储位置默认仅供本机访问可同时打开允许其它设备访问的开关默认只允许本机访问。常见问题Q模型下载太慢怎么办A可以配置代理或使用国内镜像。在 Linux 上设置OLLAMA_HOST环境变量指向镜像源。Q运行时提示内存不足A换用更小参数量或更高压缩比如 Q2、Q4的量化模型。Q如何在局域网内共享 OllamaA修改监听地址OLLAMA_HOST0.0.0.0:11434 ollama serve其他设备通过http://你的IP:11434即可访问。也可以在 Ollama 的设置中修改参考上图。写在最后Ollama 让本地大模型部署变得像安装一个 App 一样简单。无论你是想保护数据隐私、节省 API 费用还是想深度定制和研究大模型它都是目前最好用的工具之一。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容
Ollama:本地大模型部署神器,5 分钟跑起你的私人 AI
发布时间:2026/6/3 9:33:03
如果你不希望将数据上传到云端担心隐私安全问题或者害怕哪天突然收到一张失控的“天价” API 账单那么在本地部署大模型或许是更安心的选择。而在众多方案之中Ollama 很可能正是你正在寻找的那把钥匙。必备基础AI 时代为什么显卡如此重要AI 时代拼的是算力而提供算力的主力是图形处理单元GPU而非中央处理单元CPU。这让很多刚接触大语言模型LLM的朋友感到疑惑不是 CPU 更强大吗怎么显卡反倒成了主角核心原因是计算类型的匹配AI 推理本质上是超大规模的矩阵乘法。一个 7B 参数的模型每生成一个字就要完成数十亿次乘加运算。CPU 和 GPU 面对这类任务的方式截然不同CPU 是全能选手每个核心都很强大能处理复杂逻辑、条件判断、操作系统调度……但核心数少4~32 个遇到矩阵乘法只能一个一个排队算就像一位数学家用纸笔逐题计算。GPU 是流水线工厂每个核心很简单只会做基本的乘加运算但核心数量庞大消费级 3080 有 8704 个A100 有 6912 个。矩阵的每个元素可以分配给一个核心同时计算整个矩阵一轮就算完效率天壤之别。还有一个关键因素是显存带宽。AI 模型的参数需要不断从内存读入计算单元GPU 的显存带宽如 A100 达 2TB/s远高于 CPU 内存带宽通常 50~100GB/s数据喂得快算力才不会被饿死。所以跑 AI 用 GPU不是因为 GPU更快而是因为 GPU 的架构天然就是为大量简单重复运算设计的和神经网络的计算模式完美匹配。大语言模型有哪些类型大语言模型按不同维度分很多种最常用的是按参数规模、用途、开源/闭源来进行分类。还有一种按处理方式进行的分类方法满血Full precision 就是模型最原始的状态参数用 FP32 或 BF16 浮点数存储一个字都没省。DeepSeek-R1 671B 满血版需要约 1.3TB 显存只有顶级数据中心才能跑。优点是效果最好缺点是贵、重、没人能在家里跑。蒸馏Distillation 本质上是让小模型模仿大模型。用一个 671B 的大模型教师生成大量高质量输出再拿这些输出去训练一个 7B 的小模型学生。小模型参数量少但因为学的是大模型的思维方式能力往往远超同等规模的普通训练模型。DeepSeek-R1-Distill-Qwen-7B 就是这么来的——7B 的体积却带着 R1 的推理能力。蒸馏改变的是模型结构和参数数量是在训练阶段就完成的。量化Quantization 则是在不改变模型结构的前提下把参数的精度降档压缩。原来每个参数用 32 位浮点数FP32存量化到 4 位整数INT4之后体积直接缩小为原来的八分之一。同一个 7B 模型满血版约需 14GB 显存Q4 量化版只需 4~5GB普通消费级显卡甚至 CPU 都能跑。量化是部署阶段的操作能力损失通常很小Q8 几乎无损Q4 略有下降但日常用途基本感知不到。Ollama 里我们拉取的模型默认就是量化版GGUF 格式。用一句话总结三者关系满血是原版蒸馏是浓缩传承量化是压缩打包。在本地跑 AI我们用的几乎一定是量化版或量化过的蒸馏版这也是为什么 Ollama 能让普通电脑跑起大模型的核心原因。模型名称里的 B 是什么每个模型都有好几种版本7B/14B/32B 等B 是 Billion十亿衡量的是模型的参数数量。7B 70亿个参数70B 700亿个参数。参数就是模型在训练过程中学到的所有数值。参数量衡量的是模型有多大不是精度。 可以把参数理解成模型的记忆格子数——格子越多能记住的知识越多、能做的推理越复杂但同时需要的显存和算力也越多。而精度是另一个独立的概念描述的是每个参数用多少位来存储比如量化版 7B 模型中FP32 精度和 Q4 量化精度是两回事参数数量相同但每个参数占的存储空间不一样。所以一个模型的完整描述经常同时包含两个维度比如 qwen2.5:7b-instruct-q4_K_M——7B 说的是参数量Q4 说的是量化精度。Ollama 是什么Ollama 是一款开源工具让我们可以在本地计算机上一键下载、运行各种主流大语言模型LLM无需联网、无需 API Key、无需月费订阅。Ollama 提供对模型量化的支持可以显著降低显存要求使得在普通家用计算机上运行大型模型成为可能。如果你持有最近已经卖断货的 Mac mini M4那就更适合通过 Ollama 部署本地 LLM 了_它支持的模型包括模型特点llama3.2Meta 开源旗舰综合能力强qwen3.5阿里通义系列中文表现优秀deepseek-r1国产推理模型思维链能力突出mistral欧洲出品轻量高效gemma3Google 开源代码能力强phi4微软小钢炮资源占用少环境要求运行 Ollama 之前先确认你的硬件操作系统macOS 11、Linux主流发行版、Windows 10/11内存建议 8GB跑 7B 模型16GB跑 13B 模型显卡可选但推荐支持 NVIDIACUDA、AMDROCm、Apple SiliconMetal磁盘空间根据模型大小预留 5~30GB没有独显也没关系Ollama 支持 CPU 推理只是速度会慢。安装 OllamamacOS / Linux推荐打开终端执行一行命令curl -fsSL https://ollama.com/install.sh | sh安装完成后Ollama 会自动在后台启动服务监听http://localhost:11434。Windows前往官网下载安装包https://ollama.com/download下载.exe文件双击安装即可安装后会出现系统托盘图标。验证安装ollama --version # 输出示例ollama version is 0.17.7下载并运行第一个模型拉取模型# 下载 Llama 3.23B约 2GB ollama pull llama3.2:3b # 下载通义千问中文友好 ollama pull qwen3.5:9b # 下载 DeepSeek-R1推理增强版 ollama pull deepseek-r1:14b直接对话ollama run llama3.2:3b运行后进入交互式对话界面 你好请介绍一下自己 我是 Llama 3.2一个由 Meta 开发的大语言模型... /bye # 输入 /bye 退出对话单次问答非交互模式echo 用 Python 写一个冒泡排序 | ollama run qwen2.5常用命令速查# 查看已下载的模型列表 ollama list # 查看正在运行的模型 ollama ps # 删除模型释放磁盘空间 ollama rm llama3.2:3b # 从远程拉取最新版本 ollama pull llama3.2:latest通过 REST API 调用Ollama 启动后会在本地暴露一个 HTTP API兼容 OpenAI 接口格式方便开发者集成。基础对话接口curl http://localhost:11434/api/chat / -d { model: qwen2.5, messages: [ { role: user, content: 解释一下什么是 RAG 技术 } ], stream: false }Python 调用示例import requests def chat(prompt: str, model: str qwen2.5) - str: response requests.post( http://localhost:11434/api/chat, json{ model: model, messages: [{role: user, content: prompt}], stream: False } ) return response.json()[message][content] # 使用示例 result chat(用一句话解释量子纠缠) print(result)使用官方 Python SDKpip install ollamaimport ollama # 流式输出 for chunk in ollama.chat( modelllama3.2, messages[{role: user, content: 写一首关于春天的诗}], streamTrue ): print(chunk[message][content], end, flushTrue)搭配 Open WebUI 使用图形界面命令行不够直观用 Open WebUI 给 Ollama 加一个类 ChatGPT 的可视化界面Ollama 官方v0.10.0确实有自带的桌面 GUI但它定位是轻量、开箱即用的基础交互而 Open WebUI 是功能更全、可扩展、适合深度使用的增强型 Web 界面。两者定位不同所以很多人仍会安装 Open WebUI。通过 Docker 一键启动docker run -d / -p 3000:8080 / --add-hosthost.docker.internal:host-gateway / -v open-webui:/app/backend/data / --name open-webui / ghcr.io/open-webui/open-webui:main启动后访问http://localhost:3000即可看到完整的 Web 对话界面支持上传文档进行问答RAG多模型切换对比历史对话管理系统提示词自定义需要团队/多用户使用创建自定义模型ModelfileOllama 支持通过Modelfile定制你自己的模型类似 Docker 的Dockerfile。示例创建一个中文助手新建文件ModelfileFROM qwen2.5 # 设置温度创造性 PARAMETER temperature 0.7 # 设定系统角色 SYSTEM 你是一位专业的中文写作助手擅长撰写公众号文章、营销文案和商业报告。 回答时请使用简洁有力的中文避免冗余表达。 构建并运行# 构建自定义模型 ollama create my-writer -f Modelfile # 运行 ollama run my-writer性能优化小技巧选择合适的模型大小内存推荐模型规模8GB3B ~ 7B16GB7B ~ 13B32GB13B ~ 30B64GB70B 量化版使用量化模型节省资源# Q4 量化版内存占用减少约 50%质量略降 ollama pull qwen2.5:7b-instruct-q4_K_M设置并发线程数# 在启动 Ollama 前设置环境变量 export OLLAMA_NUM_PARALLEL4修改模型存储位置参数较多的模型一般会占用较大的存储空间下载前最好设置好存储位置默认仅供本机访问可同时打开允许其它设备访问的开关默认只允许本机访问。常见问题Q模型下载太慢怎么办A可以配置代理或使用国内镜像。在 Linux 上设置OLLAMA_HOST环境变量指向镜像源。Q运行时提示内存不足A换用更小参数量或更高压缩比如 Q2、Q4的量化模型。Q如何在局域网内共享 OllamaA修改监听地址OLLAMA_HOST0.0.0.0:11434 ollama serve其他设备通过http://你的IP:11434即可访问。也可以在 Ollama 的设置中修改参考上图。写在最后Ollama 让本地大模型部署变得像安装一个 App 一样简单。无论你是想保护数据隐私、节省 API 费用还是想深度定制和研究大模型它都是目前最好用的工具之一。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容