llama.cpp 终于有官网了

发布时间：2026/6/9 20:41:19

昨晚人工智能领域发生了一件根本性的转变。如果你一直在关注 AI 浪潮你就会知道对于爱好者、创作者和隐私倡导者来说真正的圣杯是在本地运行人工智能。本地 AI 意味着在你的笔记本电脑或台式机上拥有一个完全独立运行的大脑。这意味着无需订阅、没有企业数据追踪、不需要网络连接以及完全的数字主权。这场革命的绝对王者仍然是 llama.cpp如果你读过我的文章你就知道我的立场llama.cpp 是继 Attention is all you need 之后真正的创新。Transformer 架构让 GPT 模型成为可能而 llama.cpp 让生成式 AI 模型变得人人可及。多年来这场地下本地 AI 运动无可争议的王者是一个名为 llama.cpp 的开源项目。它由开发者 Georgi Gerganov 创建是让普通消费级硬件运行大型语言模型的引擎。然而尽管功能强大llama.cpp 一直以令人望而生畏著称。要使用它你必须浏览满是文字的 GitHub 仓库、理解晦涩的终端命令、手动编译代码并在深网仓库中搜寻下载带有奇怪扩展名如 GGUF的庞大文件。这是一个由开发者构建、为开发者服务的工具。那个时代正式结束了。llama.cpp 背后的团队刚刚推出了一个官方的、极简美学的网站llama.app。与之一同到来的还有软件的全面重构。他们将本地 AI 原始、碎片化的引擎打包成了一个单一的、统一的应用程序任何人都可以一键安装。打开终端并运行irm https://llama.app/install.ps1 | iex此命令适用于 Windows 操作系统但还有其他所有安装方式Winget (Windows)winget install llama.cpp该包会随着新的llama.cpp版本自动更新。Homebrew (Mac 和 Linux)brew install llama.cppMacPorts (Mac)sudo port install llama.cppNix (Mac 和 Linux)nix profile install nixpkgs#llama-cppllama.cpp 团队将 llama.app 与 Pi 等自主编码 agent 深度集成这意味着你现在可以拥有一个私有的 AI 助手直接在你的电脑文件夹中构建软件无需输入任何 API 密钥也无需花费一分钱。1、云端的问题要理解 llama.app 的发布为何是一个里程碑我们必须看看当前主流 AI 的现状。现在大多数人通过网页浏览器或连接到大型企业云的手机应用与人工智能交互。当你在 ChatGPT、Claude 或 Gemini 中输入提示词时你的文字会通过网络传输到装满数千张昂贵显卡的大型数据中心。虽然这些服务无疑非常出色但它们伴随着巨大的隐性成本。第一个成本是隐私。当你使用云服务时你正在将自己的想法、个人写作、商业计划或专有代码发送到第三方服务器。第二个成本是经济。云平台采用订阅模式或按量付费的 API 积分。如果你轻度使用成本尚可管理。但如果你开始将 AI 深度 staggered 入日常工作或者使用不断与模型循环对话的自主 AI agent那些 API 账单可能会飙升至每月数百美元。第三个成本是依赖。如果公司改变定价、修改服务条款、调整模型行为使其变得不那么有用或者遭遇服务器宕机你的工作流会瞬间陷入停滞。本地 AI 解决了所有这些问题。当模型在你的本地机器上运行时你的数据永远不会离开你的硬盘。没有遥测追踪你。无论你生成多少百万字成本都是零美元。而且因为它离线运行即使整个世界失去互联网连接它也能完美工作。你的 AI你的规则2、幕后发生了什么llama.app 背后的新策略可以概括为两个词极致简洁。从历史上看下载 llama.cpp 后你会得到一堆分散的、高度技术化的工具。如果你想通过文本与模型聊天你必须运行一个名为 llama-cli 的命令。如果你想启动一个本地服务器将 AI 连接到其他应用你必须运行一个完全不同的工具 llama-server。如果你是非技术用户光是跟踪这些不同的组件就已经让人头疼。开发者们借鉴了 Git 等现代专业软件的 playbook将所有内容打包到一个单一的、统一的程序中简单地称为llama。现在你有了一个中心接触点。如果你想启动一个本地服务器为其他应用提供 AI只需输入llama serve。如果你想直接在终端中聊天输入llama cli。底层引擎依然和以前一样强大且高度优化但人机交互界面已经被精简为干净、逻辑清晰的设计。3、安装过程统一的llama.app架构的发布扫清了所有这些摩擦。当你将安装字符串粘贴到 Windows PowerShell 终端时你正在启动一个智能部署脚本它充当针对你特定电脑硬件的自动化数字管家。3.1 硬件指纹脚本初始化的那一刻它的首要目标是发现。它开始查询你的操作系统以确定你的核心系统架构。它处理传统的 Intel 和 AMD 系统x86_64但也明确检查现代、高能效的 Qualcomm Snapdragon 芯片ARM64。一旦确定了基础系统架构脚本就会联系其在 Hugging Face 上的存储中心检查一个名为latest的实时文件。这确保了即使你使用的是旧教程链接脚本也总能定位并部署该软件的绝对最新版本而无需你费心寻找版本号。3.2 硬件探测运行本地 AI 模型是一项极其耗费数学计算的任务。为了给你尽可能快的处理速度脚本需要了解你的处理器CPU和显卡GPU的确切数学计算能力。首先它会在你的临时文件夹中放置一个名为vulkan-probe.exe的小工具。Vulkan 是一个现代的通用图形框架允许软件与 Nvidia、AMD 和 Intel 制造的图形芯片通信。如果你的电脑有兼容的显卡这个探测工具就会唤醒它。接下来它启动一个名为featcode.exe的巧妙功能检测工具。该工具扫描你的硬件并生成一个高度特定的功能代码——本质上是一个独特的硬件指纹。如果找到了性能强大的 GPU脚本就会使用该指纹拉取一个专门编译的llama.exe版本以释放你的显卡性能。如果你的机器没有独立显卡脚本会优雅地转向你的 CPU。它再次运行featcode.exe以检查先进的现代 CPU 数学指令如 AVX2 或 AVX512。然后它拉取一个针对你的特定处理器芯片完美优化的应用程序版本。为了节省你的网络带宽所有这些文件都以高度压缩的格式.zst下载脚本在解压后清理其临时工作区。3.3 无缝工作区集成一旦脚本安全获取了为你量身定制的llama.exe文件它必须将其放在你的电脑能找到的地方。传统上这需要深入 Windows 高级设置手动编辑系统环境路径——这一步经常让非技术用户绊倒。安装程序巧妙地绕过了这个麻烦直接将文件移动到一个特定的隐藏 Windows 目录%LOCALAPPDATA%\Microsoft\WindowsAppsWindows 会自然监控这个文件夹。因为脚本将llama.exe直接放入此目录你的操作系统会全局且即时地注册该命令。安装程序完成的那一刻你就可以在机器上任何位置打开任何命令提示符或 PowerShell 窗口输入llama它就会立即启动。3.4 面向未来无缝升级当开发团队发布具有更好性能优化的新版本时会发生什么这个安装程序能完美处理升级。因为 Windows 会阻止你删除或覆盖任何正在运行或正在被监控的软件二进制文件安装程序使用了一个巧妙的非破坏性替换例程。当你重新运行脚本更新系统时它会查看你的WindowsApps文件夹。如果找到旧版本它不会尝试删除而是安全地将其重命名为llama.exe.old并放到一边。然后将全新版本放入原位并干净地删除临时残留文件。4、如何实际使用它现在有一个单一的命令叫做llama。无论你是想要一个交互式的 CLI 聊天环境还是一个兼容 OpenAI API 的服务器并集成开箱即用的 Web 聊天 UI。在第一种情况下运行以下命令查看所有需要的参数llama cli --help在第二种情况下运行以下命令查看所有需要的参数llama serve --help例如我使用最新的 Liquid AI MoE 模型 LFM2.5–8B-A1B 作为服务器运行集成 Web UI如下所示llama.exe serve -m C:\Fabio-AI\Models_big\LFM2.5-8B-A1B-UD-Q4_K_XL.gguf -ngl 99 --mmap -t 4 -ctv q4_0 -ctk q4_0 --reasoning on -fa on --jinja -a lfm258b1a --port 11434 -c 98000就这些。你的本地 AI 已经准备就绪5、本地 Agent 的力量让运行模型变得容易是一项巨大的成就但团队并没有止步于此。新的 llama.app 生态系统明确构建以支持人工智能的下一个前沿自主 agent。标准聊天机器人是被动的。你给它一个提示它给你一个答案然后停止。AI agent 是主动的。当你给 agent 一个目标时它会制定计划、创建自己的提示词、审查自己的输出、捕捉自己的错误并反复循环直到目标达成。这项技术最令人兴奋的例子之一是一个名为 Pi 的基于终端的开源编码 agent开发于仓库 https://github.com/earendil-works/pi。Pi 是住在你的项目文件夹中的编码助手。当你在 workspace 中启动 Pi 时它会读取你的代码文件、创建新功能、修改现有逻辑、运行终端测试查看更改是否有效并调试自己的错误直到软件完美编译。在商业云模型上运行像 Pi 这样的 agent 极其昂贵。因为 agent 必须读取你的整个代码库并与 AI 对话数十次才能解决单个 bug一次自动编码会话很容易耗尽大量云积分。此外让联网的云 agent 读取你的整个私有代码库对许多注重安全的开发者来说是绝对不可接受的。但如果你将新的llama serve栈与 Pi 结合你就得到了终极开发者配置。你得到了一个完全离线工作的自主编码助手运行数千小时绝对零成本并将你的专有源代码安全地保存在你的机器内。6、为什么这改变了一切人们很容易陷入运行开源代码的技术新奇感中但 llama.app 的真正影响是文化和哲学层面的。在过去几年里围绕人工智能的叙事一直被一种不可避免的集中化所主导。llama.app 的发布彻底粉碎了这种叙事。它证明了开源社区不会休息直到世界级技术变得可访问、用户友好且完全去中心化。现在凭借干净、统一的命令结构llama.cpp 维护者将本地 AI 从复杂的工程爱好转变为一种主流工具。你只需要一台现代电脑、一条安装命令以及探索当你的工具完全属于你自己时会有何种可能的好奇心。准入门槛已经消失。本地 AI 正式准备好迎接黄金时刻它就住在你的电脑上。原文链接llama.cpp 终于有官网了 - 汇智网

Windows Terminal文件拖放功能深度解析：从原理到实战的完整指南

Windows Terminal文件拖放功能深度解析：从原理到实战的完整指南【免费下载链接】terminal The new Windows Terminal and the original Windows console host, all in the same place! 项目地址: https://gitcode.com/GitHub_Trending/term/terminal Window…

2026/6/9 20:41:19 阅读更多

HybridCLR：Unity原生C热更新的混合运行时架构深度解析

HybridCLR：Unity原生C#热更新的混合运行时架构深度解析【免费下载链接】hybridclr HybridCLR是一个特性完整、零成本、高性能、低内存的Unity全平台原生c#热更新解决方案。 HybridCLR is a fully featured, zero-cost, high-performance, low-memory solution for …

2026/6/9 20:40:18 阅读更多

终极英雄联盟助手：免费开源工具包让你的游戏体验提升300%

终极英雄联盟助手：免费开源工具包让你的游戏体验提升300% 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为繁琐的游戏准备而烦…

2026/6/9 20:40:18 阅读更多

014、MLIR的ODS（Operation Definition Specification）详解

MLIR的ODS（Operation Definition Specification）详解从一个让我熬夜到凌晨三点的bug说起去年做AI加速器编译器的时候，我定义了一组自定义算子。按照MLIR官方教程写ODS，编译通过，跑起来也正常。直到某天，一个同事在优化pass里用PatternRewriter替换算子时，程序直接崩…

2026/6/9 21:42:15 阅读更多

Meshroom完全指南：免费开源的3D建模神器从入门到精通

Meshroom完全指南：免费开源的3D建模神器从入门到精通【免费下载链接】Meshroom Node-based Visual Programming Toolbox 项目地址: https://gitcode.com/gh_mirrors/me/Meshroom Meshroom是一款功能强大的开源3D重建软件，它基于AliceVision计算机…

2026/6/9 21:40:54 阅读更多

3分钟为Windows桌面注入复古优雅：FlipIt翻页时钟屏保完整指南

3分钟为Windows桌面注入复古优雅：FlipIt翻页时钟屏保完整指南【免费下载链接】FlipIt Flip Clock screensaver 项目地址: https://gitcode.com/gh_mirrors/fl/FlipIt 你是否厌倦了电脑闲置时那单调的黑屏？或者那些花哨却毫无用处的屏保动画&…

2026/6/9 21:39:13 阅读更多

无需安装！3分钟开启你的随身三国杀网页版游戏

无需安装！3分钟开启你的随身三国杀网页版游戏【免费下载链接】noname 项目地址: https://gitcode.com/GitHub_Trending/no/noname 你是否渴望随时来一局三国杀，却受限于设备存储或安装流程？开源三国杀网页版"noname"正是你…

2026/6/9 21:38:12 阅读更多

GBase 8a数据库常用内置函数汇总

南大通用GBase 8a数据库（gbase database）日常 ETL、报表开发、数据清洗高频用到各类内置函数，汇总如下：一、日期函数 1.NOW ：获取当前会话时间 SELECT NOW,SYSDATE; 2.DATE_FORMAT：自定义日期格式化 SELECT…

2026/6/9 21:38:12 阅读更多

K50微控制器外设接口电气与时序参数实战解析

1. 项目概述：从数据手册到可靠设计在嵌入式系统开发中，数据手册里那些密密麻麻的电气规格表和时序图，常常是工程师们又爱又恨的存在。爱的是，它们是硬件设计的“宪法”，一切设计都需以此为据；恨的是&#x…

2026/6/9 21:37:52 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…