昨晚人工智能领域发生了一件根本性的转变。如果你一直在关注 AI 浪潮你就会知道对于爱好者、创作者和隐私倡导者来说真正的圣杯是在本地运行人工智能。本地 AI 意味着在你的笔记本电脑或台式机上拥有一个完全独立运行的大脑。这意味着无需订阅、没有企业数据追踪、不需要网络连接以及完全的数字主权。这场革命的绝对王者仍然是 llama.cpp如果你读过我的文章你就知道我的立场llama.cpp 是继 Attention is all you need 之后真正的创新。Transformer 架构让 GPT 模型成为可能而 llama.cpp 让生成式 AI 模型变得人人可及。多年来这场地下本地 AI 运动无可争议的王者是一个名为 llama.cpp 的开源项目。它由开发者 Georgi Gerganov 创建是让普通消费级硬件运行大型语言模型的引擎。然而尽管功能强大llama.cpp 一直以令人望而生畏著称。要使用它你必须浏览满是文字的 GitHub 仓库、理解晦涩的终端命令、手动编译代码并在深网仓库中搜寻下载带有奇怪扩展名如 GGUF的庞大文件。这是一个由开发者构建、为开发者服务的工具。那个时代正式结束了。llama.cpp 背后的团队刚刚推出了一个官方的、极简美学的网站llama.app。与之一同到来的还有软件的全面重构。他们将本地 AI 原始、碎片化的引擎打包成了一个单一的、统一的应用程序任何人都可以一键安装。打开终端并运行irm https://llama.app/install.ps1 | iex此命令适用于 Windows 操作系统但还有其他所有安装方式Winget (Windows)winget install llama.cpp该包会随着新的llama.cpp版本自动更新。Homebrew (Mac 和 Linux)brew install llama.cppMacPorts (Mac)sudo port install llama.cppNix (Mac 和 Linux)nix profile install nixpkgs#llama-cppllama.cpp 团队将 llama.app 与 Pi 等自主编码 agent 深度集成这意味着你现在可以拥有一个私有的 AI 助手直接在你的电脑文件夹中构建软件无需输入任何 API 密钥也无需花费一分钱。1、云端的问题要理解 llama.app 的发布为何是一个里程碑我们必须看看当前主流 AI 的现状。现在大多数人通过网页浏览器或连接到大型企业云的手机应用与人工智能交互。当你在 ChatGPT、Claude 或 Gemini 中输入提示词时你的文字会通过网络传输到装满数千张昂贵显卡的大型数据中心。虽然这些服务无疑非常出色但它们伴随着巨大的隐性成本。第一个成本是隐私。当你使用云服务时你正在将自己的想法、个人写作、商业计划或专有代码发送到第三方服务器。第二个成本是经济。云平台采用订阅模式或按量付费的 API 积分。如果你轻度使用成本尚可管理。但如果你开始将 AI 深度 staggered 入日常工作或者使用不断与模型循环对话的自主 AI agent那些 API 账单可能会飙升至每月数百美元。第三个成本是依赖。如果公司改变定价、修改服务条款、调整模型行为使其变得不那么有用或者遭遇服务器宕机你的工作流会瞬间陷入停滞。本地 AI 解决了所有这些问题。当模型在你的本地机器上运行时你的数据永远不会离开你的硬盘。没有遥测追踪你。无论你生成多少百万字成本都是零美元。而且因为它离线运行即使整个世界失去互联网连接它也能完美工作。你的 AI你的规则2、幕后发生了什么llama.app 背后的新策略可以概括为两个词极致简洁。从历史上看下载 llama.cpp 后你会得到一堆分散的、高度技术化的工具。如果你想通过文本与模型聊天你必须运行一个名为 llama-cli 的命令。如果你想启动一个本地服务器将 AI 连接到其他应用你必须运行一个完全不同的工具 llama-server。如果你是非技术用户光是跟踪这些不同的组件就已经让人头疼。开发者们借鉴了 Git 等现代专业软件的 playbook将所有内容打包到一个单一的、统一的程序中简单地称为llama。现在你有了一个中心接触点。如果你想启动一个本地服务器为其他应用提供 AI只需输入llama serve。如果你想直接在终端中聊天输入llama cli。底层引擎依然和以前一样强大且高度优化但人机交互界面已经被精简为干净、逻辑清晰的设计。3、安装过程统一的llama.app架构的发布扫清了所有这些摩擦。当你将安装字符串粘贴到 Windows PowerShell 终端时你正在启动一个智能部署脚本它充当针对你特定电脑硬件的自动化数字管家。3.1 硬件指纹脚本初始化的那一刻它的首要目标是发现。它开始查询你的操作系统以确定你的核心系统架构。它处理传统的 Intel 和 AMD 系统x86_64但也明确检查现代、高能效的 Qualcomm Snapdragon 芯片ARM64。一旦确定了基础系统架构脚本就会联系其在 Hugging Face 上的存储中心检查一个名为latest的实时文件。这确保了即使你使用的是旧教程链接脚本也总能定位并部署该软件的绝对最新版本而无需你费心寻找版本号。3.2 硬件探测运行本地 AI 模型是一项极其耗费数学计算的任务。为了给你尽可能快的处理速度脚本需要了解你的处理器CPU和显卡GPU的确切数学计算能力。首先它会在你的临时文件夹中放置一个名为vulkan-probe.exe的小工具。Vulkan 是一个现代的通用图形框架允许软件与 Nvidia、AMD 和 Intel 制造的图形芯片通信。如果你的电脑有兼容的显卡这个探测工具就会唤醒它。接下来它启动一个名为featcode.exe的巧妙功能检测工具。该工具扫描你的硬件并生成一个高度特定的功能代码——本质上是一个独特的硬件指纹。如果找到了性能强大的 GPU脚本就会使用该指纹拉取一个专门编译的llama.exe版本以释放你的显卡性能。如果你的机器没有独立显卡脚本会优雅地转向你的 CPU。它再次运行featcode.exe以检查先进的现代 CPU 数学指令如 AVX2 或 AVX512。然后它拉取一个针对你的特定处理器芯片完美优化的应用程序版本。为了节省你的网络带宽所有这些文件都以高度压缩的格式.zst下载脚本在解压后清理其临时工作区。3.3 无缝工作区集成一旦脚本安全获取了为你量身定制的llama.exe文件它必须将其放在你的电脑能找到的地方。传统上这需要深入 Windows 高级设置手动编辑系统环境路径——这一步经常让非技术用户绊倒。安装程序巧妙地绕过了这个麻烦直接将文件移动到一个特定的隐藏 Windows 目录%LOCALAPPDATA%\Microsoft\WindowsAppsWindows 会自然监控这个文件夹。因为脚本将llama.exe直接放入此目录你的操作系统会全局且即时地注册该命令。安装程序完成的那一刻你就可以在机器上任何位置打开任何命令提示符或 PowerShell 窗口输入llama它就会立即启动。3.4 面向未来无缝升级当开发团队发布具有更好性能优化的新版本时会发生什么这个安装程序能完美处理升级。因为 Windows 会阻止你删除或覆盖任何正在运行或正在被监控的软件二进制文件安装程序使用了一个巧妙的非破坏性替换例程。当你重新运行脚本更新系统时它会查看你的WindowsApps文件夹。如果找到旧版本它不会尝试删除而是安全地将其重命名为llama.exe.old并放到一边。然后将全新版本放入原位并干净地删除临时残留文件。4、如何实际使用它现在有一个单一的命令叫做llama。无论你是想要一个交互式的 CLI 聊天环境还是一个兼容 OpenAI API 的服务器并集成开箱即用的 Web 聊天 UI。在第一种情况下运行以下命令查看所有需要的参数llama cli --help在第二种情况下运行以下命令查看所有需要的参数llama serve --help例如我使用最新的 Liquid AI MoE 模型 LFM2.5–8B-A1B 作为服务器运行集成 Web UI如下所示llama.exe serve -m C:\Fabio-AI\Models_big\LFM2.5-8B-A1B-UD-Q4_K_XL.gguf -ngl 99 --mmap -t 4 -ctv q4_0 -ctk q4_0 --reasoning on -fa on --jinja -a lfm258b1a --port 11434 -c 98000就这些。你的本地 AI 已经准备就绪5、本地 Agent 的力量让运行模型变得容易是一项巨大的成就但团队并没有止步于此。新的 llama.app 生态系统明确构建以支持人工智能的下一个前沿自主 agent。标准聊天机器人是被动的。你给它一个提示它给你一个答案然后停止。AI agent 是主动的。当你给 agent 一个目标时它会制定计划、创建自己的提示词、审查自己的输出、捕捉自己的错误并反复循环直到目标达成。这项技术最令人兴奋的例子之一是一个名为 Pi 的基于终端的开源编码 agent开发于仓库 https://github.com/earendil-works/pi。Pi 是住在你的项目文件夹中的编码助手。当你在 workspace 中启动 Pi 时它会读取你的代码文件、创建新功能、修改现有逻辑、运行终端测试查看更改是否有效并调试自己的错误直到软件完美编译。在商业云模型上运行像 Pi 这样的 agent 极其昂贵。因为 agent 必须读取你的整个代码库并与 AI 对话数十次才能解决单个 bug一次自动编码会话很容易耗尽大量云积分。此外让联网的云 agent 读取你的整个私有代码库对许多注重安全的开发者来说是绝对不可接受的。但如果你将新的llama serve栈与 Pi 结合你就得到了终极开发者配置。你得到了一个完全离线工作的自主编码助手运行数千小时绝对零成本并将你的专有源代码安全地保存在你的机器内。6、为什么这改变了一切人们很容易陷入运行开源代码的技术新奇感中但 llama.app 的真正影响是文化和哲学层面的。在过去几年里围绕人工智能的叙事一直被一种不可避免的集中化所主导。llama.app 的发布彻底粉碎了这种叙事。它证明了开源社区不会休息直到世界级技术变得可访问、用户友好且完全去中心化。现在凭借干净、统一的命令结构llama.cpp 维护者将本地 AI 从复杂的工程爱好转变为一种主流工具。你只需要一台现代电脑、一条安装命令以及探索当你的工具完全属于你自己时会有何种可能的好奇心。准入门槛已经消失。本地 AI 正式准备好迎接黄金时刻它就住在你的电脑上。原文链接llama.cpp 终于有官网了 - 汇智网
llama.cpp 终于有官网了
发布时间:2026/6/9 20:41:19
昨晚人工智能领域发生了一件根本性的转变。如果你一直在关注 AI 浪潮你就会知道对于爱好者、创作者和隐私倡导者来说真正的圣杯是在本地运行人工智能。本地 AI 意味着在你的笔记本电脑或台式机上拥有一个完全独立运行的大脑。这意味着无需订阅、没有企业数据追踪、不需要网络连接以及完全的数字主权。这场革命的绝对王者仍然是 llama.cpp如果你读过我的文章你就知道我的立场llama.cpp 是继 Attention is all you need 之后真正的创新。Transformer 架构让 GPT 模型成为可能而 llama.cpp 让生成式 AI 模型变得人人可及。多年来这场地下本地 AI 运动无可争议的王者是一个名为 llama.cpp 的开源项目。它由开发者 Georgi Gerganov 创建是让普通消费级硬件运行大型语言模型的引擎。然而尽管功能强大llama.cpp 一直以令人望而生畏著称。要使用它你必须浏览满是文字的 GitHub 仓库、理解晦涩的终端命令、手动编译代码并在深网仓库中搜寻下载带有奇怪扩展名如 GGUF的庞大文件。这是一个由开发者构建、为开发者服务的工具。那个时代正式结束了。llama.cpp 背后的团队刚刚推出了一个官方的、极简美学的网站llama.app。与之一同到来的还有软件的全面重构。他们将本地 AI 原始、碎片化的引擎打包成了一个单一的、统一的应用程序任何人都可以一键安装。打开终端并运行irm https://llama.app/install.ps1 | iex此命令适用于 Windows 操作系统但还有其他所有安装方式Winget (Windows)winget install llama.cpp该包会随着新的llama.cpp版本自动更新。Homebrew (Mac 和 Linux)brew install llama.cppMacPorts (Mac)sudo port install llama.cppNix (Mac 和 Linux)nix profile install nixpkgs#llama-cppllama.cpp 团队将 llama.app 与 Pi 等自主编码 agent 深度集成这意味着你现在可以拥有一个私有的 AI 助手直接在你的电脑文件夹中构建软件无需输入任何 API 密钥也无需花费一分钱。1、云端的问题要理解 llama.app 的发布为何是一个里程碑我们必须看看当前主流 AI 的现状。现在大多数人通过网页浏览器或连接到大型企业云的手机应用与人工智能交互。当你在 ChatGPT、Claude 或 Gemini 中输入提示词时你的文字会通过网络传输到装满数千张昂贵显卡的大型数据中心。虽然这些服务无疑非常出色但它们伴随着巨大的隐性成本。第一个成本是隐私。当你使用云服务时你正在将自己的想法、个人写作、商业计划或专有代码发送到第三方服务器。第二个成本是经济。云平台采用订阅模式或按量付费的 API 积分。如果你轻度使用成本尚可管理。但如果你开始将 AI 深度 staggered 入日常工作或者使用不断与模型循环对话的自主 AI agent那些 API 账单可能会飙升至每月数百美元。第三个成本是依赖。如果公司改变定价、修改服务条款、调整模型行为使其变得不那么有用或者遭遇服务器宕机你的工作流会瞬间陷入停滞。本地 AI 解决了所有这些问题。当模型在你的本地机器上运行时你的数据永远不会离开你的硬盘。没有遥测追踪你。无论你生成多少百万字成本都是零美元。而且因为它离线运行即使整个世界失去互联网连接它也能完美工作。你的 AI你的规则2、幕后发生了什么llama.app 背后的新策略可以概括为两个词极致简洁。从历史上看下载 llama.cpp 后你会得到一堆分散的、高度技术化的工具。如果你想通过文本与模型聊天你必须运行一个名为 llama-cli 的命令。如果你想启动一个本地服务器将 AI 连接到其他应用你必须运行一个完全不同的工具 llama-server。如果你是非技术用户光是跟踪这些不同的组件就已经让人头疼。开发者们借鉴了 Git 等现代专业软件的 playbook将所有内容打包到一个单一的、统一的程序中简单地称为llama。现在你有了一个中心接触点。如果你想启动一个本地服务器为其他应用提供 AI只需输入llama serve。如果你想直接在终端中聊天输入llama cli。底层引擎依然和以前一样强大且高度优化但人机交互界面已经被精简为干净、逻辑清晰的设计。3、安装过程统一的llama.app架构的发布扫清了所有这些摩擦。当你将安装字符串粘贴到 Windows PowerShell 终端时你正在启动一个智能部署脚本它充当针对你特定电脑硬件的自动化数字管家。3.1 硬件指纹脚本初始化的那一刻它的首要目标是发现。它开始查询你的操作系统以确定你的核心系统架构。它处理传统的 Intel 和 AMD 系统x86_64但也明确检查现代、高能效的 Qualcomm Snapdragon 芯片ARM64。一旦确定了基础系统架构脚本就会联系其在 Hugging Face 上的存储中心检查一个名为latest的实时文件。这确保了即使你使用的是旧教程链接脚本也总能定位并部署该软件的绝对最新版本而无需你费心寻找版本号。3.2 硬件探测运行本地 AI 模型是一项极其耗费数学计算的任务。为了给你尽可能快的处理速度脚本需要了解你的处理器CPU和显卡GPU的确切数学计算能力。首先它会在你的临时文件夹中放置一个名为vulkan-probe.exe的小工具。Vulkan 是一个现代的通用图形框架允许软件与 Nvidia、AMD 和 Intel 制造的图形芯片通信。如果你的电脑有兼容的显卡这个探测工具就会唤醒它。接下来它启动一个名为featcode.exe的巧妙功能检测工具。该工具扫描你的硬件并生成一个高度特定的功能代码——本质上是一个独特的硬件指纹。如果找到了性能强大的 GPU脚本就会使用该指纹拉取一个专门编译的llama.exe版本以释放你的显卡性能。如果你的机器没有独立显卡脚本会优雅地转向你的 CPU。它再次运行featcode.exe以检查先进的现代 CPU 数学指令如 AVX2 或 AVX512。然后它拉取一个针对你的特定处理器芯片完美优化的应用程序版本。为了节省你的网络带宽所有这些文件都以高度压缩的格式.zst下载脚本在解压后清理其临时工作区。3.3 无缝工作区集成一旦脚本安全获取了为你量身定制的llama.exe文件它必须将其放在你的电脑能找到的地方。传统上这需要深入 Windows 高级设置手动编辑系统环境路径——这一步经常让非技术用户绊倒。安装程序巧妙地绕过了这个麻烦直接将文件移动到一个特定的隐藏 Windows 目录%LOCALAPPDATA%\Microsoft\WindowsAppsWindows 会自然监控这个文件夹。因为脚本将llama.exe直接放入此目录你的操作系统会全局且即时地注册该命令。安装程序完成的那一刻你就可以在机器上任何位置打开任何命令提示符或 PowerShell 窗口输入llama它就会立即启动。3.4 面向未来无缝升级当开发团队发布具有更好性能优化的新版本时会发生什么这个安装程序能完美处理升级。因为 Windows 会阻止你删除或覆盖任何正在运行或正在被监控的软件二进制文件安装程序使用了一个巧妙的非破坏性替换例程。当你重新运行脚本更新系统时它会查看你的WindowsApps文件夹。如果找到旧版本它不会尝试删除而是安全地将其重命名为llama.exe.old并放到一边。然后将全新版本放入原位并干净地删除临时残留文件。4、如何实际使用它现在有一个单一的命令叫做llama。无论你是想要一个交互式的 CLI 聊天环境还是一个兼容 OpenAI API 的服务器并集成开箱即用的 Web 聊天 UI。在第一种情况下运行以下命令查看所有需要的参数llama cli --help在第二种情况下运行以下命令查看所有需要的参数llama serve --help例如我使用最新的 Liquid AI MoE 模型 LFM2.5–8B-A1B 作为服务器运行集成 Web UI如下所示llama.exe serve -m C:\Fabio-AI\Models_big\LFM2.5-8B-A1B-UD-Q4_K_XL.gguf -ngl 99 --mmap -t 4 -ctv q4_0 -ctk q4_0 --reasoning on -fa on --jinja -a lfm258b1a --port 11434 -c 98000就这些。你的本地 AI 已经准备就绪5、本地 Agent 的力量让运行模型变得容易是一项巨大的成就但团队并没有止步于此。新的 llama.app 生态系统明确构建以支持人工智能的下一个前沿自主 agent。标准聊天机器人是被动的。你给它一个提示它给你一个答案然后停止。AI agent 是主动的。当你给 agent 一个目标时它会制定计划、创建自己的提示词、审查自己的输出、捕捉自己的错误并反复循环直到目标达成。这项技术最令人兴奋的例子之一是一个名为 Pi 的基于终端的开源编码 agent开发于仓库 https://github.com/earendil-works/pi。Pi 是住在你的项目文件夹中的编码助手。当你在 workspace 中启动 Pi 时它会读取你的代码文件、创建新功能、修改现有逻辑、运行终端测试查看更改是否有效并调试自己的错误直到软件完美编译。在商业云模型上运行像 Pi 这样的 agent 极其昂贵。因为 agent 必须读取你的整个代码库并与 AI 对话数十次才能解决单个 bug一次自动编码会话很容易耗尽大量云积分。此外让联网的云 agent 读取你的整个私有代码库对许多注重安全的开发者来说是绝对不可接受的。但如果你将新的llama serve栈与 Pi 结合你就得到了终极开发者配置。你得到了一个完全离线工作的自主编码助手运行数千小时绝对零成本并将你的专有源代码安全地保存在你的机器内。6、为什么这改变了一切人们很容易陷入运行开源代码的技术新奇感中但 llama.app 的真正影响是文化和哲学层面的。在过去几年里围绕人工智能的叙事一直被一种不可避免的集中化所主导。llama.app 的发布彻底粉碎了这种叙事。它证明了开源社区不会休息直到世界级技术变得可访问、用户友好且完全去中心化。现在凭借干净、统一的命令结构llama.cpp 维护者将本地 AI 从复杂的工程爱好转变为一种主流工具。你只需要一台现代电脑、一条安装命令以及探索当你的工具完全属于你自己时会有何种可能的好奇心。准入门槛已经消失。本地 AI 正式准备好迎接黄金时刻它就住在你的电脑上。原文链接llama.cpp 终于有官网了 - 汇智网