AI 通关攻略 · 第 9 关 | Token 定价:AI 是怎么收费的,怎么用才省钱 AI 通关攻略 · 第 9 关 | Token 定价AI 是怎么收费的怎么用才省钱故事从一个常见困惑说起使用 LLM API 是按 Token 计费的——输入和输出都要付费。理解 Token 的定价逻辑可以帮助你控制成本知道什么操作会产生多少费用优化使用通过减少 Token 消耗来省钱选型决策不同模型、不同场景该选什么方案Token 成本的基础知识1.1 计费方式大多数 LLM API 的计费方式是总费用 输入 Token 数 × 输入单价 输出 Token 数 × 输出单价注意输入和输出的单价通常是不同的。一般输出比输入贵因为输出需要更多计算资源。1.2 Token 估算语言平均每 Token 字符数英文约 0.75 ~ 1 个单词每 1000 token ≈ 750 词中文约 1.5 ~ 2 个汉字每 1000 token ≈ 500~700 字1.3 估算工具实际使用中可以用以下方式估算Token 计数器OpenAI、Cohere 等都提供官方 API 端点来计算 Token 数字符估算作为粗略估算中文每 2 个字符 ≈ 1 个 TokenToken 预算在发送给 LLM 之前先计算预计 Token 数避免超出 context window主流 LLM 的定价截至 2026 年2.1 OpenAI 系列模型输入价格/1Mtokens输出价格/1M tokens 输出价格/1Mtokens输出价格/1M tokens特点GPT-4o$2.5$10最新全能模型性价比高GPT-4o mini$0.15$0.60轻量版成本极低GPT-4 Turbo$10$30高性能上下文 128KGPT-4$30$60高性能上下文 8KGPT-3.5 Turbo$0.5$1.5最便宜适合简单任务百万 token 费用参考GPT-4o 输入 100 万 token 约 17 元人民币输出 100 万 token 约 70 元人民币按 1 美元 ≈ 7 元人民币计算。2.2 Claude 系列Anthropic模型输入价格/1Mtokens输出价格/1M tokens 输出价格/1Mtokens输出价格/1M tokens特点Claude 3.5 Sonnet$3$15高性能性价比好Claude 3.5 Haiku$0.8$4轻量速度快Claude 3 Opus$15$75最高性能上下文 200KClaude 3 Sonnet$3$15平衡型2.3 Google Gemini 系列模型输入价格/1Mtokens输出价格/1M tokens 输出价格/1Mtokens输出价格/1M tokens特点Gemini 2.0 Flash$0.1$0.4超低价速度快Gemini 1.5 Pro$1.25$5中等价格上下文 1M2.4 国产模型参考模型大概价格区间特点通义千问Qwen极低至中等阿里云价格亲民文心一言ERNIE中等百度云智谱 GLM较低清华大学技术DeepSeek极低性价比极高提示以上价格为参考实际价格请以各平台官网最新定价为准。AI 模型的价格更新频繁基本都在降价。实际成本计算示例3.1 简单对话场景用户问一个 100 字的问题LLM 回答 200 字。中文估算用户输入 ≈ 100 字 ≈ 50 tokenLLM 输出 ≈ 200 字 ≈ 100 token总计 ≈ 150 tokenGPT-4o 费用输入50 / 1,000,000 × $2.5 $0.000125输出100 / 1,000,000 × $10 $0.001总费用 ≈ $0.001125 ≈ 0.008 元人民币3.2 RAG 场景上下文较长场景检索 5 个文档块共 2000 token作为上下文用户问题 100 字LLM 回答 300 字。上下文≈ 2000 token用户问题≈ 50 tokenLLM 输出≈ 150 tokenGPT-4o 费用输入(2000 50) / 1M × $2.5 $0.005125输出150 / 1M × $10 $0.0015总费用 ≈ $0.006625 ≈ 0.046 元人民币启示RAG 的成本主要在上下文输入Token回答本身反而便宜。3.3 长文档分析场景场景分析一篇 10000 字的文档总结出 500 字的摘要。输入文档≈ 5000 token总结≈ 250 tokenGPT-4o 费用输入5000 / 1M × $2.5 $0.0125输出250 / 1M × $10 $0.0025总费用 ≈ $0.015 ≈ 0.1 元人民币降低成本的方法4.1 选择合适的模型任务推荐模型原因简单分类、标签GPT-4o mini / Gemini Flash足够用没必要用贵的日常对话GPT-4o / Claude Haiku性价比高复杂推理GPT-4o / Claude 3.5 Sonnet需要更强的推理能力创意写作GPT-4o / Claude Sonnet需要更好的表达能力4.2 减少 Token 消耗方法说明精简 Prompt不要写冗长的 Prompt越短越好用英文英文 Token 消耗约为中文的一半摘要压缩上下文长上下文先做摘要再传给 LLM限制输出长度通过 Prompt 要求 LLM 输出简洁缓存对于相同的系统 Prompt使用厂商的缓存功能如 OpenAI Cache4.3 使用厂商缓存OpenAI Prompt Caching把重复使用的上下文如 System Prompt RAG 文档缓存起来后续调用只需支付新增 Token 的费用缓存的输入成本比正常输入降低 50%4.4 批量处理多用户/多任务时批量发送请求比逐个调用更高效某些厂商有批量折扣。Token 与 context window 的费用关系一个常见误解context window 越大每次调用费用越高。实际上不是这样。LLM API 的计费只看你实际用了多少 Token和你能用的 context window 大小无关。context window 8K 的模型和 128K 的模型单价可能相同128K 只是意味着你最多可以输入这么多但不用不花钱类比context window 就像你的手机套餐流量上限128GB你只用 500MB 就只付 500MB 的钱。Token 成本 vs 本地部署对于大规模使用的场景很多人会考虑本地部署开源模型如 Llama、Qwen对比项API 调用云端本地部署前期成本几乎为零需要购买 GPU几万~几十万使用成本按量付费长期可能较高几乎为零电费 维护数据安全数据发送第三方数据完全本地安全性高模型能力最顶尖模型略弱于最强闭源模型适用规模中小规模使用大规模、高频使用经验法则月调用量 1000 万 token → API 更划算月调用量 1 亿 token → 本地部署可能更划算数据敏感场景 → 必须本地部署总结问题答案Token 怎么计费输入 Token × 输入单价 输出 Token × 输出单价1 Token 等于多少字英文约 0.75 词中文约 1.5~2 字最省钱的方案根据任务选择合适的模型不要过度使用最贵的模型context window 大影响费用吗不影响只按实际使用的 Token 计费本地部署何时更划算大规模使用 数据敏感核心原则用合适的模型做合适的事。 不是每个任务都需要 GPT-4o用更轻量的模型可以大幅降低成本。