AI 通关攻略 · 第 9 关 | Token 定价：AI 是怎么收费的，怎么用才省钱

发布时间：2026/6/19 22:25:32

AI 通关攻略 · 第 9 关 | Token 定价AI 是怎么收费的怎么用才省钱故事从一个常见困惑说起使用 LLM API 是按 Token 计费的——输入和输出都要付费。理解 Token 的定价逻辑可以帮助你控制成本知道什么操作会产生多少费用优化使用通过减少 Token 消耗来省钱选型决策不同模型、不同场景该选什么方案Token 成本的基础知识1.1 计费方式大多数 LLM API 的计费方式是总费用输入 Token 数 × 输入单价输出 Token 数 × 输出单价注意输入和输出的单价通常是不同的。一般输出比输入贵因为输出需要更多计算资源。1.2 Token 估算语言平均每 Token 字符数英文约 0.75 ~ 1 个单词每 1000 token ≈ 750 词中文约 1.5 ~ 2 个汉字每 1000 token ≈ 500~700 字1.3 估算工具实际使用中可以用以下方式估算Token 计数器OpenAI、Cohere 等都提供官方 API 端点来计算 Token 数字符估算作为粗略估算中文每 2 个字符 ≈ 1 个 TokenToken 预算在发送给 LLM 之前先计算预计 Token 数避免超出 context window主流 LLM 的定价截至 2026 年2.1 OpenAI 系列模型输入价格/1Mtokens输出价格/1M tokens 输出价格/1Mtokens输出价格/1M tokens特点GPT-4o$2.5$10最新全能模型性价比高GPT-4o mini$0.15$0.60轻量版成本极低GPT-4 Turbo$10$30高性能上下文 128KGPT-4$30$60高性能上下文 8KGPT-3.5 Turbo$0.5$1.5最便宜适合简单任务百万 token 费用参考GPT-4o 输入 100 万 token 约 17 元人民币输出 100 万 token 约 70 元人民币按 1 美元 ≈ 7 元人民币计算。2.2 Claude 系列Anthropic模型输入价格/1Mtokens输出价格/1M tokens 输出价格/1Mtokens输出价格/1M tokens特点Claude 3.5 Sonnet$3$15高性能性价比好Claude 3.5 Haiku$0.8$4轻量速度快Claude 3 Opus$15$75最高性能上下文 200KClaude 3 Sonnet$3$15平衡型2.3 Google Gemini 系列模型输入价格/1Mtokens输出价格/1M tokens 输出价格/1Mtokens输出价格/1M tokens特点Gemini 2.0 Flash$0.1$0.4超低价速度快Gemini 1.5 Pro$1.25$5中等价格上下文 1M2.4 国产模型参考模型大概价格区间特点通义千问Qwen极低至中等阿里云价格亲民文心一言ERNIE中等百度云智谱 GLM较低清华大学技术DeepSeek极低性价比极高提示以上价格为参考实际价格请以各平台官网最新定价为准。AI 模型的价格更新频繁基本都在降价。实际成本计算示例3.1 简单对话场景用户问一个 100 字的问题LLM 回答 200 字。中文估算用户输入 ≈ 100 字 ≈ 50 tokenLLM 输出 ≈ 200 字 ≈ 100 token总计 ≈ 150 tokenGPT-4o 费用输入50 / 1,000,000 × $2.5 $0.000125输出100 / 1,000,000 × $10 $0.001总费用 ≈ $0.001125 ≈ 0.008 元人民币3.2 RAG 场景上下文较长场景检索 5 个文档块共 2000 token作为上下文用户问题 100 字LLM 回答 300 字。上下文≈ 2000 token用户问题≈ 50 tokenLLM 输出≈ 150 tokenGPT-4o 费用输入(2000 50) / 1M × $2.5 $0.005125输出150 / 1M × $10 $0.0015总费用 ≈ $0.006625 ≈ 0.046 元人民币启示RAG 的成本主要在上下文输入Token回答本身反而便宜。3.3 长文档分析场景场景分析一篇 10000 字的文档总结出 500 字的摘要。输入文档≈ 5000 token总结≈ 250 tokenGPT-4o 费用输入5000 / 1M × $2.5 $0.0125输出250 / 1M × $10 $0.0025总费用 ≈ $0.015 ≈ 0.1 元人民币降低成本的方法4.1 选择合适的模型任务推荐模型原因简单分类、标签GPT-4o mini / Gemini Flash足够用没必要用贵的日常对话GPT-4o / Claude Haiku性价比高复杂推理GPT-4o / Claude 3.5 Sonnet需要更强的推理能力创意写作GPT-4o / Claude Sonnet需要更好的表达能力4.2 减少 Token 消耗方法说明精简 Prompt不要写冗长的 Prompt越短越好用英文英文 Token 消耗约为中文的一半摘要压缩上下文长上下文先做摘要再传给 LLM限制输出长度通过 Prompt 要求 LLM 输出简洁缓存对于相同的系统 Prompt使用厂商的缓存功能如 OpenAI Cache4.3 使用厂商缓存OpenAI Prompt Caching把重复使用的上下文如 System Prompt RAG 文档缓存起来后续调用只需支付新增 Token 的费用缓存的输入成本比正常输入降低 50%4.4 批量处理多用户/多任务时批量发送请求比逐个调用更高效某些厂商有批量折扣。Token 与 context window 的费用关系一个常见误解context window 越大每次调用费用越高。实际上不是这样。LLM API 的计费只看你实际用了多少 Token和你能用的 context window 大小无关。context window 8K 的模型和 128K 的模型单价可能相同128K 只是意味着你最多可以输入这么多但不用不花钱类比context window 就像你的手机套餐流量上限128GB你只用 500MB 就只付 500MB 的钱。Token 成本 vs 本地部署对于大规模使用的场景很多人会考虑本地部署开源模型如 Llama、Qwen对比项API 调用云端本地部署前期成本几乎为零需要购买 GPU几万~几十万使用成本按量付费长期可能较高几乎为零电费维护数据安全数据发送第三方数据完全本地安全性高模型能力最顶尖模型略弱于最强闭源模型适用规模中小规模使用大规模、高频使用经验法则月调用量 1000 万 token → API 更划算月调用量 1 亿 token → 本地部署可能更划算数据敏感场景 → 必须本地部署总结问题答案Token 怎么计费输入 Token × 输入单价输出 Token × 输出单价1 Token 等于多少字英文约 0.75 词中文约 1.5~2 字最省钱的方案根据任务选择合适的模型不要过度使用最贵的模型context window 大影响费用吗不影响只按实际使用的 Token 计费本地部署何时更划算大规模使用数据敏感核心原则用合适的模型做合适的事。不是每个任务都需要 GPT-4o用更轻量的模型可以大幅降低成本。

3分钟快速上手：体验开源卡牌游戏的策略对决魅力

3分钟快速上手：体验开源卡牌游戏的策略对决魅力【免费下载链接】noname 项目地址: https://gitcode.com/GitHub_Trending/no/noname 无名杀作为一款高质量的开源卡牌游戏，将经典的三国杀玩法与现代网页技术完美融合，为你提供无需安装…

2026/6/19 22:17:35 阅读更多

Phi-3-mini-128k-instruct文本风格迁移效果：将技术报告改写为科普文章

Phi-3-mini-128k-instruct文本风格迁移效果：将技术报告改写为科普文章你有没有过这样的经历？拿到一份技术文档或者学术论文，满篇都是看不懂的专业术语和复杂句式，读起来像天书一样。对于非技术背景的人来说，这无疑是…

2026/6/18 15:06:50 阅读更多

CCS12.2配置避坑：手把手教你为DSP28335生成可OTA升级的.bin文件

CCS12.2实战指南：DSP28335 OTA升级.bin文件生成全解析在嵌入式系统开发中，远程固件升级(OTA)能力已成为工业应用的标配需求。对于使用TI C2000系列DSP的工程师而言，如何从CCS工程生成可靠的.bin文件是实现这一功能的关键第一步。本文将深入剖…

2026/6/19 18:13:24 阅读更多

零代码跨平台UI自动化实践：Midscene.js核心原理与场景驱动开发

1. 项目概述：为什么我们需要零代码的UI自动化？最近几年，无论是前端开发、测试工程师，还是产品运营，都被一个词反复“折磨”——UI自动化。传统的UI自动化测试，比如用Selenium、Cypress或者Appium&#xff0…

2026/6/19 22:24:57 阅读更多

深入解析MC68HC908JG16的GPIO与中断系统：从寄存器配置到实战避坑

1. 项目概述与核心价值在嵌入式开发的日常里，我们打交道最多的可能就是那些看似简单的I/O引脚了。无论是点亮一个LED，读取一个按键，还是与传感器通信，都离不开对微控制器通用输入输出（GPIO）端口的精准控制。…

2026/6/19 22:24:36 阅读更多

MC68HC08指令集与中断机制深度解析：从寻址模式到实战优化

1. 项目概述与核心价值如果你曾经在8位微控制器（MCU）的世界里摸爬滚打过，那你一定对“指令集”这三个字又爱又恨。爱的是，它就像是你与芯片之间最直接的对话语言，每一个字节的指令都对应着硬件的一次精准动作&#xff…

2026/6/19 22:21:30 阅读更多

卷积神经网络（CNN）原理与工业图像识别实战指南

1. 为什么传统方法在图像任务上“力不从心”？——从一个真实故障说起我第一次在产线部署图像质检系统时，用的是当时很成熟的SVMHOG特征组合。模型在实验室里准确率98.2%，团队还为此庆祝了一番。结果上线第三天，车间空调突然故障&a…

2026/6/19 22:19:27 阅读更多

生产级多维聚合：pandas中滚动计算、自定义指标与报表生成实战

1. 项目概述：为什么多维聚合不是“加个groupby”就能搞定的事我在银行数据平台组干了八年，从最早用SQL写几十行嵌套子查询做客户分层，到后来带团队重构整个风险指标计算引擎，踩过的坑比跑过的ETL任务还多。今天聊的这个主题——“…

2026/6/19 22:18:05 阅读更多

2026年ChatGPT实战工作流：从工具到副驾驶的五大能力跃迁

1. 项目概述：这不是一份“测评”，而是一份2026年真实工作流切片报告“ChatGPT 2026真实测评：到底好不好用？我用了2个月告诉你答案”——这个标题里藏着三个关键信号：时间锚点（2026）、行为动词&a…

2026/6/19 22:17:24 阅读更多

PowerPC 601指令集深度解析：分支、陷阱与处理器控制指令实战指南

1. PowerPC 601指令集：程序流与系统控制的基石如果你曾经在嵌入式系统、早期的苹果Power Macintosh，或是任天堂GameCube/Wii这类经典游戏主机上做过开发，那么PowerPC这个名字对你来说一定不陌生。作为RISC架构黄金时代的代表作之一&#xff0…

2026/6/19 0:00:11 阅读更多

OpenCore Legacy Patcher终极指南：四步让老旧Mac免费升级最新macOS

OpenCore Legacy Patcher终极指南：四步让老旧Mac免费升级最新macOS 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 还在为苹果官方放弃的老旧Mac无…

2026/6/19 0:00:11 阅读更多

Mermaid Live Editor：重塑技术文档图表创作体验的专业工具

Mermaid Live Editor：重塑技术文档图表创作体验的专业工具【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/me/mermaid-live-ed…

2026/6/19 0:02:13 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/19 0:49:08 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/19 0:49:08 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/19 0:49:04 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/19 11:15:51 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/19 11:15:58 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/19 11:15:53 阅读更多

相关文章