小米狂撒Token!最高降幅99%,全面对标DeepSeek 5月22日DeepSeek宣布V4-Pro API永久降价五天后小米MiMo跟进最高降幅99%Pro版三项核心价格与DeepSeek完全一致。国产大模型API价格战正式杀入成本线。一个月三连降DeepSeek V4系列4月25日上线V4-Pro首发定价为输入缓存命中0.1元/百万tokens输入缓存未命中12元/百万tokens输出24元/百万tokens。第二天就动了。4月26日20:15DeepSeek宣布全系API输入缓存命中价降至首发价的1/10V4-Pro同时叠加2.5折限时优惠缓存命中价直接压到0.025元/百万tokens。限时优惠原定5月5日结束后来延至5月31日。5月22日晚间DeepSeek正式宣布2.5折优惠不再限时永久生效。5月31日活动结束后V4-Pro定价调整为原价的1/4。降价的底气来自技术迭代。V4-Pro总参数1.6万亿是全球最大的开源MoE混合专家模型。百万级调用场景下单次推理算力消耗降至前代的27%缓存显存占用仅为原来的1/10。DeepSeek去年公开的推理成本Token都以DeepSeek-R1的价格计费利润率高达545%。另一重底气来自资本。降价公告同一天彭博社等媒体报道DeepSeek正推进约700亿元人民币融资潜在投前估值约450亿美元。创始人梁文锋向投资者强调的仍是开源模型和AGI通用人工智能目标而非短期商业化。他个人还将出资约200亿元参与本轮融资。V4-Pro永久降价更像长期生态策略不是阶段性促销。五天后小米对齐5月27日零时小米MiMo官方公告MiMo-V2.5系列API永久降价最高降幅99%不再区分上下文窗口长度。雷军在微博转发了这条消息强调最高降幅达到99%不再区分上下文窗口。99%的降幅足够醒目。降价后的三个数字与五天前DeepSeek确定的V4-Pro长期价格完全一致。小米还取消了上下文长度分档。此前MiMo-V2系列按256K以内和256K至1M分档计价长窗口成本明显更高。V2.5系列降价后不再区分等于直接降低了长上下文任务的使用门槛。Token Plan计费体系同步调整同等价格下用量提升至5至8倍所有仍在有效期内的用户额度全量重置。100T Token创作者激励计划已于5月26日提前发放完毕永久降价和额度重置是在免费Token红利结束后继续承接开发者生态。技术层面小米称基于SGLang HiCache完整支持SWA将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降至优化前的近1/7可缓存token数量提升至近5倍并通过专家并行、输入长度分桶提升集群吞吐。正是这些后台工程优化决定了厂商是否有能力长期维持低价。谁更便宜已经不够了对于代码助手、企业知识库、客服系统、Agent智能体工作流来说大量调用包含重复上下文系统提示词、工具说明、历史轨迹、代码仓库背景会在多轮任务中反复出现。过去长上下文和多步Agent难以大规模部署持续调用成本过高是主因。缓存命中价压到0.025元/百万tokens真正被重估的是复杂任务连续运行的成本。放到全球价格体系中差距更加明显。OpenAI的GPT-5.5 Pro API定价为输入30美元/百万tokens、输出180美元/百万tokens。DeepSeek V4-Pro和MiMo-V2.5-Pro调价后仅以缓存未命中输入3元、输出6元计算价格已低出不止一个数量级。行业走势也在分化。5月初字节旗下豆包App推出三档订阅标准版每月68元、加强版200元、专业版500元。智谱今年已三次上调API价格4月8日发布GLM-5.1时再涨10%。阿里云5月15日起上调百炼平台模型服务价格腾讯云同月宣布AI算力相关产品涨价5%。一周之内大模型行业走出了三种方向豆包开始收费云厂商集体涨价DeepSeek永久降价小米对齐跟进。大模型API价格战已经不只是模型参数和榜单能力的竞争而是延伸到推理框架、缓存系统和集群资源调度能力的竞争。能否在高并发、长上下文和多轮调用下持续压低单token服务成本正在成为厂商基础设施能力的一部分。DeepSeek先把限时优惠变成长期价格小米MiMo随后将Pro档价格直接对齐。两家公司共同释放的信号是国产大模型API正在从能力溢价阶段进入成本约束阶段。后续压力将传导给更多模型厂商。同等能力区间的模型已经可以把缓存命中输入压到0.025元/百万tokens价格更高的模型需要向开发者回答贵出来的部分究竟来自更强能力、更高稳定性、还是仅仅来自过去的定价惯性。