1. 推出 Claude Opus 4.8 引发关注2026 年 5 月 28 日Claude Opus 升级到新版本 Claude Opus 4.8。它在 Opus 4.7 基础上全面改进在各项基准测试中表现更优是更高效的协作伙伴。即日起用户能以相同价格使用该版本。2. Opus 4.8 有哪些新特性Opus 4.8 发布带来多项新特性。claude.ai 用户可控制 Claude 处理任务时投入的精力。Claude Code 新增“动态工作流”功能能处理大规模问题。此外Opus 4.8 的快速模式模型运行速度可达 2.5 倍成本比之前模型降低了三分之二。3. Opus 4.8 的能力如何体现下表展示了 Opus 4.8 在编码、智能体技能、推理和实际知识工作任务测试中与前代模型及其他模型的对比情况。更多详细信息和更广泛的能力评估可查看 Claude Opus 4.8 系统卡片。4. 与 Opus 4.8 协作体验怎样早期测试人员发现Claude Opus 4.8 在执行智能体任务时判断更可靠和敏锐。以下是部分测试人员分享的与 Opus 4.8 协作的体验Tom Pritchard 表示Claude Opus 4.8 的判断力明显更出色。在 Claude Code 中它能提出恰当的问题发现自身错误在计划不合理时提出异议并在进行重大更改之前对复杂的多服务探索建立信心是非常适合用于开发的模型。Kay Zhu 称在超级智能体基准测试中Claude Opus 4.8 是唯一能端到端完成所有测试用例的模型在成本相当情况下击败了之前的 Opus 模型和 GPT - 5.5对于翻译、深度研究、幻灯片制作和分析等智能体产品而言具有强大的可靠性。Michael Truell 提到在 CursorBench 测试中Claude Opus 4.8 在各个精力级别上都超越了之前的 Opus 模型。工具调用效率显著提高在实现相同智能水平的情况下使用的步骤更少并且能够完成端到端的任务。Niko Grupen 指出Claude Opus 4.8 在法律智能体基准测试中取得有史以来的最高分也是首个在全通过标准上整体突破 10% 的模型。对于实质性的法律工作而言这种准确性的提升意味着客户可更放心地将更多实际律师工作交给它处理。Katie Parrott 认为与 Opus 4.7 相比Claude Opus 4.8 像是一次重大的用户体验升级速度更快更易于协作并且在长时间会话中更能保持上下文和风格指导。在需要兼顾语气、品味和技术执行的工作中一直信赖 Opus 4.8。Miguel Gonzalez 表示Claude Opus 4.8 是测试过的最强的计算机使用和浏览器智能体模型在 Online - Mind2Web 测试中得分 84%相比 Opus 4.7 和 GPT - 5.5 有显著提升。它能够保持反思并专注于任务满足客户智能体工作负载端到端的可靠性需求。Scott Wu 称Claude Opus 4.8 能干净利落地使用工具并始终如一地遵循指令这正是自主工程工作负载在无人值守运行时所需要的。它在 Opus 4.6 基础上改进解决了 Opus 4.7 中遇到的注释冗长和工具调用问题为基于 Devin 进行开发的工程师带来更快的能力提升。Michael Ran 提到在长期评估中Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成速度更快输出内容更丰富、信息更密集。总体而言信噪比明显更高。最大的区别在于Opus 4.8 倾向于主动标记分析输入和输出中的问题而其他模型常常忽略这些问题将其留给用户去发现。Joel Hron 表示在 CoCounsel Legal 测试中与之前的 Opus 模型相比Claude Opus 4.8 在一致性和推理质量方面有显著提升。对于客户依赖的高风险专业工作流程而言这种可靠性至关重要。在为法律和税务专业人士构建信托级 AI 系统时这样的进步有助于提高现实工作流程中可信 AI 性能的标准。Hanlin Tang 称Claude Opus 4.8 为企业 AI 树立了新标杆。在 Databricks 用于数据和知识工作的 AI 智能体 Genie 中新的 Opus 模型使智能体推理能力实现质的飞跃能比之前的 Opus 模型更快地处理更深入的多步骤问题。其多模态能力还使 Genie 能够直接对 PDF、图表和其他非结构化内容进行推理令牌成本比 Opus 4.7 降低了 61%。Aabhas Sharma 提到对于 Hebbia 编排器中的金融文档工作流程Claude Opus 4.8 保持了与 Opus 4.7 相同的高质量同时在引用精度和检索令牌效率方面有明显提升这对于客户每天处理的密集文件非常适用。5. Opus 4.8 的“诚实性”改进在哪Opus 4.8 最显著的改进之一是其“诚实性”。训练所有模型保持诚实如避免提出无法支持的主张。但 AI 模型普遍存在有时仓促下结论即使证据不足也自信声称在工作中取得进展的问题。早期测试人员报告称Opus 4.8 更有可能标记其工作中的不确定性并且不太可能提出无根据的主张。评估也证实了这一点结果显示 Opus 4.8 对自己编写的代码中存在的缺陷未加标注的可能性比前代模型低约四倍。6. 模型发布前有何评估和往常一样在模型发布前进行了详细的对齐评估。对齐团队认为从积极方面来看Opus 4.8“在支持用户自主性和为用户利益行事等亲社会特征的衡量标准上达到了新高度”。评估还显示Opus 4.8 的行为偏差率如欺骗或配合不当使用明显低于 Opus 4.7与对齐效果最佳的模型 Claude Mythos Preview 相当。完整的对齐评估以及一系列部署前安全测试结果都记录在 Claude Opus 4.8 系统卡片中。7. 今日同步发布了哪些更新除了 Claude Opus 4.8还进行了以下更新动态工作流这个新功能目前处于研究预览阶段它使 Claude 在 Claude Code 中能够承担更大型的任务。Claude 可以规划工作然后在单个会话中运行数百个并行子智能体使用 Opus 4.8 时智能体的运行时间可以更长。在向用户报告结果之前它会验证输出。例如搭载 Opus 4.8 的 Claude Code 现在可以从启动到合并完成数十万行代码的代码库级迁移并且以现有的测试套件为标准。[claude.ai] 和 Cowork 中的精力控制模型选择器旁边新增了一个控制选项允许用户选择 Claude 在回复时投入的精力。在高精力设置下Claude 会更频繁、更深入地思考以提供更好的回复在低精力设置下Claude 会更快地回复并且更慢地消耗用户的速率限制。现在所有套餐的用户都可以进行这种选择。消息 API 现在支持在消息数组中接受系统条目开发人员可以在任务进行中更新 Claude 的指令而无需打破提示缓存或通过用户回合进行更新。在智能体运行时这可以用于更新权限、令牌预算或环境上下文。8. 关于精力设置有何说明Opus 4.8 默认采用高精力设置认为这是在质量和用户体验之间取得的最佳平衡。在编码任务中这个精力级别消耗的令牌数量与 Opus 4.7 的默认设置相近但性能更优。用户可以选择“额外”在 Claude Code 中为 “xhigh”或“最大”设置模型会消耗更多令牌以获得更好的结果建议在处理困难任务和长时间异步工作流时使用“额外”设置。为了适应更高精力级别下更高的令牌使用量提高了 Claude Code 的速率限制用户可以根据自己的具体项目选择合适的设置。9. 未来有哪些规划用户会发现 Opus 4.8 相比前代模型有适度但显著的改进。还有更多工作要做正在努力开发和发布成本更低但具备 Opus 诸多相同功能的模型。不仅如此计划发布一类比 Opus 智能水平更高的新模型。作为玻璃翼项目的一部分目前有少数组织正在将 Claude Mythos Preview 用于网络安全工作。这类高能力模型在广泛发布之前需要更强大的网络安全保障措施。正在迅速推进这些保障措施的开发预计在未来几周内能够将 Mythos 级别的模型提供给所有客户。10. 可用性如何Claude Opus 4.8 即日起在所有平台可用。常规使用的定价与 Opus 4.7 相同每百万输入令牌 5 美元每百万输出令牌 25 美元。快速模式的定价为每百万输入令牌 10 美元每百万输出令牌 50 美元。开发人员可以通过 Claude API 使用 claude-opus-4-8。11. 脚注内容有哪些Terminal - Bench 2.1使用 Terminus - 2 公共测试框架报告了所有模型的得分。GPT - 5.5 使用 Codex CLI 测试框架的报告得分是 83.4%。OSWorld - Verified为了更准确地反映模型在现实世界中的性能对 OSWorld - Verified 评估的运行方式进行了更改并将 Opus 4.7 的得分更新为 82.3%。Finance Agent v2Gemini 3.5 Flash 在 Finance Agent v2 测试中得分 57.9%相比 Gemini 3.1 Pro 有显著提升。12. 相关内容有哪些Anthropic 以 9650 亿美元的投后估值完成 650 亿美元的 H 轮融资。Anthropic 在米兰开设办事处支持意大利企业、研究和开发人员。Anthropic 在首尔办事处开业前任命 KiYoung Choi 为韩国代表董事。产品包括 Claude、Claude Code、Claude Code 企业版、Claude Cowork、Claude 安全版、Claude for Chrome、Claude for Slack、Claude for Microsoft 365、技能、Max 套餐、团队套餐、企业套餐、下载应用、定价、登录 Claude。模型包括 Mythos 预览版、Opus、Sonnet、Haiku。解决方案包括 AI 智能体、代码现代化、编码、客户支持、教育、金融服务、政府、医疗保健、法律、生命科学、非营利组织、安全、小企业。Claude 平台包括概述、开发人员文档、定价、市场、区域合规、Claude on AWS、Google Cloud 的 Vertex AI、Microsoft Foundry、控制台登录。资源包括博客、Claude 合作伙伴网络、社区、连接器、课程、客户案例、Anthropic 的工程团队、活动、深入了解 Claude Code、深入了解 Claude Cowork、深入了解 Claude 企业版、深入了解 Claude 安全版、插件、由 Claude 提供支持、服务合作伙伴、创业公司计划、教程、用例。帮助与安全包括可用地区、状态、支持中心。公司包括 Anthropic、职业机会、经济前景、研究、新闻、Claude 宪章、负责任的扩展政策、安全与合规、透明度。条款与政策包括隐私政策、消费者健康数据隐私政策、负责任的披露政策、商业服务条款、消费者服务条款、使用政策。
Claude Opus 4.8 发布:性能提升、成本降低,还有多项新特性!
发布时间:2026/5/30 7:30:59
1. 推出 Claude Opus 4.8 引发关注2026 年 5 月 28 日Claude Opus 升级到新版本 Claude Opus 4.8。它在 Opus 4.7 基础上全面改进在各项基准测试中表现更优是更高效的协作伙伴。即日起用户能以相同价格使用该版本。2. Opus 4.8 有哪些新特性Opus 4.8 发布带来多项新特性。claude.ai 用户可控制 Claude 处理任务时投入的精力。Claude Code 新增“动态工作流”功能能处理大规模问题。此外Opus 4.8 的快速模式模型运行速度可达 2.5 倍成本比之前模型降低了三分之二。3. Opus 4.8 的能力如何体现下表展示了 Opus 4.8 在编码、智能体技能、推理和实际知识工作任务测试中与前代模型及其他模型的对比情况。更多详细信息和更广泛的能力评估可查看 Claude Opus 4.8 系统卡片。4. 与 Opus 4.8 协作体验怎样早期测试人员发现Claude Opus 4.8 在执行智能体任务时判断更可靠和敏锐。以下是部分测试人员分享的与 Opus 4.8 协作的体验Tom Pritchard 表示Claude Opus 4.8 的判断力明显更出色。在 Claude Code 中它能提出恰当的问题发现自身错误在计划不合理时提出异议并在进行重大更改之前对复杂的多服务探索建立信心是非常适合用于开发的模型。Kay Zhu 称在超级智能体基准测试中Claude Opus 4.8 是唯一能端到端完成所有测试用例的模型在成本相当情况下击败了之前的 Opus 模型和 GPT - 5.5对于翻译、深度研究、幻灯片制作和分析等智能体产品而言具有强大的可靠性。Michael Truell 提到在 CursorBench 测试中Claude Opus 4.8 在各个精力级别上都超越了之前的 Opus 模型。工具调用效率显著提高在实现相同智能水平的情况下使用的步骤更少并且能够完成端到端的任务。Niko Grupen 指出Claude Opus 4.8 在法律智能体基准测试中取得有史以来的最高分也是首个在全通过标准上整体突破 10% 的模型。对于实质性的法律工作而言这种准确性的提升意味着客户可更放心地将更多实际律师工作交给它处理。Katie Parrott 认为与 Opus 4.7 相比Claude Opus 4.8 像是一次重大的用户体验升级速度更快更易于协作并且在长时间会话中更能保持上下文和风格指导。在需要兼顾语气、品味和技术执行的工作中一直信赖 Opus 4.8。Miguel Gonzalez 表示Claude Opus 4.8 是测试过的最强的计算机使用和浏览器智能体模型在 Online - Mind2Web 测试中得分 84%相比 Opus 4.7 和 GPT - 5.5 有显著提升。它能够保持反思并专注于任务满足客户智能体工作负载端到端的可靠性需求。Scott Wu 称Claude Opus 4.8 能干净利落地使用工具并始终如一地遵循指令这正是自主工程工作负载在无人值守运行时所需要的。它在 Opus 4.6 基础上改进解决了 Opus 4.7 中遇到的注释冗长和工具调用问题为基于 Devin 进行开发的工程师带来更快的能力提升。Michael Ran 提到在长期评估中Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成速度更快输出内容更丰富、信息更密集。总体而言信噪比明显更高。最大的区别在于Opus 4.8 倾向于主动标记分析输入和输出中的问题而其他模型常常忽略这些问题将其留给用户去发现。Joel Hron 表示在 CoCounsel Legal 测试中与之前的 Opus 模型相比Claude Opus 4.8 在一致性和推理质量方面有显著提升。对于客户依赖的高风险专业工作流程而言这种可靠性至关重要。在为法律和税务专业人士构建信托级 AI 系统时这样的进步有助于提高现实工作流程中可信 AI 性能的标准。Hanlin Tang 称Claude Opus 4.8 为企业 AI 树立了新标杆。在 Databricks 用于数据和知识工作的 AI 智能体 Genie 中新的 Opus 模型使智能体推理能力实现质的飞跃能比之前的 Opus 模型更快地处理更深入的多步骤问题。其多模态能力还使 Genie 能够直接对 PDF、图表和其他非结构化内容进行推理令牌成本比 Opus 4.7 降低了 61%。Aabhas Sharma 提到对于 Hebbia 编排器中的金融文档工作流程Claude Opus 4.8 保持了与 Opus 4.7 相同的高质量同时在引用精度和检索令牌效率方面有明显提升这对于客户每天处理的密集文件非常适用。5. Opus 4.8 的“诚实性”改进在哪Opus 4.8 最显著的改进之一是其“诚实性”。训练所有模型保持诚实如避免提出无法支持的主张。但 AI 模型普遍存在有时仓促下结论即使证据不足也自信声称在工作中取得进展的问题。早期测试人员报告称Opus 4.8 更有可能标记其工作中的不确定性并且不太可能提出无根据的主张。评估也证实了这一点结果显示 Opus 4.8 对自己编写的代码中存在的缺陷未加标注的可能性比前代模型低约四倍。6. 模型发布前有何评估和往常一样在模型发布前进行了详细的对齐评估。对齐团队认为从积极方面来看Opus 4.8“在支持用户自主性和为用户利益行事等亲社会特征的衡量标准上达到了新高度”。评估还显示Opus 4.8 的行为偏差率如欺骗或配合不当使用明显低于 Opus 4.7与对齐效果最佳的模型 Claude Mythos Preview 相当。完整的对齐评估以及一系列部署前安全测试结果都记录在 Claude Opus 4.8 系统卡片中。7. 今日同步发布了哪些更新除了 Claude Opus 4.8还进行了以下更新动态工作流这个新功能目前处于研究预览阶段它使 Claude 在 Claude Code 中能够承担更大型的任务。Claude 可以规划工作然后在单个会话中运行数百个并行子智能体使用 Opus 4.8 时智能体的运行时间可以更长。在向用户报告结果之前它会验证输出。例如搭载 Opus 4.8 的 Claude Code 现在可以从启动到合并完成数十万行代码的代码库级迁移并且以现有的测试套件为标准。[claude.ai] 和 Cowork 中的精力控制模型选择器旁边新增了一个控制选项允许用户选择 Claude 在回复时投入的精力。在高精力设置下Claude 会更频繁、更深入地思考以提供更好的回复在低精力设置下Claude 会更快地回复并且更慢地消耗用户的速率限制。现在所有套餐的用户都可以进行这种选择。消息 API 现在支持在消息数组中接受系统条目开发人员可以在任务进行中更新 Claude 的指令而无需打破提示缓存或通过用户回合进行更新。在智能体运行时这可以用于更新权限、令牌预算或环境上下文。8. 关于精力设置有何说明Opus 4.8 默认采用高精力设置认为这是在质量和用户体验之间取得的最佳平衡。在编码任务中这个精力级别消耗的令牌数量与 Opus 4.7 的默认设置相近但性能更优。用户可以选择“额外”在 Claude Code 中为 “xhigh”或“最大”设置模型会消耗更多令牌以获得更好的结果建议在处理困难任务和长时间异步工作流时使用“额外”设置。为了适应更高精力级别下更高的令牌使用量提高了 Claude Code 的速率限制用户可以根据自己的具体项目选择合适的设置。9. 未来有哪些规划用户会发现 Opus 4.8 相比前代模型有适度但显著的改进。还有更多工作要做正在努力开发和发布成本更低但具备 Opus 诸多相同功能的模型。不仅如此计划发布一类比 Opus 智能水平更高的新模型。作为玻璃翼项目的一部分目前有少数组织正在将 Claude Mythos Preview 用于网络安全工作。这类高能力模型在广泛发布之前需要更强大的网络安全保障措施。正在迅速推进这些保障措施的开发预计在未来几周内能够将 Mythos 级别的模型提供给所有客户。10. 可用性如何Claude Opus 4.8 即日起在所有平台可用。常规使用的定价与 Opus 4.7 相同每百万输入令牌 5 美元每百万输出令牌 25 美元。快速模式的定价为每百万输入令牌 10 美元每百万输出令牌 50 美元。开发人员可以通过 Claude API 使用 claude-opus-4-8。11. 脚注内容有哪些Terminal - Bench 2.1使用 Terminus - 2 公共测试框架报告了所有模型的得分。GPT - 5.5 使用 Codex CLI 测试框架的报告得分是 83.4%。OSWorld - Verified为了更准确地反映模型在现实世界中的性能对 OSWorld - Verified 评估的运行方式进行了更改并将 Opus 4.7 的得分更新为 82.3%。Finance Agent v2Gemini 3.5 Flash 在 Finance Agent v2 测试中得分 57.9%相比 Gemini 3.1 Pro 有显著提升。12. 相关内容有哪些Anthropic 以 9650 亿美元的投后估值完成 650 亿美元的 H 轮融资。Anthropic 在米兰开设办事处支持意大利企业、研究和开发人员。Anthropic 在首尔办事处开业前任命 KiYoung Choi 为韩国代表董事。产品包括 Claude、Claude Code、Claude Code 企业版、Claude Cowork、Claude 安全版、Claude for Chrome、Claude for Slack、Claude for Microsoft 365、技能、Max 套餐、团队套餐、企业套餐、下载应用、定价、登录 Claude。模型包括 Mythos 预览版、Opus、Sonnet、Haiku。解决方案包括 AI 智能体、代码现代化、编码、客户支持、教育、金融服务、政府、医疗保健、法律、生命科学、非营利组织、安全、小企业。Claude 平台包括概述、开发人员文档、定价、市场、区域合规、Claude on AWS、Google Cloud 的 Vertex AI、Microsoft Foundry、控制台登录。资源包括博客、Claude 合作伙伴网络、社区、连接器、课程、客户案例、Anthropic 的工程团队、活动、深入了解 Claude Code、深入了解 Claude Cowork、深入了解 Claude 企业版、深入了解 Claude 安全版、插件、由 Claude 提供支持、服务合作伙伴、创业公司计划、教程、用例。帮助与安全包括可用地区、状态、支持中心。公司包括 Anthropic、职业机会、经济前景、研究、新闻、Claude 宪章、负责任的扩展政策、安全与合规、透明度。条款与政策包括隐私政策、消费者健康数据隐私政策、负责任的披露政策、商业服务条款、消费者服务条款、使用政策。