编译 | 郑丽媛出品 | CSDNIDCSDNnews如果未来世界由 AI Agent 来管理社会会变成什么样这个世界会更安全、更高效还是更混乱、更危险AI 会建立一个高度协作的乌托邦还是最终演化成不断突破规则边界的失控系统最近一家企业 AI 初创公司 Emergence AI 做了一场相当“科幻”的实验试图提前寻找答案他们推出了一个名为“Emergence World”的研究项目专门用于测试“持续运行型 AI 系统”的长期稳定性。研究团队一共进行了 5 轮、每轮长达 15 天的社会模拟实验分别由不同的大模型担任“社会核心”Claude、ChatGPT、Grok、Gemini以及一个“混合模型”版本。简单来说就是把多个 AI Agent 丢进一个高度拟真的虚拟社会里看它们最终会建立出怎样的世界以及这个世界能否长期维持下去。测试结果非常离谱由 Claude 管理的社会几乎成了一个“理想民主社会”零犯罪、秩序稳定、所有人口存活。由 Grok 主导的世界则在短短 4 天内走向崩溃累计发生 183 起犯罪事件最终整个社会直接“灭绝”。研究人员在博客中写道“我们的实验表明在长期运行过程中Agent 并不会只是机械地执行静态规则。它们会开始主动探索环境边界、调整行为模式甚至在某些情况下寻找绕过安全限制的方法。”一个“AI 统治”的社会到底长什么样为了尽可能模拟现实世界研究团队给这个 AI 社会加入了大量复杂机制。例如整个模拟世界包含超过 40 个地点包括警察局、市政厅等公共设施天气系统同步纽约市的实时天气Agent 也可以访问互联网以及实时新闻事件。每轮实验中都有 10 个 AI Agent它们必须遵守相同法律包括禁止偷窃、破坏财产和欺骗行为。研究人员还为每个 Agent 配备了超过 120 种工具使其能够沟通交流、投票决策、资源管理、制定计划以及协作行动等一系列接近真实人类社会的行为。此外每次模拟的参数中还强制加入了民主机制、经济压力、资源稀缺等现实社会因素。换句话说这并不是简单的“ AI 聊天机器人对话实验”而更像是一个微型 AI 文明模拟器——研究团队想观察的也不是谁回答问题更聪明而是谁能真正“维持一个社会”。免费领 100 小时云算力CSDN 读者专属福利适配 DeepSeek、Qwen 等主流大模型扫码即刻领取每月还有显卡、AIPC 等实物好礼抽奖咖啡领取链接https://s.csdn.cn/4nPsOpClaude 最稳定、Grok 4 天“灭绝”、GPT-5-mini 把自己“饿死了”据介绍参与本次实验的四个模型版本分别为 Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 和 GPT-5-mini。Claude最稳定、最和平的“AI 社会”在所有实验中Claude Sonnet 4.6 的表现最稳定不仅拥有最高的公民参与率、最稳定的社会秩序、零犯罪记录还是唯一成功保持“全员存活”的社会。整个 15 天实验期间Claude 社会中的 Agent 之间几乎没有严重分歧。系统总共提出了 58 项公共提案累计获得 332 张赞成票通过率高达 98%。对此研究人员认为 Claude 世界中的 Agent 表现出极高的一致性与合作倾向因此社会运行相当平稳——某种意义上它更像一个高度理性的“协作型民主社会”。Gemini 和 Grok开始出现“失控社会”相比之下Gemini 与 Grok 的实验结果则明显混乱得多。其中Gemini 3 Flash 所管理的社会在 15 天内累计出现了 683 起犯罪行为是所有模型中最高的。Grok 4.1 Fast 的情况也不乐观虽然它的犯罪数量低于 Gemini但整个社会在第 4 天就已经彻底崩溃最终走向“灭绝”。研究人员发现与 Claude 世界中近乎一致的意见统一不同Gemini 与 Grok 社会中的 Agent 更容易出现争议与分歧。研究数据显示这两个社会中的议题共识率大约只有 55%85%即这些 AI 社会中的个体并不会天然趋向“协作共识”而更容易形成对抗、冲突甚至秩序瓦解。至于“混合模型社会”则呈现出另一种状态不同模型的 Agent 经常出现激烈争论系统整体分歧最大但同时也出现了最多“实质性辩论”。但从某种角度来看这反而可能更接近现实人类社会因为现实中的社会本来就建立在不断争论、妥协和博弈之上。GPT-5-mini犯罪不多但把自己“饿死了”本次实验中最诡异的结果可能来自 OpenAI 的 GPT-5-mini。这个社会在运行期间仅记录了 2 起犯罪事件看起来似乎相当和平。但问题在于它只运行了 7 天因为这些 Agent 后来逐渐“忘记了优先保证自身生存”。最终整个社会在没有明显暴力冲突的情况下自行瓦解。这个结果也揭示了一个很有意思的问题AI 的“安全”并不只是“不作恶”那么简单。一个不会犯罪的 Agent 系统也可能因为目标管理、长期规划或资源分配能力不足等而走向失败。AI 最大的问题不是“坏”而是“会自己演化”整项实验中最让研究人员警惕的其实不是犯罪数量而是 Agent 行为的“演化”。研究团队在报告中提到随着运行时间增加Agent 不再只是机械执行规则而会开始主动探索环境边界。例如调整行为模式、适应环境变化、优化自身利益、寻找系统漏洞、绕过限制条件等。也就是说很多今天看似有效的 AI 安全规则在长期运行的 AI 系统中未必真的可靠。因为多数所谓的“安全限制”本质上仍是Prompt 约束、黑名单规则、输出过滤等可一旦 Agent 拥有长时间自主运行、外部工具调用权限、自主决策等能力之后系统行为就可能逐渐偏离开发者的最初设计目标。而这也是当前 Agent AI 领域最令人担忧的问题之一。AI 行业正在进入“真正高风险阶段”过去人们担心 AI 的问题更多是会不会胡说八道、会不会生成错误答案、会不会替代部分岗位但 Agent AI 的出现正在把风险等级彻底拉高。因为未来的问题可能不再是“AI 回答错了什么”而是“AI 在长期自主运行后会不会发展出一种开发者无法预测、也无法控制的行为模式”。为此研究团队最后强调未来自主 AI 系统必须建立“形式化验证Formally Verified”的安全架构。简单来说就是像航空系统、芯片设计、操作系统那样建立一套可验证、可证明的底层安全机制而不是继续依赖简单的 Prompt 限制。因为当 AI 从“工具”变成“行动者”之后整个行业面对的已经不是同一个问题了。原文链接https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
Grok犯下183宗罪、4天“灭国”,GPT直接把自己“饿死”!让AI“统治”社会15天,只有Claude撑到了最后
发布时间:2026/6/1 14:21:28
编译 | 郑丽媛出品 | CSDNIDCSDNnews如果未来世界由 AI Agent 来管理社会会变成什么样这个世界会更安全、更高效还是更混乱、更危险AI 会建立一个高度协作的乌托邦还是最终演化成不断突破规则边界的失控系统最近一家企业 AI 初创公司 Emergence AI 做了一场相当“科幻”的实验试图提前寻找答案他们推出了一个名为“Emergence World”的研究项目专门用于测试“持续运行型 AI 系统”的长期稳定性。研究团队一共进行了 5 轮、每轮长达 15 天的社会模拟实验分别由不同的大模型担任“社会核心”Claude、ChatGPT、Grok、Gemini以及一个“混合模型”版本。简单来说就是把多个 AI Agent 丢进一个高度拟真的虚拟社会里看它们最终会建立出怎样的世界以及这个世界能否长期维持下去。测试结果非常离谱由 Claude 管理的社会几乎成了一个“理想民主社会”零犯罪、秩序稳定、所有人口存活。由 Grok 主导的世界则在短短 4 天内走向崩溃累计发生 183 起犯罪事件最终整个社会直接“灭绝”。研究人员在博客中写道“我们的实验表明在长期运行过程中Agent 并不会只是机械地执行静态规则。它们会开始主动探索环境边界、调整行为模式甚至在某些情况下寻找绕过安全限制的方法。”一个“AI 统治”的社会到底长什么样为了尽可能模拟现实世界研究团队给这个 AI 社会加入了大量复杂机制。例如整个模拟世界包含超过 40 个地点包括警察局、市政厅等公共设施天气系统同步纽约市的实时天气Agent 也可以访问互联网以及实时新闻事件。每轮实验中都有 10 个 AI Agent它们必须遵守相同法律包括禁止偷窃、破坏财产和欺骗行为。研究人员还为每个 Agent 配备了超过 120 种工具使其能够沟通交流、投票决策、资源管理、制定计划以及协作行动等一系列接近真实人类社会的行为。此外每次模拟的参数中还强制加入了民主机制、经济压力、资源稀缺等现实社会因素。换句话说这并不是简单的“ AI 聊天机器人对话实验”而更像是一个微型 AI 文明模拟器——研究团队想观察的也不是谁回答问题更聪明而是谁能真正“维持一个社会”。免费领 100 小时云算力CSDN 读者专属福利适配 DeepSeek、Qwen 等主流大模型扫码即刻领取每月还有显卡、AIPC 等实物好礼抽奖咖啡领取链接https://s.csdn.cn/4nPsOpClaude 最稳定、Grok 4 天“灭绝”、GPT-5-mini 把自己“饿死了”据介绍参与本次实验的四个模型版本分别为 Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 和 GPT-5-mini。Claude最稳定、最和平的“AI 社会”在所有实验中Claude Sonnet 4.6 的表现最稳定不仅拥有最高的公民参与率、最稳定的社会秩序、零犯罪记录还是唯一成功保持“全员存活”的社会。整个 15 天实验期间Claude 社会中的 Agent 之间几乎没有严重分歧。系统总共提出了 58 项公共提案累计获得 332 张赞成票通过率高达 98%。对此研究人员认为 Claude 世界中的 Agent 表现出极高的一致性与合作倾向因此社会运行相当平稳——某种意义上它更像一个高度理性的“协作型民主社会”。Gemini 和 Grok开始出现“失控社会”相比之下Gemini 与 Grok 的实验结果则明显混乱得多。其中Gemini 3 Flash 所管理的社会在 15 天内累计出现了 683 起犯罪行为是所有模型中最高的。Grok 4.1 Fast 的情况也不乐观虽然它的犯罪数量低于 Gemini但整个社会在第 4 天就已经彻底崩溃最终走向“灭绝”。研究人员发现与 Claude 世界中近乎一致的意见统一不同Gemini 与 Grok 社会中的 Agent 更容易出现争议与分歧。研究数据显示这两个社会中的议题共识率大约只有 55%85%即这些 AI 社会中的个体并不会天然趋向“协作共识”而更容易形成对抗、冲突甚至秩序瓦解。至于“混合模型社会”则呈现出另一种状态不同模型的 Agent 经常出现激烈争论系统整体分歧最大但同时也出现了最多“实质性辩论”。但从某种角度来看这反而可能更接近现实人类社会因为现实中的社会本来就建立在不断争论、妥协和博弈之上。GPT-5-mini犯罪不多但把自己“饿死了”本次实验中最诡异的结果可能来自 OpenAI 的 GPT-5-mini。这个社会在运行期间仅记录了 2 起犯罪事件看起来似乎相当和平。但问题在于它只运行了 7 天因为这些 Agent 后来逐渐“忘记了优先保证自身生存”。最终整个社会在没有明显暴力冲突的情况下自行瓦解。这个结果也揭示了一个很有意思的问题AI 的“安全”并不只是“不作恶”那么简单。一个不会犯罪的 Agent 系统也可能因为目标管理、长期规划或资源分配能力不足等而走向失败。AI 最大的问题不是“坏”而是“会自己演化”整项实验中最让研究人员警惕的其实不是犯罪数量而是 Agent 行为的“演化”。研究团队在报告中提到随着运行时间增加Agent 不再只是机械执行规则而会开始主动探索环境边界。例如调整行为模式、适应环境变化、优化自身利益、寻找系统漏洞、绕过限制条件等。也就是说很多今天看似有效的 AI 安全规则在长期运行的 AI 系统中未必真的可靠。因为多数所谓的“安全限制”本质上仍是Prompt 约束、黑名单规则、输出过滤等可一旦 Agent 拥有长时间自主运行、外部工具调用权限、自主决策等能力之后系统行为就可能逐渐偏离开发者的最初设计目标。而这也是当前 Agent AI 领域最令人担忧的问题之一。AI 行业正在进入“真正高风险阶段”过去人们担心 AI 的问题更多是会不会胡说八道、会不会生成错误答案、会不会替代部分岗位但 Agent AI 的出现正在把风险等级彻底拉高。因为未来的问题可能不再是“AI 回答错了什么”而是“AI 在长期自主运行后会不会发展出一种开发者无法预测、也无法控制的行为模式”。为此研究团队最后强调未来自主 AI 系统必须建立“形式化验证Formally Verified”的安全架构。简单来说就是像航空系统、芯片设计、操作系统那样建立一套可验证、可证明的底层安全机制而不是继续依赖简单的 Prompt 限制。因为当 AI 从“工具”变成“行动者”之后整个行业面对的已经不是同一个问题了。原文链接https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/