Grok犯下183宗罪、4天“灭国”，GPT直接把自己“饿死”！让AI“统治”社会15天，只有Claude撑到了最后

发布时间：2026/6/1 14:21:28

编译 | 郑丽媛出品 | CSDNIDCSDNnews如果未来世界由 AI Agent 来管理社会会变成什么样这个世界会更安全、更高效还是更混乱、更危险AI 会建立一个高度协作的乌托邦还是最终演化成不断突破规则边界的失控系统最近一家企业 AI 初创公司 Emergence AI 做了一场相当“科幻”的实验试图提前寻找答案他们推出了一个名为“Emergence World”的研究项目专门用于测试“持续运行型 AI 系统”的长期稳定性。研究团队一共进行了 5 轮、每轮长达 15 天的社会模拟实验分别由不同的大模型担任“社会核心”Claude、ChatGPT、Grok、Gemini以及一个“混合模型”版本。简单来说就是把多个 AI Agent 丢进一个高度拟真的虚拟社会里看它们最终会建立出怎样的世界以及这个世界能否长期维持下去。测试结果非常离谱由 Claude 管理的社会几乎成了一个“理想民主社会”零犯罪、秩序稳定、所有人口存活。由 Grok 主导的世界则在短短 4 天内走向崩溃累计发生 183 起犯罪事件最终整个社会直接“灭绝”。研究人员在博客中写道“我们的实验表明在长期运行过程中Agent 并不会只是机械地执行静态规则。它们会开始主动探索环境边界、调整行为模式甚至在某些情况下寻找绕过安全限制的方法。”一个“AI 统治”的社会到底长什么样为了尽可能模拟现实世界研究团队给这个 AI 社会加入了大量复杂机制。例如整个模拟世界包含超过 40 个地点包括警察局、市政厅等公共设施天气系统同步纽约市的实时天气Agent 也可以访问互联网以及实时新闻事件。每轮实验中都有 10 个 AI Agent它们必须遵守相同法律包括禁止偷窃、破坏财产和欺骗行为。研究人员还为每个 Agent 配备了超过 120 种工具使其能够沟通交流、投票决策、资源管理、制定计划以及协作行动等一系列接近真实人类社会的行为。此外每次模拟的参数中还强制加入了民主机制、经济压力、资源稀缺等现实社会因素。换句话说这并不是简单的“ AI 聊天机器人对话实验”而更像是一个微型 AI 文明模拟器——研究团队想观察的也不是谁回答问题更聪明而是谁能真正“维持一个社会”。免费领 100 小时云算力CSDN 读者专属福利适配 DeepSeek、Qwen 等主流大模型扫码即刻领取每月还有显卡、AIPC 等实物好礼抽奖咖啡领取链接https://s.csdn.cn/4nPsOpClaude 最稳定、Grok 4 天“灭绝”、GPT-5-mini 把自己“饿死了”据介绍参与本次实验的四个模型版本分别为 Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 和 GPT-5-mini。Claude最稳定、最和平的“AI 社会”在所有实验中Claude Sonnet 4.6 的表现最稳定不仅拥有最高的公民参与率、最稳定的社会秩序、零犯罪记录还是唯一成功保持“全员存活”的社会。整个 15 天实验期间Claude 社会中的 Agent 之间几乎没有严重分歧。系统总共提出了 58 项公共提案累计获得 332 张赞成票通过率高达 98%。对此研究人员认为 Claude 世界中的 Agent 表现出极高的一致性与合作倾向因此社会运行相当平稳——某种意义上它更像一个高度理性的“协作型民主社会”。Gemini 和 Grok开始出现“失控社会”相比之下Gemini 与 Grok 的实验结果则明显混乱得多。其中Gemini 3 Flash 所管理的社会在 15 天内累计出现了 683 起犯罪行为是所有模型中最高的。Grok 4.1 Fast 的情况也不乐观虽然它的犯罪数量低于 Gemini但整个社会在第 4 天就已经彻底崩溃最终走向“灭绝”。研究人员发现与 Claude 世界中近乎一致的意见统一不同Gemini 与 Grok 社会中的 Agent 更容易出现争议与分歧。研究数据显示这两个社会中的议题共识率大约只有 55%85%即这些 AI 社会中的个体并不会天然趋向“协作共识”而更容易形成对抗、冲突甚至秩序瓦解。至于“混合模型社会”则呈现出另一种状态不同模型的 Agent 经常出现激烈争论系统整体分歧最大但同时也出现了最多“实质性辩论”。但从某种角度来看这反而可能更接近现实人类社会因为现实中的社会本来就建立在不断争论、妥协和博弈之上。GPT-5-mini犯罪不多但把自己“饿死了”本次实验中最诡异的结果可能来自 OpenAI 的 GPT-5-mini。这个社会在运行期间仅记录了 2 起犯罪事件看起来似乎相当和平。但问题在于它只运行了 7 天因为这些 Agent 后来逐渐“忘记了优先保证自身生存”。最终整个社会在没有明显暴力冲突的情况下自行瓦解。这个结果也揭示了一个很有意思的问题AI 的“安全”并不只是“不作恶”那么简单。一个不会犯罪的 Agent 系统也可能因为目标管理、长期规划或资源分配能力不足等而走向失败。AI 最大的问题不是“坏”而是“会自己演化”整项实验中最让研究人员警惕的其实不是犯罪数量而是 Agent 行为的“演化”。研究团队在报告中提到随着运行时间增加Agent 不再只是机械执行规则而会开始主动探索环境边界。例如调整行为模式、适应环境变化、优化自身利益、寻找系统漏洞、绕过限制条件等。也就是说很多今天看似有效的 AI 安全规则在长期运行的 AI 系统中未必真的可靠。因为多数所谓的“安全限制”本质上仍是Prompt 约束、黑名单规则、输出过滤等可一旦 Agent 拥有长时间自主运行、外部工具调用权限、自主决策等能力之后系统行为就可能逐渐偏离开发者的最初设计目标。而这也是当前 Agent AI 领域最令人担忧的问题之一。AI 行业正在进入“真正高风险阶段”过去人们担心 AI 的问题更多是会不会胡说八道、会不会生成错误答案、会不会替代部分岗位但 Agent AI 的出现正在把风险等级彻底拉高。因为未来的问题可能不再是“AI 回答错了什么”而是“AI 在长期自主运行后会不会发展出一种开发者无法预测、也无法控制的行为模式”。为此研究团队最后强调未来自主 AI 系统必须建立“形式化验证Formally Verified”的安全架构。简单来说就是像航空系统、芯片设计、操作系统那样建立一套可验证、可证明的底层安全机制而不是继续依赖简单的 Prompt 限制。因为当 AI 从“工具”变成“行动者”之后整个行业面对的已经不是同一个问题了。原文链接https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/

Sora 2因果关系推理能力深度解构（全球仅3家实验室验证的时序干预协议首次公开）

更多请点击： https://kaifayun.com 第一章：Sora 2因果关系推理能力的范式跃迁传统视频生成模型多依赖时序统计相关性建模，而 Sora 2 首次将显式因果结构嵌入扩散过程的核心架构中。其关键突破在于引入可微分因果图（Differentiab…

2026/6/1 14:21:08 阅读更多

全平台资源下载利器：5个技巧掌握res-downloader高效使用方法

全平台资源下载利器：5个技巧掌握res-downloader高效使用方法【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader res-…

2026/6/1 14:20:48 阅读更多

【Sora 2后期处理黄金窗口期】：仅剩72小时！OpenAI最新API v2.3.1已悄然关闭旧版渲染钩子，附迁移补丁代码

更多请点击： https://intelliparadigm.com 第一章：Sora 2视频后期处理黄金窗口期的终结与意义 Sora 2 的发布标志着生成式视频技术从“可生成”迈向“可编辑”的关键跃迁。其原生支持帧级语义锚点、时序一致的潜空间解耦，以及内置的非线性时…

2026/6/1 14:20:48 阅读更多

LinkSwift：一键获取九大网盘真实下载链接的完整指南

LinkSwift：一键获取九大网盘真实下载链接的完整指南【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…

2026/6/1 15:35:21 阅读更多

QuickBMS 资源提取工具：五分钟掌握游戏文件解包与修改的终极指南

QuickBMS 资源提取工具：五分钟掌握游戏文件解包与修改的终极指南【免费下载链接】QuickBMS QuickBMS by aluigi - Github Mirror 项目地址: https://gitcode.com/gh_mirrors/qui/QuickBMS 你是否曾遇到过无法打开的游戏数据包？或是想要修改游戏…

2026/6/1 15:35:00 阅读更多

从红外传感器到继电器驱动：手把手搭建纯硬件智能照明系统

1. 项目概述与核心思路如果你对智能家居感兴趣，并且想从最基础、最核心的传感器原理开始动手，那么基于红外传感器的自动化系统绝对是一个绝佳的起点。这个项目听起来可能有点“复古”，毕竟现在大家都在聊Wi-Fi、蓝牙Mesh、Zigbee这些无线协议…

2026/6/1 15:35:00 阅读更多

别再手动拖滑块了！5分钟教会你用影刀RPA自动化登录带验证码的网站

5分钟实战：用影刀RPA零代码破解滑块验证码登录难题每次打开电商后台都要反复拖动滑块验证码？作为每天需要登录数十个平台的中小企业运营人员，我完全理解这种重复操作带来的效率瓶颈。直到上个月偶然接触到影刀RPA这个可视化工具，才…

2026/6/1 15:34:20 阅读更多

APK Installer：在Windows上快速安装Android应用的终极指南

APK Installer：在Windows上快速安装Android应用的终极指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经遇到过这样的情况：朋友发来…

2026/6/1 15:34:20 阅读更多

基于555定时器的振动传感器DIY：从机械触发到电子锁存的完整实现

1. 项目概述与核心思路振动检测在业余电子制作里是个挺有意思的方向，比如你想知道快递员有没有把包裹扔在门口，或者想给模型做个简易的“碰撞报警器”。市面上有现成的振动传感器模块，但自己动手做一个，尤其是用经典的555定时器来…

2026/6/1 15:33:18 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/1 0:23:56 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2026/6/1 0:06:19 阅读更多

相关文章

Sora 2因果关系推理能力深度解构（全球仅3家实验室验证的时序干预协议首次公开）

全平台资源下载利器：5个技巧掌握res-downloader高效使用方法

【Sora 2后期处理黄金窗口期】：仅剩72小时！OpenAI最新API v2.3.1已悄然关闭旧版渲染钩子，附迁移补丁代码

LinkSwift：一键获取九大网盘真实下载链接的完整指南

QuickBMS 资源提取工具：五分钟掌握游戏文件解包与修改的终极指南

从红外传感器到继电器驱动：手把手搭建纯硬件智能照明系统

别再手动拖滑块了！5分钟教会你用影刀RPA自动化登录带验证码的网站

APK Installer：在Windows上快速安装Android应用的终极指南

基于555定时器的振动传感器DIY：从机械触发到电子锁存的完整实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因