停止AI研发!Anthropic万字长文警告:AI“递归式自我改进”正在逼近 编译 | 苏宓出品 | CSDNIDCSDNnews是时候让全球顶级 AI 实验室考虑放缓开发步伐了...发出这一呼吁的不是 AI 领域的批评者而是如今站在行业最前沿的 Claude 开发商 Anthropic——这家成立仅 5 年、估值高达 9000 亿美元的新锐 AI 初创公司。Anthropic 给出的理由也很直接AI 正在越来越多地参与 AI 本身的研发过程而距离“AI 构建 AI”的时代可能已经没有想象中那么遥远。在 Anthropic 看来一旦 AI 具备自主设计、训练和优化下一代模型的能力人类将面临一个前所未有的问题如何持续监督这些系统、确保它们始终处于可控状态并让其发展方向符合人类利益。值得注意的是Anthropic 的担忧并非建立在纯粹的理论推演之上。相反这一判断来自两个方面一方面是过去几年整个行业公开可见的能力跃迁另一方面则是 Anthropic 内部积累的大量实际研发数据。在最新发布的长篇研究报告《When AI Builds Itself当 AI 构建自身》中Anthropic 系统梳理了 AI 在“递归式自我改进”方向上的最新进展并试图回答两个关键问题AI 距离真正开始“研发自己”还有多远面对「未来的这一天」当前行业该怎么做20XX 年“递归式自我改进”时代即将到来过去几年Anthropic 正逐步把越来越多的 AI 研发工作交给 AI 系统本身完成2021-2023 年构建第一个 Claude。这时 Anthropic 的工作方式与大多数科技公司并没有本质区别工程师坐在电脑前写代码、写文档AI 尚未真正参与研发过程。2023-2025 年聊天机器人开始进入工作流例如生成简短代码片段开发者再手动复制到 IDE 中完成后续工作。2025-2026 年随着 Claude Code 等编码 Agent 出现AI 能够独立编写和修改代码有时候也能编辑整个文件。到了今天“自主 Agent”已出现它们可以自己运行代码还能把任务进一步拆分并交给其他 Agent 处理连续完成数小时的工作。如果按照这种趋势持续下去并且拥有足够的算力支持Anthropic 指出最终可能会出现这样一种 AI它能够完全自主地设计并开发出自己的下一代版本。这种现象被称为“递归式自我改进Recursive Self-Improvement”。在 Anthropic 设想的下一阶段——时间轴上的“20XX 年”整个循环将被彻底闭合。毋庸置疑如果 AI 能够自主构建下一代 AI 系统这将成为技术发展史上的一个重要里程碑并有望在科学研究、医疗健康等众多领域释放巨大价值为社会带来广泛益处。但另一方面完全实现递归式自我改进也可能增加人类失去对 AI 系统控制权的风险。倘若 AI 已经具备独立构建其后继系统的能力那么如何保障系统安全、如何持续进行监督以及如何确保其行为符合人类预期都将变得更加重要。Anthropic 表示我们距离这一阶段还有相当长的路要走而且递归式自我改进也并非一定会发生。但它到来的时间可能比大多数机构和组织预想的更早。这一点可以从外部以及 Anthropic 内部的使用情况看出来。CSDN 6 月宠粉福利200 小时 GPU 算力免费送瑞幸咖啡/肯德基早餐/麦当劳套餐/下午茶等能量套餐任选其一入群还可每月定期抽取旗舰显卡、AI PC 等极客神装来自外部的证据Anthropic 表示衡量这一趋势的一个重要指标是AI 能够独立完成任务的时长正在迅速增长。过去这个数字大约每 7 个月翻一倍如今已经缩短到每 4 个月翻一倍左右。2024 年 3 月Claude Opus 3 大致能够独立完成需要人类花费 4 分钟左右的软件开发任务。一年后的 Claude Sonnet 3.7已经能处理耗时约 1 个半小时的任务。再过一年Claude Opus 4.6 能够完成持续约 12 小时的工作任务。如果这一趋势持续下去那么今年之内AI 可能就能胜任那些需要熟练工程师花费数天时间才能完成的工作。而到了 2027 年AI 系统甚至可能具备处理需要数周时间才能完成任务的能力。类似的变化也体现在编程和科研领域的各类基准测试中。基准测试用于衡量模型在特定领域的能力表现。当模型成绩接近满分时通常意味着这一测试已经被“刷满”或“跑满”很难再区分不同模型之间的能力差异。SWE-bench 是目前广泛使用的软件工程能力测试。它会向模型提供一个真实的开源项目和一份真实的 Bug 报告要求模型修改代码、修复问题并通过项目原有的测试用例。短短两年时间里模型在这一测试上的成绩已经从个位数水平一路提升到接近满分。科研领域也出现了类似情况。CORE-Bench 主要测试模型能否复现已有研究成果而这被认为是开展原创科研工作的前提条件。测试会向模型提供一篇已发表论文对应的代码和数据然后要求模型重新运行整个实验流程并验证是否能够得到与论文一致的结果。2024 年AI 复现成功率还只有约 20%仅仅 15 个月后模型已经基本达到这一测试的上限。负责研究长周期任务能力的机构 METR 也发现Claude Mythos Preview 能够连续工作至少 16 个小时其表现已经接近 METR 现有评测体系能够测量的上限。如果想继续评估更强模型的能力他们甚至需要设计全新的测试任务。公开基准测试能够很好地反映这些 AI 系统能力正在快速提升但它们无法直接反映另一件同样重要的事情AI 是否正在加速 AI 本身的发展。想回答这个问题就需要看看 Anthropic 内部发生了什么。Anthropic 内部的变化如今Claude 已经承担了 Anthropic 大量的代码编写工作。80% 代码由 Claude 完成截至 2026 年 5 月Anthropic 主代码库中超过 80% 被合并的代码最初都由 Claude 编写。而在 2025 年 2 月 Claude Code 以研究预览版发布之前这一比例还只有个位数。这种变化同样体现在工程师的产出效率上。在 Anthropic 成立后的前四年2021—2024 年每位工程师每天提交到代码库中的代码量基本保持稳定。到了 2025 年这条曲线开始明显上升。原因在于 Claude 不再只是给出代码建议等待工程师复制粘贴而是能够直接运行和修改代码。进入 2026 年后随着模型开始能够在更长时间范围内自主完成工作这一增长趋势再次加速。数据显示2026 年第二季度Anthropic 普通工程师每天提交的代码量已经达到 2024 年同期的 8 倍。出现这种变化的原因并不是工程师打字速度突然变快了而是越来越多代码实际上由 Claude 完成。工程师更多是在设定目标、指导方向以及审核结果而不再亲自编写每一行代码。Anthropic 特别指出有一个需要先说明的前提代码行数并非完美的衡量标准因为它衡量的是数量而非质量。因此该团队表示2026 年第二季度“每位工程师每天代码量提升 8 倍”这个数字很可能高估了真实的效率提升幅度。尽管如此它至少说明了一件事整体产出确实在加速。当然Anthropic 称其内部并不会根据代码行数来评价员工贡献。换句话说大家并不是为了“写更多代码”而去写代码。代码量的增加本质上是因为工程师开始更频繁地使用 AI 系统来完成原本需要自己写的部分。这种“产出变多”的变化也和工程师的主观感受基本一致。在 2026 年 3 月Anthropic 对 130 名来自不同研究团队的员工做了一次调查。结果显示中位数受访者认为在使用 Mythos Preview 的情况下他们在自己原本就会参与的项目中整体产出大约提升了 4 倍。不过从整体判断来看这个“4 倍”的数字可能还是偏乐观了一些。但即便如此这个结论仍然和其他观察结果一致相当一部分 Anthropic 技术人员确实正在以数倍于过去的速度完成核心工作。除此之外Anthropic 还看到一个同样重要的现象人们开始用 Claude 去做一些“如果没有 AI大概率不会做”的工作。比如构建一些探索性的工具或者处理长期被搁置的代码清理任务。举个例子在 2026 年 4 月Claude 一次性修复了 800 多个 API 错误这些修复让某一类 API 报错率下降了约 1000 倍。负责这一工作的工程师估计如果完全由人类来做这项工作可能需要四年时间才能完成。原因很简单这类工作通常又琐碎又耗时而且需要在脑中同时处理大量不熟悉的系统上下文。AI 正在写出“好代码”在 Anthropic 看来所谓的“好代码”主要有两个标准第一是能正确运行第二是结构清晰其他工程师能够理解并在此基础上继续开发。在第一个标准上Anthropic 表示过去一年里其员工在 Claude 执行任务过程中进行干预、纠正或接管的频率一直在下降即便是在复杂、开放式任务中也是如此。这里说的“开放式任务”指的是那些没有明确答案、工程师自己也不完全确定最终结果应该是什么的工作。从 Claude 在不同难度任务上的成功率变化也可以看到这一点它正在越来越多地独立完成真正可用的代码。在最开放式的任务中Claude 在 2026 年 5 月的成功率达到了 76%在六个月内提升了 50 %。第二个衡量标准是代码是否足够清晰能否让其他工程师理解并继续开发。在这一点上人类与 AI 之间的差距仍然存在但正在快速缩小。Anthropic 内部员工并没有完全一致的看法但很多人认为在 2025 年末Claude 生成的代码质量仍然略低于人类工程师而到了今天已经大致接近持平预计在一年之内可能会超过人类水平。这一变化也改变了 Anthropic 内部代码审查的方式。现在Anthropic 声称其所有提交到代码库的改动在合并之前都会先经过一个由 Claude 驱动的自动审查系统用于检查 bug、安全问题以及其他潜在缺陷。基于这一工具他们还做了一次回溯分析发现如果对过去 claude.ai 生产环境中的所有代码变更都进行这种自动审查大约三分之一导致事故的 bug本可以在上线前被提前发现。而这些代码的作者本身都是世界上最顶尖的工程师之一。换句话说如今 Claude 已经开始捕捉那些顶级人类工程师也会遗漏的错误。Claude 擅长在既定目标下不断进行实验以找到更优解每次 Anthropic 发布新模型时该团队内部都会运行一个固定测试给 Claude 一段用于训练小型 AI 模型的代码然后要求它在保证正确性的前提下让训练速度尽可能快。在这个任务中目标和评估标准都是提前固定好的Claude 的工作就是不断修改代码、运行实验、计时、再修改循环优化。这本质上是一个微缩版的实验研究流程。在 2025 年 5 月Claude Opus 4 平均能让代码运行速度提升约 3 倍。到了 2026 年 4 月Claude Mythos Preview 已经可以达到约 52 倍的提升。作为对比一名熟练的人类研究员通常需要 4 到 8 小时才能实现 4 倍加速。在这个研究流程的环节中也就是在明确实验目标下进行优化——Claude 在不到一年时间里从“很好用”变成了“超过人类水平”。Claude 在提出自己实验设计方面的能力也在提升2026 年 4 月Anthropic 发布了一个重要实验首次展示 Claude 端到端运行一个开放式研究项目。在这个实验中由 Claude 驱动的 Agent 被交给一个 AI 安全领域的开放问题——“较弱的模型能否可靠地监督更强的模型”然后让它们自行探索解决方案。整个过程包括提出假设、设计实验、测试结果、在多个并行 Agent 之间共享发现并不断迭代。这个任务本身有明确的“下限”和“上限”下限是弱监督模型单独完成时的表现上限是强模型在正确答案监督下训练后的表现。两名人类研究员在大约一周时间内弥补了约 23% 的性能差距。而 Claude 驱动的 Agent 在约 800 小时的累计运行中恢复了 97%消耗约 1.8 万美元算力。这个实验存在一些局限性它并没有完全迁移到生产级模型上而且问题选择和评分标准仍然由人类设定。但在这些约束条件下实验设计本身已经完全由 Agent 完成人类的主要作用只剩下方向设定。Claude 在把研究过程逐步引导向真正“有结果的方向”这件事上正在变得越来越好长文中Anthropic 还分析了 2026 年 1 月到 3 月之间真实的 Claude Code 会议记录这些记录来自 Anthropic 研究人员与 Claude 一起处理开放式调查任务的场景比如为什么某次训练会不断崩溃或者为什么某个模型在基准测试中表现异常低。在每一段记录中Anthropic 发现了一个共同点研究人员在某个时刻“绕了一下路”他们尝试了一个方向但这个方向让整个调试或研究过程偏离了主线直到后来才重新回到正轨。随后他们只截取这些会话中“走偏之前”的部分把不同版本的 Claude 模型放进去询问它们下一步会怎么做。同时他们还使用另一个 Claude它能够看到整个会话最终是如何发展的让它去判断在那个关键节点上是 AI 还是人类提出的下一步更好。需要强调的是这类样本n129是刻意挑选的——Anthropic 表示我们选择的都是“人类判断存在改进空间”的时刻。因此这并不是一个严格意义上的人机对照实验而更像是在一组真实且具有挑战性的情境中观察模型在“下一步决策”能力上的演化。在这些情境里正确答案本身并不显而易见人类的选择只是一个有意义的参照基准用来衡量模型在不同时间点的表现变化。在这一指标上2025 年 11 月的最佳模型Opus 4.5在 51% 的情况下优于人类选择到了 2026 年 4 月的 Mythos Preview这一比例提升到了 64%。而研究工作在很大程度上本质上就是由一连串这样的“下一步该做什么”的决策构成的。因此这一结果可以被视为一个早期信号AI 正在逐步具备 AI 研究所依赖的那种判断能力。Anthropic 未来的工作会变成什么样现有证据表明在 AI 研发流程的每一个环节中人类的角色都在逐步收缩。一旦人类与 AI 生成的代码质量达到持平人类很可能会不再亲自写代码而转向只负责审查代码。但如果 AI 写代码的速度远远超过人类审查速度那么“代码审查”本身就会成为新的瓶颈从而反过来限制整体研发效率。类似地一旦 Claude 能够独立运行实验下一个关键问题就会变成哪些实验值得做换句话说原本需要人类投入时间的“执行环节”写代码、跑实验、产出结果正在迅速变得几乎不再消耗人类时间——即使它仍然消耗算力资源。目前来看人类仍然具有相对优势的领域是“研究品味”和判断力包括选择什么问题重要、哪些结果值得信任、以及什么时候某条路径已经走不通。Anthropic 也有可能错了Anthropic 指出对上述所有证据一个自然的反驳是目前仍然掌握在人类手中的部分——比如“选择做什么问题”——才是真正关键的能力。如果没有这种判断力Claude 仍然只是一个能力很强的工具而不是能够独立推动 AI 进展的系统。但其认为问题在于现有的训练方法和模型架构是否真的能够支持这种能力的出现目前仍然不清楚。不过AI 的进步很少来自某种“灵光一现”的突破。在 AI 的发展史中确实出现过少数范式级变化比如 Transformer 架构或者 mixture-of-experts 模型。但这类改变往往间隔数年才出现一次。而在这些阶段之间绝大多数进步都是渐进式的扩大规模、观察问题、修复缺陷、再继续扩展。这恰好也是 Claude 当前最擅长的工作方式。爱迪生曾说过“天才是 1% 的灵感加上 99% 的汗水。”但现在的问题是这 99% 的“汗水”正在被逐渐自动化。越来越明显的一点是推动前沿进展的很大一部分工作本质上是可以被自动化的。大规模研究的推进速度更多取决于工具和资源——也就是你能多快运行实验、能同时运行多少实验以及你获取结果的速度。即便假设 Claude 永远无法形成良好的“研究品味”一个更保守的结论仍然成立整体进展正在出现持续的复合加速。如果人类只负责少量关键的方向选择而 Claude 负责其余大部分工作那么每个研究人员实际“可控制的工作量”都会显著扩大。从目前的证据来看Anthropic 内部的人员不仅在加速产出同时也在覆盖更大的工作范围。在现实中这意味着即使没有发生质变AI 也已经让 Anthropic 的整体运转速度明显快于 AI 工具普及之前。而更乐观或者说更激进的解释是Claude 在研究判断力上的早期进展——尽管目前仍然有限——本身就说明这种能力正在被逐步学习出来。“研究品味”可能只是另一种能力形态它一开始表现很差但随着训练和规模扩大最终也会被掌握。类似的模式在其他“偏定性能力”上已经出现过比如 AI 解释笑话为什么好笑、理解他人意图、以及解决语言谜题的能力。可能的未来接下来会发生什么取决于两件事当前趋势是否会继续以及如果继续大家会如何应对。对此Anthropic 设想了三种不同的未来路径一、趋势停滞但现有 AI 能力已经广泛普及上文中提到的很多增长曲线看起来像指数增长但它们也可能最终只是“S 曲线”。也就是说如今的大家可能正在接近曲线的拐点当规模继续扩大时边际收益开始下降增长速度逐渐变缓最终趋于平稳。在这种情况下区分“合格研究者”和“顶尖研究者”的关键能力可能并不能通过简单地扩大算力和数据规模来获得。如果确实如此要突破这一瓶颈可能需要新的突破比如一种全新的模型架构能够取代当前所有前沿模型都依赖的 Transformer 架构。另一种可能是限制 AI 进步的并不是模型本身而是外部供给链。例如推动前沿模型发展的能源和算力需求可能已经接近甚至超过现实世界的供给能力。芯片制造速度、电网扩展能力、互联带宽等基础设施可能比“智能本身”更早成为瓶颈。众人也不能排除某种外部冲击导致 AI 发展明显放缓比如算力或电力供应突然下降这会显著减缓进展并提高实验室持续投入的成本。当然也可能存在大家目前尚未意识到的其他限制因素。即便模型能力停留在今天的水平不再提升世界也依然发生了深刻变化。一个早期例子是 Project Glasswing在最初几周Mythos Preview 就在全球关键系统中发现了一万多个高危或严重级别的软件漏洞。这已经让网络安全的瓶颈从“发现漏洞”转变为“是否来得及修复”。而当前大家才刚刚开始把这些模型扩散到更广泛的经济体系中。在这种情况下一个 100 人的公司可能越来越像一个 1000 人甚至 10000 人规模的组织因为每个员工都在使用一整套 AI 代理系统作为“能力放大器”。Anthropic 表示提出这种情况是为了完整性考虑但我们并不认为它是最可能的路径。因为到目前为止Anthropic 观测到的所有能力指标——包括那些较难量化的比如代码质量、开放式任务表现——都沿着同一条曲线持续上升至今还没有看到这条曲线出现拐点。在这三种未来中这一种给政府和社会留下的适应时间是最长的。但 Anthropic 更担心后面两种发展路径因为它们可能会更快发生也留给人类的准备时间更少。二、AI 研发持续提速但仍由人类主导方向在这一情景中AI 的研发将高度自动化但人类仍然负责设定研究方向和判断结果。随着时间推移使用 AI 系统的组织将变得更加高效因此也可以预料到组织中每个人的生产力都将得到显著提升。现在大家也可以看到非常明显的产出倍增效应100 人的团队可能逐渐具备执行 1 万甚至 10 万人规模工作的能力。这将彻底改变知识型工作以及公共服务的运作方式。但它也可能被用于有害的用途比如对全体民众进行高度自动化的监控、或开展针对每个人的、规模庞大、任何人类团队都无法企及的影响行动。在这种未来中像 Anthropic 这样的组织内部角色也会发生变化。人类不再主要“执行任务”而是与 AI 协作扩大研究规模、产生新想法并共同构建验证系统确保 AI 输出是可信的。就目前看到的证据表明Anthropic 坦言我们很可能正在走向这一情景。但需要注意的是加速某一环节的效率往往只是把瓶颈转移到了其他地方。系统整体速度最终取决于最慢的那一部分。在计算机科学中这被称为 Amdahl 定律同样的逻辑也适用于组织运作。Anthropic 已经观察到这一现象的一个具体表现当越来越多代码由 AI 生成后人类代码审查反而成为新的瓶颈。在工程之外也会有类似的限制。由于模型能力提升Anthropic 内部出现了大量新的想法、项目、工具和模拟实验但团队根本没有足够的精力全部推进。如何快速识别这些瓶颈并决定优先级可能本身就会成为组织中最关键的一项能力而且这一能力可能也会随着时间不断进化。三、AI 系统本身将具备完全递归式自我改进的能力并开始构建自己的下一代系统如果技术趋势持续发展并且 AI 获得类似人类“创造性突破能力”的水平那么 AI 设计并优化自身系统是完全可能的。在这种情况下AI 研发的速度将几乎完全由算力供给决定——或者由算法效率提升的速度决定。人类在研发中的角色将大幅下降主要转向监督、验证和审计工作。届时一个由 AI 运行的“虚拟实验室”将持续扩张而人类更多是在外围确认其行为是否安全可靠。与此同时这类系统一旦具备自动化 AI 研发能力也很可能迁移到其他科学领域引发更广泛的科学革命。但在这个未来中“对齐问题”是否能够被解决是最不确定的一点。模型可能展现出足够的一致性和研究能力从而发现并实现大家尚未实现的全新解决方案。如果情况并非如此他们或许会足够明智地停止发展。但也存在另一种可能当前模型中已经存在的少量不对齐行为在不断生成下一代模型的过程中被放大、继承并逐渐失控最终变得更加复杂但难以理解。我们甚至不确定是否能够构建出足够可靠的工具来判断自己究竟处在哪一条轨道上。很多人很难直观理解这种未来因为当前经济体系仍然建立在人类及其工具之上。而在一个由快速递归自我改进驱动的世界中AI 可能逐渐主导整个经济系统并在能力上全面超过人类。当人类劳动不再具有竞争力时经济会变成什么样本身就很难预测。即使模型研发完全自动化并形成递归循环大家也无法确定这会如何改变普通人的日常生活。Amdahl 定律在这里同样成立。递归式智能可能在某些领域快速实现巨大突破这与《Machines of Loving Grace》中描述的愿景类似。同时具身智能机器人可能紧随其后并以类似路径继续提升效率、降低成本。更强的智能可能帮助我们更快建造物理世界中的设施、更高效地推进药物临床试验也可能推动新的协调机制出现。但“递归改进”本身并不会立刻改变社会运行方式、产业结构或市场机制。再强的智能也无法缩短药物在真实世界中的长期观察周期也无法让宪法允许提前选举也无法在一个周末让陌生人成为朋友。在很长一段时间内人类生活的节奏仍然会被这些现实瓶颈所决定。即便上游的“实验室”以计算速度运转这种冲突仍然存在。而当递归智能不断加速自我改进并与人类社会、关系网络和治理体系发生碰撞时这一部分的未来恰恰也是我们目前最难预测的部分。Anthropic 呼吁全球顶级 AI 实验室考虑放缓开发步伐自身也会跟进如果能够有效放缓这项技术的发展从而为人类社会争取更多时间来应对它带来的巨大影响这很可能是一件好事。不过如果这种放缓只是让那些最不谨慎的参与者在技术上迎头赶上那么结果可能反而让整体局势变得更不安全。倘若没有全球协调机制无论是公司还是政府都不得不在竞争压力和地缘政治压力之下对安全问题做出艰难决策。为此Anthropic 认为如果世界可以选择放缓或者暂时终止前沿 AI 的研发从而让社会结构和对齐研究有时间跟上技术进展这对世界大有裨益。在这之中Anthropic Institute 透露其也将与许多其他机构合作开展相关研究并采取行动尝试构建实现这种可信减速或暂停所需要的系统。而这些系统的目标是让前沿 AI 开发者能够验证全球范围内其他参与者是否真的已经停止或放缓了研发以及是否存在某个行为者利用“集体暂停”的名义暗中继续推进。如果这样的验证系统能够建立起来Anthropic 预计在其他处于前沿或接近前沿的开发者也以可验证方式同步放缓的情况下自己也会选择放缓或暂时暂停研发。要真正实现有效放缓或者暂停需要多个资源充足、处于或接近技术前沿的实验室在多个国家之间达成一致并在相同条件下停止或减缓研发。同时还需要能够相互验证彼此确实已经停止。但 Anthropic 表示由于 AI 系统本身的特殊性这一问题在“可检测性”甚至比“可验证性”更弱的标准上比以往任何技术都更加困难。训练过程比“导弹发射井”更容易隐藏输入数据本身是通用的而且“秘密违约”的激励极其强烈——因为只要有一方在他人暂停时继续推进就可能直接获得领先优势。一个可信的暂停机制还必须明确什么条件触发暂停、什么条件解除暂停以及由谁来裁定这些规则。这些事情在原则上并非不可能但这些体系往往需要数十年时间来建立信任与基础设施。而我们可能并没有那么多时间。相比之下单一实验室自行暂停在技术上是可立即实现的但其作用也有限它只会改变“谁处于领先位置”但无法形成一个更广泛的协调与共同决策机制而这正是当前缺失的部分。在接下来的几个月里Anthropic 透露他们将组织一系列讨论邀请政策制定者、研究人员、民间社会组织以及其他 AI 公司共同参与回答上文提出的一些问题尤其是关于“完全递归式自我改进”以及如何建立更好的协调与讨论机制。届时也会公开这些讨论的结果。来源https://www.anthropic.com/institute/recursive-self-improvement