科学实验从来不是一条直线更像一片分岔的密林。你得同时试探好几条路中途可能还得换方向。哈佛大学的一个团队造出了 AutoScientists让一群 AI Agent 自己组队、自己讨论、自己做实验跑出了一条跟以往 AI 科学家不一样的路子。在 BioML Bench 上涵盖生物医学成像、蛋白质工程、单细胞组学和药物发现AutoScientists 的平均排行榜百分位数为 74.4% 在 24 项任务中比此前最强的 AI Agent 提高了8.33%。在 GPT 训练优化中AutoScientists 达到每字节目标验证位的速度比 Autoresearch 快1.9倍。在 ProteinGym 适应度预测方面AutoScientists 发现的方法比当前最先进的模型提高了 12.5%。没有指挥官的团队做科研最难的不是做实验是判断往哪个方向做实验。现有 AI Agent 做科研大体分两派。一派是单打独斗型比如 AIDE 和 Autoresearch它们沿一条搜索路径不断迭代把一个方向打磨到极致代价是没法同时追多个假说。另一派是多 Agent 型几个 Agent 分工合作但总要有一个中心指挥者要么是一个规划器Planner分配任务要么靠投票达成共识。但问题是长周期的科学实验里哪些方向有价值是随着实验结果不断变化的事前没法固定。AutoScientists 换了个思路不要指挥官。9 个 Agent 一起读一份共享状态Shared State自己决定追哪个方向自己组织团队自己讨论方案好不好实验跑完了再一起复盘。没有谁给谁派活没有谁拍板定方向。具体来说系统在两个阶段之间交替运行。讨论阶段所有 Agent 分析任务提出研究方向的候选互相点评然后自己组织成若干个团队每个团队负责一个方向。执行阶段各团队并行跑实验把结果写回共享状态。当某个方向停滞不前时Agent 重新开启讨论可能拆分团队、合并方向、甚至开辟全新路线。这套共享状态有四层结构。冠军程序Champion记录当前最优模型及复现指令实验日志Experiment Log记录每次实验的结果、指标变化和训练细节共享论坛Forum是结构化的帖子区Agent 在这里辩论方案、公布结果、分享机制分析每个团队还有自己的实验队列和死胡同登记表Dead-end Registry记录哪些方向已经试过且失败了其他团队也能读到。Agent 从共享状态中识别有前景的研究方向自组织成团队并行执行实验在停滞期重新讨论和调整。每个 Agent 都跑在一种心跳循环Heartbeat Cycle上读共享状态按自己的角色行动把结果写回去循环往复。团队里有两类角色。分析师Analyst负责维护搜索知识审查实验日志中哪些方向还没被试过往团队队列里提方案方案按观察到的效应大小排序未被充分探索的方向优先效应持续偏小的方向被降权。实验员Experiment从队列里领任务把代码改动应用到当前冠军程序上跑训练记录结果。评估指标可能有随机波动所以在噪声带内的改进会用第二个随机种子确认后再升级为新的冠军。三大赛道全面领先AutoScientists 在三个差异很大的科学赛道上做了评估全部超越此前最强的 AI Agent。生物医学机器学习用的是 BioML-Bench包含 24 个端到端的任务涵盖生物医学影像、药物发现、蛋白质工程、单细胞组学四个领域。每个任务提供自然语言描述和训练数据提交结果由外部评估器在隐藏测试集上打分。AutoScientists 在 24 个任务上拿到 74.4% 的平均排行榜百分位比 Autoresearch 的 66.07% 高出 8.33 个百分点。药物发现是提升最大的领域从 Biomni 的 47.91% 跳到 AutoScientists 的 64.52%。蛋白质工程领域AutoScientists 和 Autoresearch 都拿到了 96.97%但 AutoScientists 的平均排名更好。GPT 训练优化的场景考验的是 AutoScientists 能不能跳出生物医学的舒适区。任务用的是 GPT nanochat 训练优化每次实验是 5 分钟的 GPT 训练跑跑完看验证集的 bits-per-byte越低越好。从 Autoresearch 基线出发AutoScientists 用 34 次实验就达到了 Autoresearch 需要 65 次才能达到的损失值快了 1.9 倍。原因是 Agent 在这次运行中组了三个团队分别盯着架构、学习率调度和优化器多方向同时推进而单 Agent 每次只能改一个维度。更戏剧性的是从冠军出发的实验。两个系统都从 AutoScientists 已跑出的冠军开始拿到同样的失败方向清单。AutoScientists 在 93 次实验中接受了 7 项改进最终把 bits-per-byte 降到了 0.9730。Autoresearch 在 100 次实验中接受了 0 项改进最好成绩只到 0.9783。这 7 项改进来自截然不同的方向查询键归一化顺序、矩阵初始化、值嵌入门宽度、最终学习率比例、softcap 值、编译自动调优、噪声基线校准。其中第一个改进查询键归一化顺序Autoresearch 在 100 次尝试中从未提出过。差距不在于算力在于假设的多样性。蛋白质功能预测的任务更贴近真实科研。从一个已经很强的现有方法出发能不能再往前推一步。AutoScientists 从当前最好的监督基线 Kermut 出发在单个开发测定ACE2-Spike 结合上做修改没有碰完整基准测试。找到的方案是一个三高斯过程集成结合了 Kermut 的结构核、扩展的零样本特征、基于多样性的贪心特征选择以及分位数变换目标。在开发测定上Spearman 相关系数从 0.747 提升到 0.840相对提升 12.5%。更关键的是这个配方冻结后不做任何修改直接用在 ProteinGym 全部 217 个测定上平均 Spearman 相关系数从 0.657 提升到 0.700相对提升 6.5%。三种交叉验证方案上都有改善。从单一任务上的调优到通用的性能提升这个迁移能力让人眼前一亮。每个零件都不可少AutoScientists 有四个核心机制分析师驱动的方案生成、跨 Agent 反馈、团队自组织、共享实验记录。去掉任何一个性能都会掉但掉得最厉害的地方各不相同。去掉分析师TDC-hERG 任务的 AUROC 从 0.867 掉到 0.738排行榜百分位从 85.7% 掉到 14.3%。去掉跨 Agent 反馈人体血浆蛋白结合任务的 Pearson 相关系数从 0.873 掉到 0.714每个 Agent 只能看到部分信号没法互相补盲。去掉自组织GPT 训练优化的 bits-per-byte 从 0.9777 恶化到 0.9833因为有效搜索方向在运行过程中发生了转移固定团队跟不上变化。把共享状态也去掉让每个 Agent 独立运行细胞间通信任务的 Odds Ratio 从 0.924 掉到 0.435比例降幅最大独立 Agent 重复踩坑又各走各路。分析师解决方案质量问题跨 Agent 反馈解决信息不完整问题自组织解决搜索方向偏移问题共享记录解决重复劳动问题。它们之间是互补关系。Figure 5 展示了长周期实验搜索中涌现的协作行为。包括 Agent 多样化方案、识别饱和方向、跨团队转移假说、在停滞后退出死胡同等典型互动附有 Agent 的真实讨论引述。AutoScientists 也有局限。它用的 LLM Token 比 Autoresearch 多因为多个 Agent 同时推理、讨论和重组团队都要消耗算力。它的设计目标不是更省调用次数而是在固定的实验算力预算下把搜索做得更好。在 BioML-Bench 评估中每个任务只分配了一块 H100 GPUGPU 密集型实验只能顺序执行AutoScientists 并行实验的能力没有被充分发挥。此外Agent 数量是运行前固定好的未来可能会根据任务难度动态调整团队规模。AutoScientists 让一群 AI Agent 也能像科研团队一样自发协作、各自探索、互相纠偏、随时调整方向。三大赛道的实验数据证明这种去中心化的自组织方式确实比单打独斗和中央指挥都更持久、更高效。参考资料https://autoscientists.openscientist.ai/https://github.com/mims-harvard/AutoScientistshttps://arxiv.org/pdf/2605.28655v1
哈佛让 AI 自己组织科研团队,相互协作,碾压传统 AI Agent
发布时间:2026/6/3 23:03:04
科学实验从来不是一条直线更像一片分岔的密林。你得同时试探好几条路中途可能还得换方向。哈佛大学的一个团队造出了 AutoScientists让一群 AI Agent 自己组队、自己讨论、自己做实验跑出了一条跟以往 AI 科学家不一样的路子。在 BioML Bench 上涵盖生物医学成像、蛋白质工程、单细胞组学和药物发现AutoScientists 的平均排行榜百分位数为 74.4% 在 24 项任务中比此前最强的 AI Agent 提高了8.33%。在 GPT 训练优化中AutoScientists 达到每字节目标验证位的速度比 Autoresearch 快1.9倍。在 ProteinGym 适应度预测方面AutoScientists 发现的方法比当前最先进的模型提高了 12.5%。没有指挥官的团队做科研最难的不是做实验是判断往哪个方向做实验。现有 AI Agent 做科研大体分两派。一派是单打独斗型比如 AIDE 和 Autoresearch它们沿一条搜索路径不断迭代把一个方向打磨到极致代价是没法同时追多个假说。另一派是多 Agent 型几个 Agent 分工合作但总要有一个中心指挥者要么是一个规划器Planner分配任务要么靠投票达成共识。但问题是长周期的科学实验里哪些方向有价值是随着实验结果不断变化的事前没法固定。AutoScientists 换了个思路不要指挥官。9 个 Agent 一起读一份共享状态Shared State自己决定追哪个方向自己组织团队自己讨论方案好不好实验跑完了再一起复盘。没有谁给谁派活没有谁拍板定方向。具体来说系统在两个阶段之间交替运行。讨论阶段所有 Agent 分析任务提出研究方向的候选互相点评然后自己组织成若干个团队每个团队负责一个方向。执行阶段各团队并行跑实验把结果写回共享状态。当某个方向停滞不前时Agent 重新开启讨论可能拆分团队、合并方向、甚至开辟全新路线。这套共享状态有四层结构。冠军程序Champion记录当前最优模型及复现指令实验日志Experiment Log记录每次实验的结果、指标变化和训练细节共享论坛Forum是结构化的帖子区Agent 在这里辩论方案、公布结果、分享机制分析每个团队还有自己的实验队列和死胡同登记表Dead-end Registry记录哪些方向已经试过且失败了其他团队也能读到。Agent 从共享状态中识别有前景的研究方向自组织成团队并行执行实验在停滞期重新讨论和调整。每个 Agent 都跑在一种心跳循环Heartbeat Cycle上读共享状态按自己的角色行动把结果写回去循环往复。团队里有两类角色。分析师Analyst负责维护搜索知识审查实验日志中哪些方向还没被试过往团队队列里提方案方案按观察到的效应大小排序未被充分探索的方向优先效应持续偏小的方向被降权。实验员Experiment从队列里领任务把代码改动应用到当前冠军程序上跑训练记录结果。评估指标可能有随机波动所以在噪声带内的改进会用第二个随机种子确认后再升级为新的冠军。三大赛道全面领先AutoScientists 在三个差异很大的科学赛道上做了评估全部超越此前最强的 AI Agent。生物医学机器学习用的是 BioML-Bench包含 24 个端到端的任务涵盖生物医学影像、药物发现、蛋白质工程、单细胞组学四个领域。每个任务提供自然语言描述和训练数据提交结果由外部评估器在隐藏测试集上打分。AutoScientists 在 24 个任务上拿到 74.4% 的平均排行榜百分位比 Autoresearch 的 66.07% 高出 8.33 个百分点。药物发现是提升最大的领域从 Biomni 的 47.91% 跳到 AutoScientists 的 64.52%。蛋白质工程领域AutoScientists 和 Autoresearch 都拿到了 96.97%但 AutoScientists 的平均排名更好。GPT 训练优化的场景考验的是 AutoScientists 能不能跳出生物医学的舒适区。任务用的是 GPT nanochat 训练优化每次实验是 5 分钟的 GPT 训练跑跑完看验证集的 bits-per-byte越低越好。从 Autoresearch 基线出发AutoScientists 用 34 次实验就达到了 Autoresearch 需要 65 次才能达到的损失值快了 1.9 倍。原因是 Agent 在这次运行中组了三个团队分别盯着架构、学习率调度和优化器多方向同时推进而单 Agent 每次只能改一个维度。更戏剧性的是从冠军出发的实验。两个系统都从 AutoScientists 已跑出的冠军开始拿到同样的失败方向清单。AutoScientists 在 93 次实验中接受了 7 项改进最终把 bits-per-byte 降到了 0.9730。Autoresearch 在 100 次实验中接受了 0 项改进最好成绩只到 0.9783。这 7 项改进来自截然不同的方向查询键归一化顺序、矩阵初始化、值嵌入门宽度、最终学习率比例、softcap 值、编译自动调优、噪声基线校准。其中第一个改进查询键归一化顺序Autoresearch 在 100 次尝试中从未提出过。差距不在于算力在于假设的多样性。蛋白质功能预测的任务更贴近真实科研。从一个已经很强的现有方法出发能不能再往前推一步。AutoScientists 从当前最好的监督基线 Kermut 出发在单个开发测定ACE2-Spike 结合上做修改没有碰完整基准测试。找到的方案是一个三高斯过程集成结合了 Kermut 的结构核、扩展的零样本特征、基于多样性的贪心特征选择以及分位数变换目标。在开发测定上Spearman 相关系数从 0.747 提升到 0.840相对提升 12.5%。更关键的是这个配方冻结后不做任何修改直接用在 ProteinGym 全部 217 个测定上平均 Spearman 相关系数从 0.657 提升到 0.700相对提升 6.5%。三种交叉验证方案上都有改善。从单一任务上的调优到通用的性能提升这个迁移能力让人眼前一亮。每个零件都不可少AutoScientists 有四个核心机制分析师驱动的方案生成、跨 Agent 反馈、团队自组织、共享实验记录。去掉任何一个性能都会掉但掉得最厉害的地方各不相同。去掉分析师TDC-hERG 任务的 AUROC 从 0.867 掉到 0.738排行榜百分位从 85.7% 掉到 14.3%。去掉跨 Agent 反馈人体血浆蛋白结合任务的 Pearson 相关系数从 0.873 掉到 0.714每个 Agent 只能看到部分信号没法互相补盲。去掉自组织GPT 训练优化的 bits-per-byte 从 0.9777 恶化到 0.9833因为有效搜索方向在运行过程中发生了转移固定团队跟不上变化。把共享状态也去掉让每个 Agent 独立运行细胞间通信任务的 Odds Ratio 从 0.924 掉到 0.435比例降幅最大独立 Agent 重复踩坑又各走各路。分析师解决方案质量问题跨 Agent 反馈解决信息不完整问题自组织解决搜索方向偏移问题共享记录解决重复劳动问题。它们之间是互补关系。Figure 5 展示了长周期实验搜索中涌现的协作行为。包括 Agent 多样化方案、识别饱和方向、跨团队转移假说、在停滞后退出死胡同等典型互动附有 Agent 的真实讨论引述。AutoScientists 也有局限。它用的 LLM Token 比 Autoresearch 多因为多个 Agent 同时推理、讨论和重组团队都要消耗算力。它的设计目标不是更省调用次数而是在固定的实验算力预算下把搜索做得更好。在 BioML-Bench 评估中每个任务只分配了一块 H100 GPUGPU 密集型实验只能顺序执行AutoScientists 并行实验的能力没有被充分发挥。此外Agent 数量是运行前固定好的未来可能会根据任务难度动态调整团队规模。AutoScientists 让一群 AI Agent 也能像科研团队一样自发协作、各自探索、互相纠偏、随时调整方向。三大赛道的实验数据证明这种去中心化的自组织方式确实比单打独斗和中央指挥都更持久、更高效。参考资料https://autoscientists.openscientist.ai/https://github.com/mims-harvard/AutoScientistshttps://arxiv.org/pdf/2605.28655v1