哈佛让 AI 自己组织科研团队，相互协作，碾压传统 AI Agent

发布时间：2026/6/3 23:03:04

科学实验从来不是一条直线更像一片分岔的密林。你得同时试探好几条路中途可能还得换方向。哈佛大学的一个团队造出了 AutoScientists让一群 AI Agent 自己组队、自己讨论、自己做实验跑出了一条跟以往 AI 科学家不一样的路子。在 BioML Bench 上涵盖生物医学成像、蛋白质工程、单细胞组学和药物发现AutoScientists 的平均排行榜百分位数为 74.4% 在 24 项任务中比此前最强的 AI Agent 提高了8.33%。在 GPT 训练优化中AutoScientists 达到每字节目标验证位的速度比 Autoresearch 快1.9倍。在 ProteinGym 适应度预测方面AutoScientists 发现的方法比当前最先进的模型提高了 12.5%。没有指挥官的团队做科研最难的不是做实验是判断往哪个方向做实验。现有 AI Agent 做科研大体分两派。一派是单打独斗型比如 AIDE 和 Autoresearch它们沿一条搜索路径不断迭代把一个方向打磨到极致代价是没法同时追多个假说。另一派是多 Agent 型几个 Agent 分工合作但总要有一个中心指挥者要么是一个规划器Planner分配任务要么靠投票达成共识。但问题是长周期的科学实验里哪些方向有价值是随着实验结果不断变化的事前没法固定。AutoScientists 换了个思路不要指挥官。9 个 Agent 一起读一份共享状态Shared State自己决定追哪个方向自己组织团队自己讨论方案好不好实验跑完了再一起复盘。没有谁给谁派活没有谁拍板定方向。具体来说系统在两个阶段之间交替运行。讨论阶段所有 Agent 分析任务提出研究方向的候选互相点评然后自己组织成若干个团队每个团队负责一个方向。执行阶段各团队并行跑实验把结果写回共享状态。当某个方向停滞不前时Agent 重新开启讨论可能拆分团队、合并方向、甚至开辟全新路线。这套共享状态有四层结构。冠军程序Champion记录当前最优模型及复现指令实验日志Experiment Log记录每次实验的结果、指标变化和训练细节共享论坛Forum是结构化的帖子区Agent 在这里辩论方案、公布结果、分享机制分析每个团队还有自己的实验队列和死胡同登记表Dead-end Registry记录哪些方向已经试过且失败了其他团队也能读到。Agent 从共享状态中识别有前景的研究方向自组织成团队并行执行实验在停滞期重新讨论和调整。每个 Agent 都跑在一种心跳循环Heartbeat Cycle上读共享状态按自己的角色行动把结果写回去循环往复。团队里有两类角色。分析师Analyst负责维护搜索知识审查实验日志中哪些方向还没被试过往团队队列里提方案方案按观察到的效应大小排序未被充分探索的方向优先效应持续偏小的方向被降权。实验员Experiment从队列里领任务把代码改动应用到当前冠军程序上跑训练记录结果。评估指标可能有随机波动所以在噪声带内的改进会用第二个随机种子确认后再升级为新的冠军。三大赛道全面领先AutoScientists 在三个差异很大的科学赛道上做了评估全部超越此前最强的 AI Agent。生物医学机器学习用的是 BioML-Bench包含 24 个端到端的任务涵盖生物医学影像、药物发现、蛋白质工程、单细胞组学四个领域。每个任务提供自然语言描述和训练数据提交结果由外部评估器在隐藏测试集上打分。AutoScientists 在 24 个任务上拿到 74.4% 的平均排行榜百分位比 Autoresearch 的 66.07% 高出 8.33 个百分点。药物发现是提升最大的领域从 Biomni 的 47.91% 跳到 AutoScientists 的 64.52%。蛋白质工程领域AutoScientists 和 Autoresearch 都拿到了 96.97%但 AutoScientists 的平均排名更好。GPT 训练优化的场景考验的是 AutoScientists 能不能跳出生物医学的舒适区。任务用的是 GPT nanochat 训练优化每次实验是 5 分钟的 GPT 训练跑跑完看验证集的 bits-per-byte越低越好。从 Autoresearch 基线出发AutoScientists 用 34 次实验就达到了 Autoresearch 需要 65 次才能达到的损失值快了 1.9 倍。原因是 Agent 在这次运行中组了三个团队分别盯着架构、学习率调度和优化器多方向同时推进而单 Agent 每次只能改一个维度。更戏剧性的是从冠军出发的实验。两个系统都从 AutoScientists 已跑出的冠军开始拿到同样的失败方向清单。AutoScientists 在 93 次实验中接受了 7 项改进最终把 bits-per-byte 降到了 0.9730。Autoresearch 在 100 次实验中接受了 0 项改进最好成绩只到 0.9783。这 7 项改进来自截然不同的方向查询键归一化顺序、矩阵初始化、值嵌入门宽度、最终学习率比例、softcap 值、编译自动调优、噪声基线校准。其中第一个改进查询键归一化顺序Autoresearch 在 100 次尝试中从未提出过。差距不在于算力在于假设的多样性。蛋白质功能预测的任务更贴近真实科研。从一个已经很强的现有方法出发能不能再往前推一步。AutoScientists 从当前最好的监督基线 Kermut 出发在单个开发测定ACE2-Spike 结合上做修改没有碰完整基准测试。找到的方案是一个三高斯过程集成结合了 Kermut 的结构核、扩展的零样本特征、基于多样性的贪心特征选择以及分位数变换目标。在开发测定上Spearman 相关系数从 0.747 提升到 0.840相对提升 12.5%。更关键的是这个配方冻结后不做任何修改直接用在 ProteinGym 全部 217 个测定上平均 Spearman 相关系数从 0.657 提升到 0.700相对提升 6.5%。三种交叉验证方案上都有改善。从单一任务上的调优到通用的性能提升这个迁移能力让人眼前一亮。每个零件都不可少AutoScientists 有四个核心机制分析师驱动的方案生成、跨 Agent 反馈、团队自组织、共享实验记录。去掉任何一个性能都会掉但掉得最厉害的地方各不相同。去掉分析师TDC-hERG 任务的 AUROC 从 0.867 掉到 0.738排行榜百分位从 85.7% 掉到 14.3%。去掉跨 Agent 反馈人体血浆蛋白结合任务的 Pearson 相关系数从 0.873 掉到 0.714每个 Agent 只能看到部分信号没法互相补盲。去掉自组织GPT 训练优化的 bits-per-byte 从 0.9777 恶化到 0.9833因为有效搜索方向在运行过程中发生了转移固定团队跟不上变化。把共享状态也去掉让每个 Agent 独立运行细胞间通信任务的 Odds Ratio 从 0.924 掉到 0.435比例降幅最大独立 Agent 重复踩坑又各走各路。分析师解决方案质量问题跨 Agent 反馈解决信息不完整问题自组织解决搜索方向偏移问题共享记录解决重复劳动问题。它们之间是互补关系。Figure 5 展示了长周期实验搜索中涌现的协作行为。包括 Agent 多样化方案、识别饱和方向、跨团队转移假说、在停滞后退出死胡同等典型互动附有 Agent 的真实讨论引述。AutoScientists 也有局限。它用的 LLM Token 比 Autoresearch 多因为多个 Agent 同时推理、讨论和重组团队都要消耗算力。它的设计目标不是更省调用次数而是在固定的实验算力预算下把搜索做得更好。在 BioML-Bench 评估中每个任务只分配了一块 H100 GPUGPU 密集型实验只能顺序执行AutoScientists 并行实验的能力没有被充分发挥。此外Agent 数量是运行前固定好的未来可能会根据任务难度动态调整团队规模。AutoScientists 让一群 AI Agent 也能像科研团队一样自发协作、各自探索、互相纠偏、随时调整方向。三大赛道的实验数据证明这种去中心化的自组织方式确实比单打独斗和中央指挥都更持久、更高效。参考资料https://autoscientists.openscientist.ai/https://github.com/mims-harvard/AutoScientistshttps://arxiv.org/pdf/2605.28655v1

应急响应——内网渗透基础横向移动应急排查

本博客所有网络安全相关教程、漏洞原理、渗透实操、攻防技术等内容，仅用于合法安全学习、白帽技术交流、企业授权安全测试。所有技术严禁用于未授权探测、非法入侵、数据窃取、网络攻击等任何违反《中华人民共和国网络安全法》的违法行为。任何个人利用本文内容实…

2026/6/3 23:02:22 阅读更多

OBS多路推流插件完整指南：三分钟实现多平台同步直播

OBS多路推流插件完整指南：三分钟实现多平台同步直播【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp OBS多路推流插件（obs-multi-rtmp）是一款专为OBS …

2026/6/3 23:01:39 阅读更多

告别CSPDarknet！YOLOv6的EfficientRep主干网络，为什么用RepVGG思路更香？

YOLOv6架构革命：为什么EfficientRep比CSPDarknet更适合现代目标检测？当美团技术团队在2022年推出YOLOv6时，最引人注目的改变莫过于彻底放弃了YOLO系列沿用多年的CSPDarknet主干网络，转而采用基于RepVGG思想的EfficientRep结构。这…

2026/6/3 23:00:38 阅读更多

别再手动传证书了！用Kubernetes的certificates.k8s.io API自动管理TLS证书（附Java应用接入实战）

Kubernetes原生TLS证书自动化管理：从API到Java应用的无缝集成在云原生架构中，TLS证书管理一直是DevOps团队面临的痛点之一。传统的手动签发、分发和更新证书的方式不仅效率低下，还容易因人为疏忽导致服务中断。Kubernetes提供的 certificat…

2026/6/4 2:46:01 阅读更多

向上沟通的致命误区：基层谈战略，高层抠细节

在职场中，你是否发现过这样一种现象： 大领导（高职级）讲话，往往云山雾罩，喜欢谈趋势、谈战略、谈”我们要去哪里” 中层或基层（低职级）汇报，往往事无巨细，喜…

2026/6/4 2:46:01 阅读更多

面试官连环追问：异步FIFO深度计算背后的‘背靠背’场景到底怎么破？

异步FIFO深度计算实战：破解‘背靠背’场景的面试难题在FPGA和IC设计领域，异步FIFO的深度计算一直是技术面试中的高频考点。当面试官抛出"背靠背"这个关键词时，很多候选人会突然语塞——不是因为概念陌生，而是对这种特殊…

2026/6/4 2:44:21 阅读更多

从C/C++代码到LLVM IR：手把手教你理解编译器生成的指令（附实战案例）

从C/C代码到LLVM IR：解密编译器背后的指令生成逻辑在软件开发的世界里，编译器扮演着将高级语言转换为机器可执行代码的关键角色。而LLVM作为现代编译器基础设施的核心，其中间表示(IR)是理解编译器工作原理的重要窗口。本文将带您深入探索从C/…

2026/6/4 2:43:00 阅读更多

SWAT模型实战复盘：石羊河流域建模踩坑全记录与高效数据源替代方案

SWAT模型实战复盘：石羊河流域建模踩坑全记录与高效数据源替代方案当水文模型遇上复杂地形，数据准备阶段的每个决策都可能成为后期运行的"定时炸弹"。三年前我在祁连山北麓的项目中首次接触SWAT模型时，曾天真地认为只要按教程流程操…

2026/6/4 2:41:19 阅读更多

避坑指南：为全志A13平板编译主线Linux内核与Lima GPU驱动的那些事儿

全志A13平板主线Linux内核移植实战：从设备树配置到Lima驱动的完整避坑手册在开源硬件与嵌入式Linux领域，全志A13这类低成本ARM SoC设备始终保持着独特的吸引力。尽管市面上主流开发板如树莓派提供了更完善的支持，但对技术极客而言&#xff0c…

2026/6/4 2:40:59 阅读更多

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

IAR Embedded Workbench 许可证管理全指南与合规开发方案在嵌入式开发领域，IAR Embedded Workbench 以其高效的编译器和强大的调试功能著称，成为众多工程师的首选工具。然而，随着团队规模扩大和项目复杂度提升，许可证管理问题逐渐…

2026/6/4 0:03:11 阅读更多

赤铁矿磨矿过程运行优化控制软件系统【附程序】

✨ 长期致力于赤铁矿磨矿过程、磨矿粒度、数据驱动、运行优化控制、神经网络、案例推理、规则推理、软件系统研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&…

2026/6/4 0:03:32 阅读更多

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

终极指南：如何使用Attu轻松管理你的Milvus向量数据库【免费下载链接】attu The Best GUI for Milvus 项目地址: https://gitcode.com/gh_mirrors/at/attu Attu是一款专为Milvus向量数据库设计的现代化AI工作台管理工具，提供全面的可视化界面&…

2026/6/4 0:04:12 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/3 4:17:19 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/3 4:17:20 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/3 4:17:20 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/3 5:40:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/3 4:17:20 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/3 4:17:19 阅读更多

相关文章

应急响应——内网渗透基础横向移动应急排查

OBS多路推流插件完整指南：三分钟实现多平台同步直播

告别CSPDarknet！YOLOv6的EfficientRep主干网络，为什么用RepVGG思路更香？

别再手动传证书了！用Kubernetes的certificates.k8s.io API自动管理TLS证书（附Java应用接入实战）

向上沟通的致命误区：基层谈战略，高层抠细节

面试官连环追问：异步FIFO深度计算背后的‘背靠背’场景到底怎么破？

从C/C++代码到LLVM IR：手把手教你理解编译器生成的指令（附实战案例）

SWAT模型实战复盘：石羊河流域建模踩坑全记录与高效数据源替代方案

避坑指南：为全志A13平板编译主线Linux内核与Lima GPU驱动的那些事儿

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

赤铁矿磨矿过程运行优化控制软件系统【附程序】

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因