研究论文● 期刊Nature Microbiology(IF:19.4)● DOIhttps://doi.org/10.1038/s41564-026-02314-6● 原文链接https://www.nature.com/articles/s41564-026-02314-6● 第一作者Vishnu Prasoodanan PK、Oleksandr M. Maistrenko● 通讯作者Thomas S. B. Schmidt(sebastian.schmidtucc.ie)● 发表日期2026-04-03● 主要单位APC 微生物组与医学院、荷兰皇家海洋研究所、欧洲分子生物学实验室、庆应义塾大学、海德堡大学医学院、昆士兰大学技术生物医学科学学院、马克斯·德尔布吕克分子医学中心、维尔茨堡大学摘 要当前对微生物生命普查工作受到诸多因素的制约包括地球各生境间的采样不均衡、未培养微生物分离困难、分类标记基因扩增子的分辨率有限以及宏基因组组装基因组的回收不完整。在此我们在一个包含92,187个公开宏基因组的全面、经过人工整理的跨生境数据集中量化了可被发现的细菌和古菌多样性。通过对130个标记基因的5.02亿条序列进行聚类我们预测了大约705,000个细菌和27,000个古菌的物种水平演化支其中绝大多数隐藏在未分箱的重叠群中。我们估计在该数据集中还可发现以前未被描述过的10个古菌门和145 个细菌门。我们确认土壤和水生环境是发现新谱系的热点区域但也预测在所有栖息地中依然蕴藏着大量未被描述的分类群。最后我们表明原核生物的多样性似乎是在共同的进化模式中产生的因为在整个生命之树中演化支规模的分布始终遵循着幂律。正 文地球上的微生物生命具有深厚的进化根源在现存的生态系统中普遍且丰富原核生物即细菌和古菌诞生于40多亿年前已遍布地球的每个环境据估计约占1030的细胞数量和1016-1018的生物质。这种跨越广泛生态范围的长久进化历史反映在巨大的累积系统发育多样性中远远超过多细胞生命的多样性。然而现存细菌和古菌的真实多样性仍然不清楚从单个样本的丰度分布推断全球的细菌和古菌物种数量预测在106和1012之间。目前仅有部分这种多样性被现有数据所涵盖。使用 16S 核糖体 RNArRNA扩增子序列先前研究估计在公共数据集中物种水平的操作分类单元OTU数量为2004 年 35,500 个2014 年 210,000 个2016 年 109,000 个以及 2019 年 740,000 个。基于稀疏曲线追踪随着调查中添加更多数据样本新发现类型物种的数量这些分析得出结论至少在某些栖息地中物种发现的速度正在放缓。尽管在公共数据库中 16S rRNA 数据仍然更为丰富但原核生物多样性的综合调查正越来越多地依赖于分离株基因组和宏基因组组装基因组以克服基于扩增子数据集的一些局限性补充讨论。在宏基因组数据中演化支水平的多样性通常是基于一部分近乎通用的分类标记基因或整个基因组的序列相似性来定义的。例如proGenomes3 包含了来自美国国家生物技术信息中心NCBI的 RefSeq 和 GenBank 数据库中 41,171 个高质量分离株基因组的物种水平聚类而基因组物种分类数据库GTDBr226 则结合了分离株基因组和高质量 MAGs划分出了 143,614 个物种。此外大规模的 MAG 目录不断补充着这一普查数据例如报告了人类肠道微生物组中的 4,644 个物种水平基因组海洋中的 8,300 个物种土壤中的 21,077 个物种MGnify Genomes 集合中不同栖息地的 100 到 13,000 个物种或者是 IMG/M 数据库所涵盖栖息地中的 18,000 个物种。我们最近开发了 SPIRE它对来自地球上所有已采样栖息地的 99,146 个经过人工注释的宏基因组进行了微生物多样性的综合调查描述了 107,068 个物种水平的聚类其中 92,134 个完全基于 MAGs即缺乏已培养的代表株。这种以基因组为中心的调查极大地扩展了微生物多样性、生态学和进化学的研究范围特别是对于未培养的分类群在 GTDB r226 中189 个门中仅有 64 个门以及 143,614 个物种中仅有 34,500 个包含已培养的代表株。换言之目前公认的 66% 的门和 76% 的物种完全是基于 MAGs来描述的。然而无论是在精确度由于残留的分箱假象还是召回率使用当前的自动化分箱工具大多数分箱仍然是不完整的方面MAG 的恢复仍然受到局限。实际上在常见的工作流程中大多数宏基因组组装的重叠群contigs仍未被分箱在 SPIRE 中只有 2.36 Tbp即总组装量的 10%被分配给了中等或高质量的 MAGs。这些未分箱的重叠群划定了一个可发现的微生物多样性空间也就是说当前工作流程尚未触及的可恢复基因组库。最近的研究估计在 18,000 个宏基因组中这种基因组上未被代表的多样性约为 135,000 个物种而在 249,000 个宏基因组中约为 83,000 个物种。新型工具的出现使得获取这些基因组成为可能最近开发的基于靶向共组装的 Bin Chicken 工作流程仅从 800 个样本组中就恢复了 24,028 个以前未被代表的物种的基因组。在编制本资源库的过程中我们在对地球微生物栖息地进行采样的 92,187 个宏基因组集合中对可发现的细菌和古菌多样性进行了调查。我们追踪了源自参考分离株基因组、MAGs 以及未分箱宏基因组重叠群的 120 个细菌和 53 个古菌标记基因中所代表的多样性以量化在每个集合中被逐步发现的谱系数量。利用按栖息地分层的稀疏化方法我们统计了可用序列数据中仍有待发现的多样性数量并估计了随着新宏基因组数据加入调查后预期会出现的额外多样性。我们跨越标记基因树对谱系进行了追踪以量化在不同栖息地中还有多少更深层次的演化支尚未被发现。我们表明细菌和古菌演化支包括从未分箱基因中推断出的演化支的规模分布遵循幂律这与 Willis 和 Yule 提出的百年假说相符并对生物多样性理论和微生物进化研究产生了深远影响。换句话说我们要探究的是由于被目前的工具包所遗漏有多少以及哪些微生物谱系正隐藏在未分箱重叠群的“眼皮底下”以及随着我们继续对地球的栖息地进行采样我们有望发现多少更多的新谱系结 果仅有20–50%的可发现物种被基因组所捕获我们在 SPIRE 的 92,187 个宏基因组样本中利用组装的分类标记基因的物种水平聚类沿着稀疏曲线rarefaction curves追踪了细菌和古菌多样性的逐步发现过程图 1a。我们估计在所研究的数据集中可发现的总多样性约为 705,000 个细菌物种和 27,000 个古菌物种补充表 1 和图 1b稀疏轨迹扩展数据图 1和整体物种数量估计扩展数据图 2在不同独立查询的标记基因中表现出惊人的一致性 。在 proGenomes3 中仅有约 20,000 个细菌物种和 800 个古菌物种包含已培养的代表株 另有约 25,000 个和 1,700 个物种分别占总代表性的 6.4% 和 8.8%比对到了 GTDB r220 上 SPIRE MAGs 进一步贡献了约 80,500 个和 4,200 个物种因此在基于基因组的数据集中细菌和古菌物种水平多样性的总代表性分别为 17.8% 和 24.6% 。换言之高达约 75–80% 的物种水平聚类并未被已培养生物的基因组或 MAGs宏基因组组装基因组所捕获 。图1 |未分箱的重叠群(contigs)中存在大量可发现多样性a在大约 90,000 个宏基因组中古菌上图和细菌下图物种发现的稀疏曲线。基于标记基因聚类cluster的组成我们将每个推断物种的数据来源区分为五个分层重叠的类别以维恩图表示(1) 包含在 proGenomes3 中具有代表性的分离株基因组的物种深蓝色数据系列(2) 在 GTDB r220 分离株基因组和 MAGs 中有代表性超出 proGenomes3 之外的额外物种浅蓝色(3) 从 SPIRE MAGs 中定义的物种橙色以及完全基于未分箱重叠群即未分配给中等或高质量 MAGs的物种水平标记基因聚类在 (5) 所有标记基因聚类浅黄色中进一步区分出 (4) 非单例聚类包含来自独立来源的 ≥2 条序列深黄色。参考水平以虚线表示即 proGenomes3、GTDB r220 和 SPIRE MAGs 中的物种总数包括那些在宏基因组中无法被发现的物种。b每个栖息地的等效物种标记基因聚类总数补充图 1 和 2 提供了相应的按栖息地分层的稀疏曲线。c物种发现系数 (α)根据按栖息地分层的稀疏曲线计算得出见“方法”部分。α 值在 [0, 1] 之间对应于未饱和的物种发现曲线即增加额外的样本会继续为普查增加新物种类似于开放的泛基因组。较低的 α 值表明稀疏曲线变平缓的趋势更明显意味着物种发现速度的减缓更显著。较高的 α 值表明物种发现速率的下降不那么明显。当 α → 1 时物种发现是完全未饱和的这意味着每个新添加的样本都会为调查增加新物种物种发现曲线没有明显的变平缓迹象。缩写说明assoc., 相关的 (associated)env., 环境 (environment)hydrotherm., 热液的 (hydrothermal)industrial., 工业化的 (industrialized)k, 千 (thousand)oth., 其他 (other)。这些未分箱物种在未培养的门在 GTDB 中仅基于 MAG 识别没有已培养的分离株Cohens d 0.33Wilcoxon P 0.01扩展数据图 3a中占有较高的比例。并且与拥有已培养代表株的物种相比它们在多元线性回归分析中与较高的基因组 GC 含量相关R² 0.15P1.6×10-16但与平均基因组大小P 0.338、编码密度P 0.418或估计的演化支规模P 0.889无关扩展数据图 3b。物种水平的聚类大小遵循长尾分布这是由很大一部分单例聚类仅包含一条序列扩展数据图 4驱动的。尽管这与所谓具有低流行度和低丰度的谱系“稀有生物圈”的预期相符但一部分单例聚类也可能源于组装假象或虚假序列。当保守地仅考虑非单例标记基因聚类包含 ≥2 条来自独立来源的序列时多样性估计值相应地减少至总计约 249,000 个细菌物种和约 12,800 个古菌物种图 1a, b 和补充表 1这可以被视为一个下界补充讨论但相对于由基因组所代表的可发现物种集仍然相当于增加了 98%。事实上尽管大约四分之三的未分箱标记基因聚类是单例的但它们占未分箱基因的比例不到20%其余的基因则比对到了参考基因组、MAG 或更大的未分箱基因聚类上扩展数据图 4。综上所述这表明绝大多数未分箱基因代表了真实的生物学信号并且可能属于低质量不完整或受污染的MAG富集于未培养的演化支中。同时在 proGenomes3 和 GTDB r220 中由分离株基因组定义的大约一半物种的标记基因并没有出现在宏基因组组装体中图 1a 中的虚线表示了参考数据集的总规模并且大约 40% 是单例的扩展数据图 4。这表明具有已培养代表株的物种以及那些被专门选定进行分离的物种其本身往往也是稀有的在环境数据中以低流行度和/或低丰度的形式出现。因此发现的差距是双向的分离株基因组和 MAG 仅捕获了宏基因组重叠群中 20–50% 的可发现物种但宏基因组组装体同样也未能捕获分离株所代表的大约一半的多样性。在地球的各个栖息地中物种发现仍如火如荼地进行可发现物种的数量在不同栖息地之间差异巨大图 1b且与采样工作量呈中等相关性细菌的斯皮尔曼相关系数 ρ 0.51古菌为 0.09。在宿主相关和人为干扰的栖息地包括一些几乎检测不到古菌的环境中估计的古菌物种数量通常比细菌低两到三个数量级在水生栖息地和土壤中差距大约在 1 个对数级以内而在极端环境中两者几乎持平。可发现物种在基因组层面的代表性同样因栖息地而异但通常与总数的差距在一个数量级以内。接下来我们通过基于各个按栖息地分层的稀疏曲线计算物种发现系数称为α测试了物种发现是否有任何放缓的迹象图 1c 和“方法”部分。我们观察到在大多数宿主相关和人为干扰的栖息地中基于基因组的古菌物种发现已完全饱和α≤ 0或接近饱和较低的正值α。具体而言对于人类婴儿肠道、口腔或皮肤样本等栖息地使用现有方法可通过宏基因组发现且在 proGenomes3 和 GTDB r220 中有代表性的所有古菌物种均已被记录在案在调查中添加更多样本预计不会增加其在宏基因组中的代表性。类似地人为环境建筑环境和废水、湿地和极端环境温泉和热液喷口在古菌参考物种的宏基因组发现方面似乎也已饱和甚至基于 MAG 的发现也显示出明显的放缓迹象。相比之下未分箱重叠群中的古菌物种发现系数要高得多这表明分箱与未分箱重叠群之间现存的巨大发现鸿沟将继续扩大。细菌的物种发现系数通常较高这表明采用现有方法细菌多样性将继续以高于古菌的速率被发现。人类口腔、泌尿生殖道和成人肠道以及猪和牛的肠道环境是仅有的几个宏基因组对分离株代表的多样性发现接近饱和的受测栖息地。然而即使在这些栖息地中与在所有其他栖息地中一样基于 MAG 的物种发现预计仍将以较高速率继续且仅被未分箱重叠群中的物种发现速率超越在大多数栖息地中α≥ 0.5。土壤、湿地、根际、淡水栖息地以及非哺乳类和非鸟类动物的胃肠道作为未开发多样性的特定热点区域脱颖而出其物种发现几乎没有放缓的迹象α ≥ 0.8。总体而言参考基因组集、MAG 和未分箱重叠群之间物种发现系数的显著差异表明已发现以基因组为代表与可发现未分箱多样性之间的差距正在扩大因为后者的发现速度将继续超过前者。除了单个栖息地内的物种发现之外我们还探究了每个栖息地对总体调查的贡献程度。我们追踪了按栖息地分层的物种累积曲线量化了每个依次添加的栖息地所贡献的增量多样性。这揭示了采样工作量与观察到的独特多样性之间惊人的差异扩展数据图 5。尽管与人类相关、胃肠道和建筑环境的宏基因组占了近四分之三的采样工作量但它们仅分别占可发现细菌和古菌物种的 38% 和 8%。相比之下土壤和水生栖息地——特别是湿地——仍然是未探索微生物多样性的主要储库补充讨论。未被捕获的深分枝谱系可能会丰富生命之树接下来我们探讨了这些趋势如何体现在更深层次的分类水平上 。我们推断了所考虑的 53 个古菌和 122 个细菌标记的基因系统发育树通过在特定层级的相对进化散度RED截断值处对每棵树进行切割估计了其所代表的属、科、目、纲和门水平演化支clades的数量并汇总了由此产生的演化支计数见“方法”部分。正如图 2 中古菌标记 RNA 聚合酶亚基 E (rpoE) 所示未分箱序列为大多数公认的演化支增加了可观的末端水平即大致为物种水平的多样性并且通常还提供了相关的生态学背景 。例如对于包含几个已知氨氧化谱系的亚硝化侏儒菌科Nitrosopumilaceae属于热变形菌门 Thermoproteota我们观察到海洋属如Nitrosopelagicus或Nitrosopumilus中所涵盖的多样性出现了大幅扩张同时将其他子演化支与湿地、地下水、土壤和植物相关的栖息地联系了起来这在多个系统发育树中均得到了支持 。图2 |未分箱重叠群在已知和深层演化支中丰富了生命之树古菌 RNA 聚合酶 E 基因rpoETIGR00448的系统发育树示例它是从预聚类的参考序列和宏基因组序列推断而来的。树枝末端tips的序列聚类根据其来源proGenomes3、GTDB r220 或 SPIRE以及从完整宏基因组集合中恢复它们的栖息地类别进行了注释 。标有圆点的节点表示门红色和科蓝色水平的演化支组这是基于预先校准的 RED 截断值推断出来的见“方法”部分。门级组是根据其所包含的来自 proGenomes3、GTDB r220 或 SPIRE MAGs 的序列进行分类划分的。亚硝化侏儒菌科Nitrosopumilaceae被作为一个演化支示例标出表明未分箱重叠群极大地丰富了已知分类群 。深层未分类的门级演化支在不同位置被高亮显示 。其他古菌标记基因的系统发育可视化可以在欧洲生物信息学研究所European Bioinformatics Institute的 BioStudies 数据库中获取登录号为 S-BSST2111 。Asgardarch. 代表仙宫古菌门。标记基因的系统发育树将先前公认的深分枝演化支clades恢复为大致同质的群体并重现了关于它们分枝顺序的常见假设 。我们对参考的门水平演化支包含来自 proGenomes3 或 GTDB 的序列数量的估计超过了基于全物种树在 GTDB r220 中确认的门数量古菌估计值36 ± 12GTDB r22019和细菌238 ± 82GTDB175均是如此 。这部分是因为我们的 RED相对进化散度划分算法倾向于将大型演化支例如 TACK 超门包括奇古菌门 Thaumarchaeota/Nitrososphaerota、初古菌门Aigarchaeota、泉古菌门 Crenarchaeota 和寇古菌门 Korarchaeota在 GTDB 中表示为单一的热变形菌门 Thermoproteota或预测具有偏斜进化速率的群体例如 DPANN 古菌以 Diapherotrites、Parvarchaeota、Aenigmarchaeota、Nanoarchaeota 和 Nanohaloarchaeota 等门命名拆分为多个门 。所有探究的系统发育树都包含数量不等的深层门水平分枝这些分枝仅包含未分箱重叠群unbinned contigs或 SPIRE MAGs 中的序列。例如图 2 中的古菌 rpoE 树包含一个未分类的门水平分枝该分枝包括来自不同栖息地的 758 条序列被组织成 109 个末端基因聚类和 5 个预测的科水平演化支 。总体而言我们估计古菌中有 10 个假定的门水平演化支的中位数4 ± 3 来自 SPIRE MAGs6 ± 8 来自未分箱重叠群相当于比估计的参考演化支增加了约 28%细菌中有 145 个此类演化支28 ± 29 来自 MAGs117 ± 137 来自未分箱重叠群相当于比参考估计值增加了约 61% 。到了较浅的分类层级我们对参考演化支数量的估计接近 GTDB r220 中的数量物种层级除外见上文而对 SPIRE MAGs 和未分箱重叠群中可发现演化支的估计值则随着分类分辨率的提高而大幅增加图 3a 和表 1) 。图3 | 未分箱重叠群和 MAG 表明存在数以千计的可发现深层演化支a基于 RED 截断值预测的在门、纲、目、科和属水平上的演化支组数量。每个数据点代表对一个标记基因的估计值古菌 n 29细菌 n 53见“方法”部分。颜色指示数据来源蓝色代表至少包含一条参考序列来自 proGenomes3 或 GTDB r220的演化支橙色代表不含参考序列但至少包含一个 SPIRE MAG 的演化支黄色代表仅包含未分箱 SPIRE 重叠群序列的演化支。蓝色虚线表示 GTDB r220 中每个分类水平的参考演化支数量。箱线图表示中位数、第 25 和第 75 百分位数箱体边缘以及 1.5 倍四分位距须线。b可发现的门水平和属水平演化支在各栖息地的分布情况。柱状图表示每种数据来源在所有栖息地中最左侧列或仅考虑单个栖息地数据时可发现的演化支数量。预测演化支的恢复情况在不同栖息地之间存在异质性图 3b。尽管肠道和非肠道人类样本占了测序工作量的大部分但它们在深层门水平和较浅层属水平的分辨率下都仅覆盖了一小部分预测的演化支。大多数预测的高层级演化支在土壤、根际、废水和水生环境中均可观察到。热液喷口作为古菌多样性的特定热点区域脱颖而出虽然它们在我们的数据集中仅占 296 个宏基因组占总数的 0.3%但它们包含了五分之四的参考古菌门级演化支代表以及三分之二的基于 MAG 和未分箱预测的古菌门级演化支代表这代表了在所有受测栖息地中观察到的对深层谱系最广泛的覆盖。原核生物多样性遵循 Willis 定律和 Yule 曲线1922年Willis 观察到几个动植物群体的分类演化支clades规模分布遵循幂律属的频率随着属的规模的指数下降导致形成了以单例演化支仅包含一个物种为主的“空洞曲线”hollow curves并带有巨大演化支物种丰富度极高的属的重尾heavy tail现象。从 Yule 的开创性工作开始——他通过假设新物种倾向于按属的规模比例“优先附着”于现有属来解释这一观察结果——研究人员一直在试图确定导致现存生物多样性的进化机制和过程。我们假设原核生物的多样性也遵循相同的经验定律并认为我们的数据集非常适合用于测试这一点因为我们的演化支层级群组是数据驱动的基于 RED 值推断、与具体分类学无关的从标记基因的系统发育定义而来且非常全面跨越地球各种栖息地采样。我们发现古菌和细菌的多样性确实遵循 Willis 定律演化支的频率随着演化支规模的增加呈幂律关系下降图 4这一规律在所测试的超过五个数量级的演化支计数范围内均成立。Willis 定律在不同的分类尺度上都成立从属内的物种到门内的物种图 4a并且也适用于更高分类层级的子演化支subclades从科内的属到门内的纲图 4b。通过为每个单独的标记基因拟合朴素的幂律方程我们从双对数log-log图的斜率中计算出了特定于标记基因的 Willis 系数 ω见“方法”部分。我们观察到一个明显的趋势即对于物种计数在不同的分类水平上 ω 值不断减小暗示尾部更重也就是对大演化支的偏向更强从属内物种的 ω 值约为 1.4 降至门内物种的 ω 值约为 0.1而对于演化支内子演化支的计数ω 值则更为相似介于 1.4 到 1.7 之间扩展数据图 6a。图4 | 原核生物多样性遵循 Willis 定律和 Yule 曲线a细菌标记基因示例 rsmD16S rRNA 鸟嘌呤甲基转移酶TIGR00095的演化支规模每个演化支的物种数x 轴与演化支计数包含 x 个物种的演化支数量y 轴的双对数log-log图。演化支层级的群组是基于各个分类水平上完整系统发育树的 RED 截断值推断出来的见“方法”部分。灰线表示拟合的 Yule-Simon 曲线。图中标出了估计的 Willis 系数 (ω) 和 Yule-Simon 系数 (ρ)见“方法”部分。 b与 a 类似但显示的是包含下级分类水平即从科内的属到门内的纲中 x 个子演化支x 轴的演化支数量y 轴。 c为各个独立栖息地估计的 Yule-Simon 系数即仅考虑从特定栖息地的宏基因组中组装出的基因。灰线表示线性拟合。x 轴对应每个栖息地的样本数量颜色指示栖息地类别紫色胃肠道浅粉色人体其他部位蓝色水生绿色植物相关深粉色人为环境棕色土壤浅绿色空气。 d在各个公认的门内估计的 Yule-Simon 系数见“方法”部分。虚线表示基于 GBIF、GTDB r226 和微生物图谱项目Microbe Atlas Project16S rRNA OTU 的参考分类学为原核生物域绿色代表细菌紫色代表古菌、真核生物界深绿色代表植物界 Plantae橙色代表真菌界 Fungi浅橙色代表色藻界 Chromista粉色代表动物界 Animalia深蓝色代表原生动物界 Protozoa以及病毒浅蓝色估计的 ρ 值见“方法”部分。阴影带表示线性拟合的 95% 置信区间。与 a 类似的相应 Yule 曲线展示在扩展数据图 7 中。缩写说明Altiarch., 产丝古菌门 (Altiarchaeota)GBIF, 全球生物多样性信息网络 (Global Biodiversity Information Facility)Bacill., 芽孢杆菌门 (Bacillota)Methanobact., 甲烷杆菌门 (Methanobacteriota)Thermoprot., 热变形菌门 (Thermoproteota)。尽管朴素的幂律提供了良好的整体拟合但我们观察到演化支规模分布在右侧表现出不成比例的重尾现象大型演化支代表性过高同时向左侧偏离小型演化支的频率较低从而显示出最初被 Yule 用来推导潜在进化过程的特征。因此我们将数据拟合至 Yule-Simon 分布图 4a, b。Yule-Simon 参数 ρ 的估计值在不同的标记基因之间以及细菌和古菌之间表现出一致性扩展数据图 6b对于物种计数ρ 随着分类深度的增加而减小从属的 ρ ~1.0 降至门的 ρ ~0.4而对于子演化支计数则呈现相反的趋势从科内属的 ρ ~0.85 升至门内纲的 ρ ~1.50。ρ 可以被视为一个“富者愈富”rich-get-richer系数它描述了 Yule 过程中的优先附着preferential attachment机制较低的 ρ 值表明新的子演化支对现有大演化支有很强的优先附着性。因此我们的结果表明新物种倾向于在现有的较大演化支中产生这种偏向性在门一级最强在属一级最弱也就是说物种丰富的门如芽孢杆菌门 Bacillota 或假单胞菌门 Pseudomonadota的优势地位比物种丰富的属如原绿球藻属 Prochlorococcus的优势地位更为显著。对于演化支内的子演化支则观察到了相反的情况新属向现有大科附着的偏向性要强于新纲向现有大门附着的偏向性。对于纲内的目和门内的纲我们观察到古菌和细菌之间存在差异这仅能部分归因于采样噪声古菌演化支较少导致拟合噪声较大。这可能表明在系统发育深度方面古菌的目或纲并不完全等同于细菌的目或纲或者古菌和细菌在这些水平上的多样性组织方式有所不同。在不同栖息地和系统发育中多样性模式存在差异我们通过重新拟合各个栖息地图 4c和门图 4d的曲线探讨了环境和系统发育如何塑造演化支clades的规模分布。在采样充分的栖息地中Yule-Simon 系数通常较低细菌的斯皮尔曼相关系数 ρ -0.50古菌为 -0.25并且在更广泛的环境之间存在明显差异图 4c。肠道和人类非肠道栖息地显示出最低的 ρ 值这可能是因为它们的定义较窄并且仅对应于一种或少数几种宿主物种。相比之下在水生环境特别是温泉和地下水和土壤以及非哺乳动物肠道中观察到了较高的系数这表明其多样性较少被少数大型演化支所主导并且在这些环境中新发现的物种更有可能属于尚未被描述的更深层次的演化支而肠道中新发现的物种则通常被预期属于已知大型演化支。对于细菌ρSpearman -0.71和古菌ρSpearman -0.79图 4dYule-Simon 系数与公认门内采样的总物种丰富度密切相关采样充分的门如假单胞菌门 Pseudomonadota 或芽孢杆菌门 Bacillota_A具有较低的 ρ 系数而较小的门则较少被大型演化支所主导。两个显著的例外是甲烷杆菌门Methanobacteriota它偏向于较低的 ρ 值采样的物种较少但高度集中以及 Patescibacteria其估计的大约 19,500 个物种分布在规模更为均匀的演化支中ρ 1.33。然而根据全球生物多样性信息网络GBIF扩展数据图 7的参考分类学推断几乎所有受测的原核生物门都具有比真核生物界甚至病毒更高的 Yule-Simon 系数。此外基于我们数据集在整个域domain-wide水平上的 ρ 估计值大大小于基于 GBIF 细菌和古菌分类学、GTDB r226 参考分类学或微生物图谱项目Microbe Atlas Project16S rRNA OTU 的估计值。这表明尽管真核生物的多样性特别是在植物和真菌中比细菌和古菌更集中于少数大型演化支中但生物多样性的组织在整个生命之树中都遵循着相似且一致的模式。作者简介第一作者Vishnu Prasoodanan研究重点是表征不同生态和临床背景下的微生物组组成。研究饮食模式和疾病状态如何塑造人类肠道微生物组的分类和功能图谱以及相关的宿主基因表达谱。在分析高通量测序数据集方面拥有丰富的专业知识包括宏基因组学、基因组学。通讯作者Oleksandr M. Maistrenko研究重点是宿主-微生物组相互作用、宏泛基因组学meta-pangenomics和进化。 2013年在乌克兰基辅塔拉斯·舍甫琴科国立大学Taras Shevchenko National University of Kyiv普通与分子遗传学系生物研究所完成了生物学理学学士学位。之后获得了富布赖特Fulbright奖学金前往美国北达科他州立大学学习基因组学和生物信息学。2020年在欧洲分子生物学实验室德国海德堡完成了题为《细菌泛基因组分析及其在宏基因组学中的应用》的博士学位。目前在荷兰皇家海洋研究所担任博士后主要致力于古菌与其他生物之间的共生关系研究。翻译申子昂华南农业大学在读硕士审核朱志豪广东医科大学基因组所联合博士后终审刘永鑫中国农科院基因组所研究员/博导排版尹春安徽农业大学本科在读宏基因组推荐4月10-12日微生物组-扩增子16S分析5月8-10日微生物组-宏基因组分析本公众号现全面开放投稿希望文章作者讲出自己的科研故事分享论文的精华与亮点。投稿请联系小编微信号yongxinliu 或 meta-genomicsiMeta高引 fastp PhyloSuite ImageGP2 iNAP2 ggClusterNet2iMeta工具 SangerBox2 美吉2026 OmicStudio Wekemo OmicShareiMeta综述 高脂饮食菌群 发酵中药 口腔菌群 微塑料 癌症 宿主代谢10000扩增子EasyAmplicon 比较基因组JCVI 序列分析SeqKit2 维恩图EVenniMetaOmics高引 猪微生物组 16S扩增子综述 易扩增子(EasyAmplicon)系列教程微生物组入门 Biostar 微生物组 宏基因组专业技能学术图表 高分文章 生信宝典 不可或缺的人点击阅读原文
Nature Microbiology | 未分箱的重叠群拓展全球微生物组的已知多样性
发布时间:2026/5/23 23:35:06
研究论文● 期刊Nature Microbiology(IF:19.4)● DOIhttps://doi.org/10.1038/s41564-026-02314-6● 原文链接https://www.nature.com/articles/s41564-026-02314-6● 第一作者Vishnu Prasoodanan PK、Oleksandr M. Maistrenko● 通讯作者Thomas S. B. Schmidt(sebastian.schmidtucc.ie)● 发表日期2026-04-03● 主要单位APC 微生物组与医学院、荷兰皇家海洋研究所、欧洲分子生物学实验室、庆应义塾大学、海德堡大学医学院、昆士兰大学技术生物医学科学学院、马克斯·德尔布吕克分子医学中心、维尔茨堡大学摘 要当前对微生物生命普查工作受到诸多因素的制约包括地球各生境间的采样不均衡、未培养微生物分离困难、分类标记基因扩增子的分辨率有限以及宏基因组组装基因组的回收不完整。在此我们在一个包含92,187个公开宏基因组的全面、经过人工整理的跨生境数据集中量化了可被发现的细菌和古菌多样性。通过对130个标记基因的5.02亿条序列进行聚类我们预测了大约705,000个细菌和27,000个古菌的物种水平演化支其中绝大多数隐藏在未分箱的重叠群中。我们估计在该数据集中还可发现以前未被描述过的10个古菌门和145 个细菌门。我们确认土壤和水生环境是发现新谱系的热点区域但也预测在所有栖息地中依然蕴藏着大量未被描述的分类群。最后我们表明原核生物的多样性似乎是在共同的进化模式中产生的因为在整个生命之树中演化支规模的分布始终遵循着幂律。正 文地球上的微生物生命具有深厚的进化根源在现存的生态系统中普遍且丰富原核生物即细菌和古菌诞生于40多亿年前已遍布地球的每个环境据估计约占1030的细胞数量和1016-1018的生物质。这种跨越广泛生态范围的长久进化历史反映在巨大的累积系统发育多样性中远远超过多细胞生命的多样性。然而现存细菌和古菌的真实多样性仍然不清楚从单个样本的丰度分布推断全球的细菌和古菌物种数量预测在106和1012之间。目前仅有部分这种多样性被现有数据所涵盖。使用 16S 核糖体 RNArRNA扩增子序列先前研究估计在公共数据集中物种水平的操作分类单元OTU数量为2004 年 35,500 个2014 年 210,000 个2016 年 109,000 个以及 2019 年 740,000 个。基于稀疏曲线追踪随着调查中添加更多数据样本新发现类型物种的数量这些分析得出结论至少在某些栖息地中物种发现的速度正在放缓。尽管在公共数据库中 16S rRNA 数据仍然更为丰富但原核生物多样性的综合调查正越来越多地依赖于分离株基因组和宏基因组组装基因组以克服基于扩增子数据集的一些局限性补充讨论。在宏基因组数据中演化支水平的多样性通常是基于一部分近乎通用的分类标记基因或整个基因组的序列相似性来定义的。例如proGenomes3 包含了来自美国国家生物技术信息中心NCBI的 RefSeq 和 GenBank 数据库中 41,171 个高质量分离株基因组的物种水平聚类而基因组物种分类数据库GTDBr226 则结合了分离株基因组和高质量 MAGs划分出了 143,614 个物种。此外大规模的 MAG 目录不断补充着这一普查数据例如报告了人类肠道微生物组中的 4,644 个物种水平基因组海洋中的 8,300 个物种土壤中的 21,077 个物种MGnify Genomes 集合中不同栖息地的 100 到 13,000 个物种或者是 IMG/M 数据库所涵盖栖息地中的 18,000 个物种。我们最近开发了 SPIRE它对来自地球上所有已采样栖息地的 99,146 个经过人工注释的宏基因组进行了微生物多样性的综合调查描述了 107,068 个物种水平的聚类其中 92,134 个完全基于 MAGs即缺乏已培养的代表株。这种以基因组为中心的调查极大地扩展了微生物多样性、生态学和进化学的研究范围特别是对于未培养的分类群在 GTDB r226 中189 个门中仅有 64 个门以及 143,614 个物种中仅有 34,500 个包含已培养的代表株。换言之目前公认的 66% 的门和 76% 的物种完全是基于 MAGs来描述的。然而无论是在精确度由于残留的分箱假象还是召回率使用当前的自动化分箱工具大多数分箱仍然是不完整的方面MAG 的恢复仍然受到局限。实际上在常见的工作流程中大多数宏基因组组装的重叠群contigs仍未被分箱在 SPIRE 中只有 2.36 Tbp即总组装量的 10%被分配给了中等或高质量的 MAGs。这些未分箱的重叠群划定了一个可发现的微生物多样性空间也就是说当前工作流程尚未触及的可恢复基因组库。最近的研究估计在 18,000 个宏基因组中这种基因组上未被代表的多样性约为 135,000 个物种而在 249,000 个宏基因组中约为 83,000 个物种。新型工具的出现使得获取这些基因组成为可能最近开发的基于靶向共组装的 Bin Chicken 工作流程仅从 800 个样本组中就恢复了 24,028 个以前未被代表的物种的基因组。在编制本资源库的过程中我们在对地球微生物栖息地进行采样的 92,187 个宏基因组集合中对可发现的细菌和古菌多样性进行了调查。我们追踪了源自参考分离株基因组、MAGs 以及未分箱宏基因组重叠群的 120 个细菌和 53 个古菌标记基因中所代表的多样性以量化在每个集合中被逐步发现的谱系数量。利用按栖息地分层的稀疏化方法我们统计了可用序列数据中仍有待发现的多样性数量并估计了随着新宏基因组数据加入调查后预期会出现的额外多样性。我们跨越标记基因树对谱系进行了追踪以量化在不同栖息地中还有多少更深层次的演化支尚未被发现。我们表明细菌和古菌演化支包括从未分箱基因中推断出的演化支的规模分布遵循幂律这与 Willis 和 Yule 提出的百年假说相符并对生物多样性理论和微生物进化研究产生了深远影响。换句话说我们要探究的是由于被目前的工具包所遗漏有多少以及哪些微生物谱系正隐藏在未分箱重叠群的“眼皮底下”以及随着我们继续对地球的栖息地进行采样我们有望发现多少更多的新谱系结 果仅有20–50%的可发现物种被基因组所捕获我们在 SPIRE 的 92,187 个宏基因组样本中利用组装的分类标记基因的物种水平聚类沿着稀疏曲线rarefaction curves追踪了细菌和古菌多样性的逐步发现过程图 1a。我们估计在所研究的数据集中可发现的总多样性约为 705,000 个细菌物种和 27,000 个古菌物种补充表 1 和图 1b稀疏轨迹扩展数据图 1和整体物种数量估计扩展数据图 2在不同独立查询的标记基因中表现出惊人的一致性 。在 proGenomes3 中仅有约 20,000 个细菌物种和 800 个古菌物种包含已培养的代表株 另有约 25,000 个和 1,700 个物种分别占总代表性的 6.4% 和 8.8%比对到了 GTDB r220 上 SPIRE MAGs 进一步贡献了约 80,500 个和 4,200 个物种因此在基于基因组的数据集中细菌和古菌物种水平多样性的总代表性分别为 17.8% 和 24.6% 。换言之高达约 75–80% 的物种水平聚类并未被已培养生物的基因组或 MAGs宏基因组组装基因组所捕获 。图1 |未分箱的重叠群(contigs)中存在大量可发现多样性a在大约 90,000 个宏基因组中古菌上图和细菌下图物种发现的稀疏曲线。基于标记基因聚类cluster的组成我们将每个推断物种的数据来源区分为五个分层重叠的类别以维恩图表示(1) 包含在 proGenomes3 中具有代表性的分离株基因组的物种深蓝色数据系列(2) 在 GTDB r220 分离株基因组和 MAGs 中有代表性超出 proGenomes3 之外的额外物种浅蓝色(3) 从 SPIRE MAGs 中定义的物种橙色以及完全基于未分箱重叠群即未分配给中等或高质量 MAGs的物种水平标记基因聚类在 (5) 所有标记基因聚类浅黄色中进一步区分出 (4) 非单例聚类包含来自独立来源的 ≥2 条序列深黄色。参考水平以虚线表示即 proGenomes3、GTDB r220 和 SPIRE MAGs 中的物种总数包括那些在宏基因组中无法被发现的物种。b每个栖息地的等效物种标记基因聚类总数补充图 1 和 2 提供了相应的按栖息地分层的稀疏曲线。c物种发现系数 (α)根据按栖息地分层的稀疏曲线计算得出见“方法”部分。α 值在 [0, 1] 之间对应于未饱和的物种发现曲线即增加额外的样本会继续为普查增加新物种类似于开放的泛基因组。较低的 α 值表明稀疏曲线变平缓的趋势更明显意味着物种发现速度的减缓更显著。较高的 α 值表明物种发现速率的下降不那么明显。当 α → 1 时物种发现是完全未饱和的这意味着每个新添加的样本都会为调查增加新物种物种发现曲线没有明显的变平缓迹象。缩写说明assoc., 相关的 (associated)env., 环境 (environment)hydrotherm., 热液的 (hydrothermal)industrial., 工业化的 (industrialized)k, 千 (thousand)oth., 其他 (other)。这些未分箱物种在未培养的门在 GTDB 中仅基于 MAG 识别没有已培养的分离株Cohens d 0.33Wilcoxon P 0.01扩展数据图 3a中占有较高的比例。并且与拥有已培养代表株的物种相比它们在多元线性回归分析中与较高的基因组 GC 含量相关R² 0.15P1.6×10-16但与平均基因组大小P 0.338、编码密度P 0.418或估计的演化支规模P 0.889无关扩展数据图 3b。物种水平的聚类大小遵循长尾分布这是由很大一部分单例聚类仅包含一条序列扩展数据图 4驱动的。尽管这与所谓具有低流行度和低丰度的谱系“稀有生物圈”的预期相符但一部分单例聚类也可能源于组装假象或虚假序列。当保守地仅考虑非单例标记基因聚类包含 ≥2 条来自独立来源的序列时多样性估计值相应地减少至总计约 249,000 个细菌物种和约 12,800 个古菌物种图 1a, b 和补充表 1这可以被视为一个下界补充讨论但相对于由基因组所代表的可发现物种集仍然相当于增加了 98%。事实上尽管大约四分之三的未分箱标记基因聚类是单例的但它们占未分箱基因的比例不到20%其余的基因则比对到了参考基因组、MAG 或更大的未分箱基因聚类上扩展数据图 4。综上所述这表明绝大多数未分箱基因代表了真实的生物学信号并且可能属于低质量不完整或受污染的MAG富集于未培养的演化支中。同时在 proGenomes3 和 GTDB r220 中由分离株基因组定义的大约一半物种的标记基因并没有出现在宏基因组组装体中图 1a 中的虚线表示了参考数据集的总规模并且大约 40% 是单例的扩展数据图 4。这表明具有已培养代表株的物种以及那些被专门选定进行分离的物种其本身往往也是稀有的在环境数据中以低流行度和/或低丰度的形式出现。因此发现的差距是双向的分离株基因组和 MAG 仅捕获了宏基因组重叠群中 20–50% 的可发现物种但宏基因组组装体同样也未能捕获分离株所代表的大约一半的多样性。在地球的各个栖息地中物种发现仍如火如荼地进行可发现物种的数量在不同栖息地之间差异巨大图 1b且与采样工作量呈中等相关性细菌的斯皮尔曼相关系数 ρ 0.51古菌为 0.09。在宿主相关和人为干扰的栖息地包括一些几乎检测不到古菌的环境中估计的古菌物种数量通常比细菌低两到三个数量级在水生栖息地和土壤中差距大约在 1 个对数级以内而在极端环境中两者几乎持平。可发现物种在基因组层面的代表性同样因栖息地而异但通常与总数的差距在一个数量级以内。接下来我们通过基于各个按栖息地分层的稀疏曲线计算物种发现系数称为α测试了物种发现是否有任何放缓的迹象图 1c 和“方法”部分。我们观察到在大多数宿主相关和人为干扰的栖息地中基于基因组的古菌物种发现已完全饱和α≤ 0或接近饱和较低的正值α。具体而言对于人类婴儿肠道、口腔或皮肤样本等栖息地使用现有方法可通过宏基因组发现且在 proGenomes3 和 GTDB r220 中有代表性的所有古菌物种均已被记录在案在调查中添加更多样本预计不会增加其在宏基因组中的代表性。类似地人为环境建筑环境和废水、湿地和极端环境温泉和热液喷口在古菌参考物种的宏基因组发现方面似乎也已饱和甚至基于 MAG 的发现也显示出明显的放缓迹象。相比之下未分箱重叠群中的古菌物种发现系数要高得多这表明分箱与未分箱重叠群之间现存的巨大发现鸿沟将继续扩大。细菌的物种发现系数通常较高这表明采用现有方法细菌多样性将继续以高于古菌的速率被发现。人类口腔、泌尿生殖道和成人肠道以及猪和牛的肠道环境是仅有的几个宏基因组对分离株代表的多样性发现接近饱和的受测栖息地。然而即使在这些栖息地中与在所有其他栖息地中一样基于 MAG 的物种发现预计仍将以较高速率继续且仅被未分箱重叠群中的物种发现速率超越在大多数栖息地中α≥ 0.5。土壤、湿地、根际、淡水栖息地以及非哺乳类和非鸟类动物的胃肠道作为未开发多样性的特定热点区域脱颖而出其物种发现几乎没有放缓的迹象α ≥ 0.8。总体而言参考基因组集、MAG 和未分箱重叠群之间物种发现系数的显著差异表明已发现以基因组为代表与可发现未分箱多样性之间的差距正在扩大因为后者的发现速度将继续超过前者。除了单个栖息地内的物种发现之外我们还探究了每个栖息地对总体调查的贡献程度。我们追踪了按栖息地分层的物种累积曲线量化了每个依次添加的栖息地所贡献的增量多样性。这揭示了采样工作量与观察到的独特多样性之间惊人的差异扩展数据图 5。尽管与人类相关、胃肠道和建筑环境的宏基因组占了近四分之三的采样工作量但它们仅分别占可发现细菌和古菌物种的 38% 和 8%。相比之下土壤和水生栖息地——特别是湿地——仍然是未探索微生物多样性的主要储库补充讨论。未被捕获的深分枝谱系可能会丰富生命之树接下来我们探讨了这些趋势如何体现在更深层次的分类水平上 。我们推断了所考虑的 53 个古菌和 122 个细菌标记的基因系统发育树通过在特定层级的相对进化散度RED截断值处对每棵树进行切割估计了其所代表的属、科、目、纲和门水平演化支clades的数量并汇总了由此产生的演化支计数见“方法”部分。正如图 2 中古菌标记 RNA 聚合酶亚基 E (rpoE) 所示未分箱序列为大多数公认的演化支增加了可观的末端水平即大致为物种水平的多样性并且通常还提供了相关的生态学背景 。例如对于包含几个已知氨氧化谱系的亚硝化侏儒菌科Nitrosopumilaceae属于热变形菌门 Thermoproteota我们观察到海洋属如Nitrosopelagicus或Nitrosopumilus中所涵盖的多样性出现了大幅扩张同时将其他子演化支与湿地、地下水、土壤和植物相关的栖息地联系了起来这在多个系统发育树中均得到了支持 。图2 |未分箱重叠群在已知和深层演化支中丰富了生命之树古菌 RNA 聚合酶 E 基因rpoETIGR00448的系统发育树示例它是从预聚类的参考序列和宏基因组序列推断而来的。树枝末端tips的序列聚类根据其来源proGenomes3、GTDB r220 或 SPIRE以及从完整宏基因组集合中恢复它们的栖息地类别进行了注释 。标有圆点的节点表示门红色和科蓝色水平的演化支组这是基于预先校准的 RED 截断值推断出来的见“方法”部分。门级组是根据其所包含的来自 proGenomes3、GTDB r220 或 SPIRE MAGs 的序列进行分类划分的。亚硝化侏儒菌科Nitrosopumilaceae被作为一个演化支示例标出表明未分箱重叠群极大地丰富了已知分类群 。深层未分类的门级演化支在不同位置被高亮显示 。其他古菌标记基因的系统发育可视化可以在欧洲生物信息学研究所European Bioinformatics Institute的 BioStudies 数据库中获取登录号为 S-BSST2111 。Asgardarch. 代表仙宫古菌门。标记基因的系统发育树将先前公认的深分枝演化支clades恢复为大致同质的群体并重现了关于它们分枝顺序的常见假设 。我们对参考的门水平演化支包含来自 proGenomes3 或 GTDB 的序列数量的估计超过了基于全物种树在 GTDB r220 中确认的门数量古菌估计值36 ± 12GTDB r22019和细菌238 ± 82GTDB175均是如此 。这部分是因为我们的 RED相对进化散度划分算法倾向于将大型演化支例如 TACK 超门包括奇古菌门 Thaumarchaeota/Nitrososphaerota、初古菌门Aigarchaeota、泉古菌门 Crenarchaeota 和寇古菌门 Korarchaeota在 GTDB 中表示为单一的热变形菌门 Thermoproteota或预测具有偏斜进化速率的群体例如 DPANN 古菌以 Diapherotrites、Parvarchaeota、Aenigmarchaeota、Nanoarchaeota 和 Nanohaloarchaeota 等门命名拆分为多个门 。所有探究的系统发育树都包含数量不等的深层门水平分枝这些分枝仅包含未分箱重叠群unbinned contigs或 SPIRE MAGs 中的序列。例如图 2 中的古菌 rpoE 树包含一个未分类的门水平分枝该分枝包括来自不同栖息地的 758 条序列被组织成 109 个末端基因聚类和 5 个预测的科水平演化支 。总体而言我们估计古菌中有 10 个假定的门水平演化支的中位数4 ± 3 来自 SPIRE MAGs6 ± 8 来自未分箱重叠群相当于比估计的参考演化支增加了约 28%细菌中有 145 个此类演化支28 ± 29 来自 MAGs117 ± 137 来自未分箱重叠群相当于比参考估计值增加了约 61% 。到了较浅的分类层级我们对参考演化支数量的估计接近 GTDB r220 中的数量物种层级除外见上文而对 SPIRE MAGs 和未分箱重叠群中可发现演化支的估计值则随着分类分辨率的提高而大幅增加图 3a 和表 1) 。图3 | 未分箱重叠群和 MAG 表明存在数以千计的可发现深层演化支a基于 RED 截断值预测的在门、纲、目、科和属水平上的演化支组数量。每个数据点代表对一个标记基因的估计值古菌 n 29细菌 n 53见“方法”部分。颜色指示数据来源蓝色代表至少包含一条参考序列来自 proGenomes3 或 GTDB r220的演化支橙色代表不含参考序列但至少包含一个 SPIRE MAG 的演化支黄色代表仅包含未分箱 SPIRE 重叠群序列的演化支。蓝色虚线表示 GTDB r220 中每个分类水平的参考演化支数量。箱线图表示中位数、第 25 和第 75 百分位数箱体边缘以及 1.5 倍四分位距须线。b可发现的门水平和属水平演化支在各栖息地的分布情况。柱状图表示每种数据来源在所有栖息地中最左侧列或仅考虑单个栖息地数据时可发现的演化支数量。预测演化支的恢复情况在不同栖息地之间存在异质性图 3b。尽管肠道和非肠道人类样本占了测序工作量的大部分但它们在深层门水平和较浅层属水平的分辨率下都仅覆盖了一小部分预测的演化支。大多数预测的高层级演化支在土壤、根际、废水和水生环境中均可观察到。热液喷口作为古菌多样性的特定热点区域脱颖而出虽然它们在我们的数据集中仅占 296 个宏基因组占总数的 0.3%但它们包含了五分之四的参考古菌门级演化支代表以及三分之二的基于 MAG 和未分箱预测的古菌门级演化支代表这代表了在所有受测栖息地中观察到的对深层谱系最广泛的覆盖。原核生物多样性遵循 Willis 定律和 Yule 曲线1922年Willis 观察到几个动植物群体的分类演化支clades规模分布遵循幂律属的频率随着属的规模的指数下降导致形成了以单例演化支仅包含一个物种为主的“空洞曲线”hollow curves并带有巨大演化支物种丰富度极高的属的重尾heavy tail现象。从 Yule 的开创性工作开始——他通过假设新物种倾向于按属的规模比例“优先附着”于现有属来解释这一观察结果——研究人员一直在试图确定导致现存生物多样性的进化机制和过程。我们假设原核生物的多样性也遵循相同的经验定律并认为我们的数据集非常适合用于测试这一点因为我们的演化支层级群组是数据驱动的基于 RED 值推断、与具体分类学无关的从标记基因的系统发育定义而来且非常全面跨越地球各种栖息地采样。我们发现古菌和细菌的多样性确实遵循 Willis 定律演化支的频率随着演化支规模的增加呈幂律关系下降图 4这一规律在所测试的超过五个数量级的演化支计数范围内均成立。Willis 定律在不同的分类尺度上都成立从属内的物种到门内的物种图 4a并且也适用于更高分类层级的子演化支subclades从科内的属到门内的纲图 4b。通过为每个单独的标记基因拟合朴素的幂律方程我们从双对数log-log图的斜率中计算出了特定于标记基因的 Willis 系数 ω见“方法”部分。我们观察到一个明显的趋势即对于物种计数在不同的分类水平上 ω 值不断减小暗示尾部更重也就是对大演化支的偏向更强从属内物种的 ω 值约为 1.4 降至门内物种的 ω 值约为 0.1而对于演化支内子演化支的计数ω 值则更为相似介于 1.4 到 1.7 之间扩展数据图 6a。图4 | 原核生物多样性遵循 Willis 定律和 Yule 曲线a细菌标记基因示例 rsmD16S rRNA 鸟嘌呤甲基转移酶TIGR00095的演化支规模每个演化支的物种数x 轴与演化支计数包含 x 个物种的演化支数量y 轴的双对数log-log图。演化支层级的群组是基于各个分类水平上完整系统发育树的 RED 截断值推断出来的见“方法”部分。灰线表示拟合的 Yule-Simon 曲线。图中标出了估计的 Willis 系数 (ω) 和 Yule-Simon 系数 (ρ)见“方法”部分。 b与 a 类似但显示的是包含下级分类水平即从科内的属到门内的纲中 x 个子演化支x 轴的演化支数量y 轴。 c为各个独立栖息地估计的 Yule-Simon 系数即仅考虑从特定栖息地的宏基因组中组装出的基因。灰线表示线性拟合。x 轴对应每个栖息地的样本数量颜色指示栖息地类别紫色胃肠道浅粉色人体其他部位蓝色水生绿色植物相关深粉色人为环境棕色土壤浅绿色空气。 d在各个公认的门内估计的 Yule-Simon 系数见“方法”部分。虚线表示基于 GBIF、GTDB r226 和微生物图谱项目Microbe Atlas Project16S rRNA OTU 的参考分类学为原核生物域绿色代表细菌紫色代表古菌、真核生物界深绿色代表植物界 Plantae橙色代表真菌界 Fungi浅橙色代表色藻界 Chromista粉色代表动物界 Animalia深蓝色代表原生动物界 Protozoa以及病毒浅蓝色估计的 ρ 值见“方法”部分。阴影带表示线性拟合的 95% 置信区间。与 a 类似的相应 Yule 曲线展示在扩展数据图 7 中。缩写说明Altiarch., 产丝古菌门 (Altiarchaeota)GBIF, 全球生物多样性信息网络 (Global Biodiversity Information Facility)Bacill., 芽孢杆菌门 (Bacillota)Methanobact., 甲烷杆菌门 (Methanobacteriota)Thermoprot., 热变形菌门 (Thermoproteota)。尽管朴素的幂律提供了良好的整体拟合但我们观察到演化支规模分布在右侧表现出不成比例的重尾现象大型演化支代表性过高同时向左侧偏离小型演化支的频率较低从而显示出最初被 Yule 用来推导潜在进化过程的特征。因此我们将数据拟合至 Yule-Simon 分布图 4a, b。Yule-Simon 参数 ρ 的估计值在不同的标记基因之间以及细菌和古菌之间表现出一致性扩展数据图 6b对于物种计数ρ 随着分类深度的增加而减小从属的 ρ ~1.0 降至门的 ρ ~0.4而对于子演化支计数则呈现相反的趋势从科内属的 ρ ~0.85 升至门内纲的 ρ ~1.50。ρ 可以被视为一个“富者愈富”rich-get-richer系数它描述了 Yule 过程中的优先附着preferential attachment机制较低的 ρ 值表明新的子演化支对现有大演化支有很强的优先附着性。因此我们的结果表明新物种倾向于在现有的较大演化支中产生这种偏向性在门一级最强在属一级最弱也就是说物种丰富的门如芽孢杆菌门 Bacillota 或假单胞菌门 Pseudomonadota的优势地位比物种丰富的属如原绿球藻属 Prochlorococcus的优势地位更为显著。对于演化支内的子演化支则观察到了相反的情况新属向现有大科附着的偏向性要强于新纲向现有大门附着的偏向性。对于纲内的目和门内的纲我们观察到古菌和细菌之间存在差异这仅能部分归因于采样噪声古菌演化支较少导致拟合噪声较大。这可能表明在系统发育深度方面古菌的目或纲并不完全等同于细菌的目或纲或者古菌和细菌在这些水平上的多样性组织方式有所不同。在不同栖息地和系统发育中多样性模式存在差异我们通过重新拟合各个栖息地图 4c和门图 4d的曲线探讨了环境和系统发育如何塑造演化支clades的规模分布。在采样充分的栖息地中Yule-Simon 系数通常较低细菌的斯皮尔曼相关系数 ρ -0.50古菌为 -0.25并且在更广泛的环境之间存在明显差异图 4c。肠道和人类非肠道栖息地显示出最低的 ρ 值这可能是因为它们的定义较窄并且仅对应于一种或少数几种宿主物种。相比之下在水生环境特别是温泉和地下水和土壤以及非哺乳动物肠道中观察到了较高的系数这表明其多样性较少被少数大型演化支所主导并且在这些环境中新发现的物种更有可能属于尚未被描述的更深层次的演化支而肠道中新发现的物种则通常被预期属于已知大型演化支。对于细菌ρSpearman -0.71和古菌ρSpearman -0.79图 4dYule-Simon 系数与公认门内采样的总物种丰富度密切相关采样充分的门如假单胞菌门 Pseudomonadota 或芽孢杆菌门 Bacillota_A具有较低的 ρ 系数而较小的门则较少被大型演化支所主导。两个显著的例外是甲烷杆菌门Methanobacteriota它偏向于较低的 ρ 值采样的物种较少但高度集中以及 Patescibacteria其估计的大约 19,500 个物种分布在规模更为均匀的演化支中ρ 1.33。然而根据全球生物多样性信息网络GBIF扩展数据图 7的参考分类学推断几乎所有受测的原核生物门都具有比真核生物界甚至病毒更高的 Yule-Simon 系数。此外基于我们数据集在整个域domain-wide水平上的 ρ 估计值大大小于基于 GBIF 细菌和古菌分类学、GTDB r226 参考分类学或微生物图谱项目Microbe Atlas Project16S rRNA OTU 的估计值。这表明尽管真核生物的多样性特别是在植物和真菌中比细菌和古菌更集中于少数大型演化支中但生物多样性的组织在整个生命之树中都遵循着相似且一致的模式。作者简介第一作者Vishnu Prasoodanan研究重点是表征不同生态和临床背景下的微生物组组成。研究饮食模式和疾病状态如何塑造人类肠道微生物组的分类和功能图谱以及相关的宿主基因表达谱。在分析高通量测序数据集方面拥有丰富的专业知识包括宏基因组学、基因组学。通讯作者Oleksandr M. Maistrenko研究重点是宿主-微生物组相互作用、宏泛基因组学meta-pangenomics和进化。 2013年在乌克兰基辅塔拉斯·舍甫琴科国立大学Taras Shevchenko National University of Kyiv普通与分子遗传学系生物研究所完成了生物学理学学士学位。之后获得了富布赖特Fulbright奖学金前往美国北达科他州立大学学习基因组学和生物信息学。2020年在欧洲分子生物学实验室德国海德堡完成了题为《细菌泛基因组分析及其在宏基因组学中的应用》的博士学位。目前在荷兰皇家海洋研究所担任博士后主要致力于古菌与其他生物之间的共生关系研究。翻译申子昂华南农业大学在读硕士审核朱志豪广东医科大学基因组所联合博士后终审刘永鑫中国农科院基因组所研究员/博导排版尹春安徽农业大学本科在读宏基因组推荐4月10-12日微生物组-扩增子16S分析5月8-10日微生物组-宏基因组分析本公众号现全面开放投稿希望文章作者讲出自己的科研故事分享论文的精华与亮点。投稿请联系小编微信号yongxinliu 或 meta-genomicsiMeta高引 fastp PhyloSuite ImageGP2 iNAP2 ggClusterNet2iMeta工具 SangerBox2 美吉2026 OmicStudio Wekemo OmicShareiMeta综述 高脂饮食菌群 发酵中药 口腔菌群 微塑料 癌症 宿主代谢10000扩增子EasyAmplicon 比较基因组JCVI 序列分析SeqKit2 维恩图EVenniMetaOmics高引 猪微生物组 16S扩增子综述 易扩增子(EasyAmplicon)系列教程微生物组入门 Biostar 微生物组 宏基因组专业技能学术图表 高分文章 生信宝典 不可或缺的人点击阅读原文