MagnoliidsGDB:木兰类植物基因组数据库--文献精读252 MagnoliidsGDB: An integrated functional genomics database for magnoliidsMagnoliidsGDB木兰类植物功能基因组整合数据库ANA基因组数据库ANAgdb_ana演化阶-CSDN博客达尔文提出的 “恼人之谜”指代白垩纪时期双子叶植物突然出现并快速分化这一演化现象百余年来一直困扰着众多科研学者。木兰类植物是被子植物第三大类群属于保留诸多原始形态与结构特征的双子叶植物典型特征包括单沟型花粉、离生心皮、小型胚以及种子内丰富的胚乳这些特征是判定木兰类植物演化地位的关键依据也有望为破解达尔文演化难题提供重要线索。但目前木兰类植物相较于单子叶植物、真双子叶植物等其他被子植物类群的系统发育位置尚无定论学界对此仍存在诸多争议。木兰类植物共包含樟目、白桂皮目、胡椒目与木兰目四大目涵盖 18 个科、9000 余个物种。该类群诸多物种具备独特生物学性状同时可合成多种高活性次生代谢产物既是珍贵的种质遗传资源也是现代医药领域天然活性物质的重要来源。自 2019 年首个木兰类植物鹅掌楸基因组发布以来截至 2024 年 3 月已有 23 种木兰类植物完成基因组测序相关研究随之快速兴起海量转录组、蛋白质组、重测序及代谢组学数据持续产出。搭建整合型数据库能够极大推动木兰类植物基础领域研究发展而目前业内仍缺少可快速调取、高效利用木兰类基因组资源的专业平台。因此构建一套完善的木兰类植物基因组数据库对探究被子植物起源演化、解析木兰类特有性状形成的分子机制均具备极高的科研价值。图 1 木兰类植物数据库 MagnoliidsGDB 整体架构与功能图示内容包含木兰类植物系统发育关系以及木兰类植物木质素合成通路差异的研究实例。本研究构建了木兰类植物多功能整合基因组数据库 MagnoliidsGDB网址http://www.magnoliadb.com:7777/平台收录海量多组学数据并集成多款实用分析工具助力科研人员解析木兰类植物演化历程、基因功能与特有生物学性状。 截至 2024 年 3 月该数据库共收录25 个物种的 32 套基因组序列、4 个物种的 149 份重测序数据、21 个物种的 845 组转录组数据以及 15 个物种的代谢组数据、7 个物种的蛋白质组数据。其中胡椒、荜茇、鳄梨的代谢组数据均通过液相色谱 - 质谱联用技术测定获得图 1B。平台集成 12 项基因检索与数据分析工具图 1C可一站式查询木兰类植物各类组学信息同时支持多样化生物学功能分析并开放原始数据上传端口便于科研人员规范化利用木兰类植物组学数据推动相关领域研究高效开展。MagnoliidsGDB 整体架构分为六大核心模块物种信息模块、基因组模块、转录组模块、代谢组模块、蛋白质组模块与变异组模块图 1B。物种信息模块收录 25 种已测序木兰类植物基础资料涵盖染色体数目、通用名、地理分布、物种形态描述、物种实拍图、文献出处以及外链跳转入口可一键跳转至 NCBI 分类数据库与 PubMed 数据库快速查询物种分类信息与相关研究文献。基因组模块汇总 32 套基因组组装数据标注对应发表文献、测序技术、基因组大小、N50 长度、测序深度等关键组装指标开放基因组序列、编码区序列、基因结构注释文件、蛋白序列等标准格式文件下载内嵌 JBrowse 基因组浏览器同时集成多款基因组分析工具可通过导航栏直接调用。​​​​​​​转录组模块依托 91 个生物项目整合 845 组转录组样本数据覆盖 21 种木兰类植物含胡椒 47 组、鹅掌楸 125 组、蜡梅 104 组、木姜子 87 组、鳄梨 159 组等详见附表 1所有样本均采用统一标准流程分析提供 FPKM、TPM 基因表达定量文件下载同时收录样本编号、项目编号、测序编号、组织部位、发育时期、采样地点等完整样本信息。平台支持自定义绘制基因表达热图可按照物种、基因、组织部位、生长阶段、实验材料等维度灵活绘图。​​​​​​​代谢组模块收录 15 个物种共计 153 份样本的代谢组定性与定量数据及样本详细信息点击代谢物名称可自动跳转至 NCBI PubChem 数据库查询化合物理化性质与相关研究信息附表 2。​​​​​​​蛋白质组模块整合 12 套独立蛋白质组测序数据集收录蜡梅、樟树、山蜡梅、鹅掌楸、厚朴、鳄梨、胡椒 7 个物种的蛋白序列、蛋白功能注释等信息附表 3。​​​​​​​变异组模块整理 149 份种质材料重测序鉴定得到的单核苷酸变异、插入缺失变异等遗传变异数据附表 4支持按物种、基因 ID、变异位点、染色体位置、变异类型检索变异信息依托国际通用变异注释软件 ANNOVAR 完成全物种变异位点功能注释同步提供样本组织类型、树龄、发育阶段、采集地等基础信息所有变异数据均可免费下载附表 4、附表 5。除六大核心数据模块外平台导航栏内置 12 款主流生物信息学分析工具基因检索、基因功能注释、基因相关性分析、转录因子分析、序列比对、KEGG 富集分析、GO 功能富集分析、引物设计、基因组共线性分析、基因组浏览器、同源基因查找、表达热图绘制。 其中序列比对工具独立成页内置 24 套基因组组装序列库可批量筛选候选同源基因表达热图工具实现数据可视化直观呈现基因表达差异与表达模式基因组共线性工具适用于木兰类植物种间同源区段比对与演化分析基因相关性分析可检索目标基因的高度关联基因收录 14 个物种关联基因及相关系数数据引物设计工具可快速设计实验扩增引物JBrowse 浏览器可快速浏览高通量测序数据平台已录入 17 套木兰类植物基因组数据同源基因检索工具可查询物种间同源基因对应关系。 数据库专门搭建数据下载专区免费开放基因组组装序列、基因注释文件、转录组分析结果、蛋白组与代谢组原始及分析数据。为进一步明确木兰类植物系统发育地位本研究依托 MagnoliidsGDB 数据库数据以无油樟为外类群构建带分化时间的系统发育树图 1D。结果显示胡椒目与白桂皮目约在 1.76 亿年前发生分化木兰目与樟目互为姊妹类群二者分化时间约为 1.47 亿年前。目前木兰类植物内部类群演化关系仍存在争议本研究构建的进化树是现阶段样本覆盖最全面的演化分析结果可为界定木兰类植物系统发育位置、探究被子植物整体演化历程提供重要依据。MagnoliidsGDB 致力于整合梳理木兰类植物多组学数据、集成便捷高效的分析工具助力科研人员快速调取并深度挖掘相关研究数据。依据生长习性与植株结构特征可将木兰类植物划分为藤本如胡椒、灌木如山蜡梅、乔木如香樟三类藤本植物需依附外物攀附生长灌木无明显主干株型低矮、呈丛生状态乔木主干笔直高大部分物种株高可达百米以上。 木质素是维系植株机械支撑、参与水分与养分运输的重要物质据此推测三类植株木质素合成通路存在差异造成木质素积累量不同进而塑造出截然不同的生长形态。 为验证该假说本研究利用数据库序列比对工具筛选三类代表性物种的木质素合成同源基因借助转录组模块表达热图工具发现香樟、山蜡梅、胡椒的茎、叶、花组织中木质素合成相关基因表达水平存在显著差异与假说结论一致同时通过基因组共线性工具定位该类基因在染色体上的分布位置明确木兰类植物间该类基因的基因组演化差异图 1E、图 1F。综上MagnoliidsGDB 是一款权威易用的木兰类植物研究专属平台可为该领域研究提供充足数据资源。后续平台将持续收录最新发表的测序数据扩充多组学数据类型迭代升级分析工具力争打造成为木兰类植物研究领域的综合性学术数据门户长期助力植物演化生物学相关研究开展。