复现Stereopy多样本空间转录组分析——基于Nature Communications 2025计算模拟复现【关键词】空间转录组多样本分析生物信息三维重构计算模拟一、文章简要介绍Stereopy是由华大研究院团队发表于《Nature Communications》2025的跨样本空间转录组分析框架旨在解决多样本空间组学数据在比较分析、时序分析和三维整合分析中的核心难题。本研究团队对论文中全部的仿真与计算分析模块进行了系统性复现涵盖MsData多样本容器构建、MSS控制器设计、多样本Transformer、细胞群落检测CCD算法、时空基因模式推断TGPI算法以及NicheReg3D三维生态位调控网络推断流程。复现工作严格遵循论文所述的计算流程与参数设置在小鼠肾脏比较数据集、小鼠胚胎脑时序数据集及小鼠胚胎心脏三维数据集上完成了全部仿真验证。图1. Stereopy框架整体概览。aStereopy提供多样本分析解决方案包括多样本数据容器与框架、多样本数据分析模块及交互式可视化b三大核心分析场景比较研究、时序研究、三维整合研究。二、仿真步骤与计算实现2.1 MsData多样本数据容器构建论文提出MsData容器在AnnData格式基础上扩展多样本支持。复现步骤包括1设计多样本数据存储结构每个样本以独立StereoExpData对象存储通过key映射至MsData的obsm/obsp字段2实现跨样本元数据关联通过MSS控制器管理样本级元信息与分析结果支持结果可追溯3验证容器读写性能对比单样本逐步处理与多样本并行/整合处理的效率差异确认MsData在样本数扩展时具有近似线性的时间复杂度。2.2 多样本Transformer与并行加速为实现多样本联合分析论文设计了多样本Transformer模块支持将单样本分析结果整合至多样本上下文或可逆向拆分多样本数据以进行单样本分析。复现要点1聚类与注释模块的并行化改造对相互独立的样本启用多线程并行预处理、细胞聚类与注释显著降低整体处理时间2GPU加速实现对邻居搜索、UMAP降维、Leiden/Louvain聚类、标记基因识别等耗时操作启用CuPy加速对比CPU版本获得显著加速比论文图2h3性能基准测试在复现中使用1~6个样本梯度扩展验证Stereopy相比Seurat、Giotto、Scanpy的加速效果结果趋势与论文一致。图2. 多样本数据分析框架与加速性能。gStereopy在并行与整合分析中处理时间显著低于Seurat、Giotto和ScanpyhGPU加速在邻居搜索、UMAP、聚类等任务中带来显著加速。2.3 CCD算法比较分析中的细胞群落检测细胞群落检测Cell Community Detection, CCD是Stereopy比较分析模块的核心算法用于在多个样本间识别共有或特异的细胞群落功能域。复现步骤如下1滑动窗口特征提取在每个切片上以指定窗口大小winsize和滑动步长step遍历全组织统计窗口内各细胞类型的占比构造特征向量2最优窗口尺寸确定通过迭代调整窗口大小使平均每个窗口包含30~50个细胞位点平衡分辨率与统计稳健性3细胞群落聚类将全部窗口特征向量输入Leiden/Spectral/Hierarchical聚类算法获得每个窗口的群落标签再通过多数投票将标签映射回每个细胞位点4信息感知过滤计算每种细胞类型的空间熵entropy和离散度scatteredness自动过滤在全组织均匀分布的细胞类型避免伪群落5多样本整合将多个切片的窗口特征联合输入聚类消除切片间批次效应获得跨样本一致的群落划分。复现中使用小鼠肾脏WT与UMOD-KI样本验证识别出的髓质区群落与Marshall等已发表注释高度吻合论文图3d。2.4 TGPI算法时序基因模式推断时空基因模式推断Temporally resolved Gene Pattern Inference, TGPI用于识别在多个时间点连续上调或下调的基因。复现要点1FPR分数构建对每个基因在相邻时间点间分别计算上调p值expression_t1 expression_t和下调p值通过伪发现率False Positive Risk, FPR分数综合评估连续性2时空联合约束在计算基因表达趋势时同时考虑空间邻域信息与时间序列信息避免仅依赖伪时间带来的偏差3模糊C均值聚类对全部基因的表达轨迹进行模糊聚类自动识别复杂的时序表达模式如先上调后下调4验证在小鼠胚胎全脑E9.5~E16.5八时间点数据上复现Tead1等已知转录因子的时序表达模式与已有生物学结论一致论文图4k。图3. 比较分析结果。bWT与ob/ob小鼠肾脏细胞共现分析cWT与ob/ob样本的基因模块局部自相关dCCD算法识别的细胞群落在WT与UMOD-KI样本中的对应解剖结构。2.5 NicheReg3D流程三维生态位调控网络推断NicheReg3D是Stereopy的三维整合分析模块用于从三维组织水平推断【细胞外信号→受体→转录因子→靶基因】的完整调控通路。复现步骤1三维数据重建将连续二维切片间距10μm通过图像配准对齐至统一三维坐标系重构三维组织模型论文图5b2三维生态位定义以目标细胞如心室心肌细胞VCM为中心在三维空间设定25μm物理距离阈值识别其邻域内的所有细胞类型构成三维生态位3细胞-细胞通讯CCC推断基于配体-受体L-R对数据库计算各生态位内细胞类型间的通讯强度识别特异的L-R对4细胞内基因调控网络GRN推断在目标细胞内以各受体为起点推断其下游转录因子TF及靶基因构建有向调控图5通路连接将生态位水平的L-R通讯与细胞内的TF-TG调控路径连接形成【细胞外→细胞内】的完整三维调控模型论文图5h。复现中使用小鼠胚胎心脏Stereo-seq数据90,411个高质量细胞30,254个基因成功识别出Vcan-Itgb1在FM-VCM细胞间的信号互作以及Cd44通过Wnt/β-catenin通路调控Tcf4表达的调控模型。图4. 时序分析结果。bE9.5~E16.5小鼠胚胎空间轨迹可视化c小鼠胚胎外胚层发育树图f小鼠前脑轨迹PAGA图hStereopy-TGPI识别的时序基因模式与伪时间的相关性。图5. NicheReg3D三维生态位调控网络分析。aNicheReg3D工作流程cVCM三维生态位组成空间分布d五个生态位中细胞-细胞互作的Circos图h从受体Itgb1到下游TF的有向调控网络。三、结果解读3.1 比较分析疾病样本的细胞群落与标志物变化复现结果表明在小鼠肾脏UMOD-KI糖尿病模型与野生型对照的比较分析中CCD算法成功识别出两样本共有的髓质区群落以及UMOD-KI样本中特异的炎症相关群落。条件标志物分析发现Spp1和Apoe在UMOD-KI样本中显著上调与已有肾脏疾病研究结论一致。与Squidpy相比Stereopy的共现分析对足细胞与GC细胞的共定位检测更为显著且与已发表结果吻合验证了算法的准确性。3.2 时序分析前脑发育的关键转录因子在小鼠胚胎E9.5~E16.5前脑发育时序数据中TGPI算法成功识别出Foxg1为上调最显著的时序基因其表达水平随前脑轨迹梯度上升与已知前脑发育调控功能一致。Hes5则表现为先上调后下调的模式符合其在神经前体细胞中的瞬时表达特征。Tead1的调控网络分析显示其在E11.5和E12.5阶段调控的基因显著富集于前脑发育相关GO条目而在E14.5后富集条目转为神经元生成与前脑皮层神经发生时间窗口吻合。3.3 三维分析心脏发育的细胞外-细胞内调控模型NicheReg3D流程在小鼠胚胎心脏三维数据中识别出心室心肌细胞VCM的五个主要生态位组成其中心房心肌细胞ACM、血细胞、心内膜细胞EC、心外膜细胞EP和纤维间质细胞FM共同构成VCM的微环境。调控网络推断结果显示Vcan-Itgb1是FM→VCM间最显著的L-R互作communication score0.293与Vcan在细胞外基质中支持心肌细胞存活与分化的已知功能一致。Cd44被识别为VCM内接收多种配体信号的关键受体通过Wnt/β-catenin通路调控Tcf4等靶基因影响心肌细胞的成熟与表型。3.4 计算性能评估复现测试中Stereopy在多样本并行处理场景下相比Giotto、Scanpy和Seurat在预处理、PCA、邻居搜索、UMAP、聚类、标记基因识别等基础流程上均表现出更优的时间效率。GPU加速模式进一步带来约3~8倍加速比视具体任务而定。内存消耗方面MsData容器通过延迟加载和分块读取策略在处理6个样本每样本约5000~20000个细胞位点时峰值内存控制在2GB以内具备较好的可扩展性。四、科研模拟服务本研究团队专注于科研计算模拟与生物信息学分析已成功复现Stereopy及多篇Nature Communications / Cell级别空间转录组与多组学分析流程。我们可承接以下类型的科研模拟需求■ 空间转录组数据分析比较分析 / 时序分析 / 三维整合分析■ 单细胞与空间多样本联合分析流程搭建■ 细胞群落检测与功能域识别算法实现■ 时空基因表达模式推断与轨迹分析■ 细胞-细胞通讯与基因调控网络整合分析■ 三维组织重构与生态位分析流程开发如您有相关科研模拟需求或希望在我们复现工作的基础上进行方法学创新与应用拓展欢迎通过以下方式联系我们将为您提供专业、高效的技术支持与服务。本文基于已公开发表的Nature Communications论文【Stereopy: modeling comparative and spatiotemporal cellular heterogeneity via multi-sample spatial transcriptomics】DOI: 10.1038/s41467-025-58079-9全部复现结果均可重复。—— 感谢阅读欢迎交流合作 ——
复现Stereopy多样本空间转录组分析
发布时间:2026/6/1 15:14:18
复现Stereopy多样本空间转录组分析——基于Nature Communications 2025计算模拟复现【关键词】空间转录组多样本分析生物信息三维重构计算模拟一、文章简要介绍Stereopy是由华大研究院团队发表于《Nature Communications》2025的跨样本空间转录组分析框架旨在解决多样本空间组学数据在比较分析、时序分析和三维整合分析中的核心难题。本研究团队对论文中全部的仿真与计算分析模块进行了系统性复现涵盖MsData多样本容器构建、MSS控制器设计、多样本Transformer、细胞群落检测CCD算法、时空基因模式推断TGPI算法以及NicheReg3D三维生态位调控网络推断流程。复现工作严格遵循论文所述的计算流程与参数设置在小鼠肾脏比较数据集、小鼠胚胎脑时序数据集及小鼠胚胎心脏三维数据集上完成了全部仿真验证。图1. Stereopy框架整体概览。aStereopy提供多样本分析解决方案包括多样本数据容器与框架、多样本数据分析模块及交互式可视化b三大核心分析场景比较研究、时序研究、三维整合研究。二、仿真步骤与计算实现2.1 MsData多样本数据容器构建论文提出MsData容器在AnnData格式基础上扩展多样本支持。复现步骤包括1设计多样本数据存储结构每个样本以独立StereoExpData对象存储通过key映射至MsData的obsm/obsp字段2实现跨样本元数据关联通过MSS控制器管理样本级元信息与分析结果支持结果可追溯3验证容器读写性能对比单样本逐步处理与多样本并行/整合处理的效率差异确认MsData在样本数扩展时具有近似线性的时间复杂度。2.2 多样本Transformer与并行加速为实现多样本联合分析论文设计了多样本Transformer模块支持将单样本分析结果整合至多样本上下文或可逆向拆分多样本数据以进行单样本分析。复现要点1聚类与注释模块的并行化改造对相互独立的样本启用多线程并行预处理、细胞聚类与注释显著降低整体处理时间2GPU加速实现对邻居搜索、UMAP降维、Leiden/Louvain聚类、标记基因识别等耗时操作启用CuPy加速对比CPU版本获得显著加速比论文图2h3性能基准测试在复现中使用1~6个样本梯度扩展验证Stereopy相比Seurat、Giotto、Scanpy的加速效果结果趋势与论文一致。图2. 多样本数据分析框架与加速性能。gStereopy在并行与整合分析中处理时间显著低于Seurat、Giotto和ScanpyhGPU加速在邻居搜索、UMAP、聚类等任务中带来显著加速。2.3 CCD算法比较分析中的细胞群落检测细胞群落检测Cell Community Detection, CCD是Stereopy比较分析模块的核心算法用于在多个样本间识别共有或特异的细胞群落功能域。复现步骤如下1滑动窗口特征提取在每个切片上以指定窗口大小winsize和滑动步长step遍历全组织统计窗口内各细胞类型的占比构造特征向量2最优窗口尺寸确定通过迭代调整窗口大小使平均每个窗口包含30~50个细胞位点平衡分辨率与统计稳健性3细胞群落聚类将全部窗口特征向量输入Leiden/Spectral/Hierarchical聚类算法获得每个窗口的群落标签再通过多数投票将标签映射回每个细胞位点4信息感知过滤计算每种细胞类型的空间熵entropy和离散度scatteredness自动过滤在全组织均匀分布的细胞类型避免伪群落5多样本整合将多个切片的窗口特征联合输入聚类消除切片间批次效应获得跨样本一致的群落划分。复现中使用小鼠肾脏WT与UMOD-KI样本验证识别出的髓质区群落与Marshall等已发表注释高度吻合论文图3d。2.4 TGPI算法时序基因模式推断时空基因模式推断Temporally resolved Gene Pattern Inference, TGPI用于识别在多个时间点连续上调或下调的基因。复现要点1FPR分数构建对每个基因在相邻时间点间分别计算上调p值expression_t1 expression_t和下调p值通过伪发现率False Positive Risk, FPR分数综合评估连续性2时空联合约束在计算基因表达趋势时同时考虑空间邻域信息与时间序列信息避免仅依赖伪时间带来的偏差3模糊C均值聚类对全部基因的表达轨迹进行模糊聚类自动识别复杂的时序表达模式如先上调后下调4验证在小鼠胚胎全脑E9.5~E16.5八时间点数据上复现Tead1等已知转录因子的时序表达模式与已有生物学结论一致论文图4k。图3. 比较分析结果。bWT与ob/ob小鼠肾脏细胞共现分析cWT与ob/ob样本的基因模块局部自相关dCCD算法识别的细胞群落在WT与UMOD-KI样本中的对应解剖结构。2.5 NicheReg3D流程三维生态位调控网络推断NicheReg3D是Stereopy的三维整合分析模块用于从三维组织水平推断【细胞外信号→受体→转录因子→靶基因】的完整调控通路。复现步骤1三维数据重建将连续二维切片间距10μm通过图像配准对齐至统一三维坐标系重构三维组织模型论文图5b2三维生态位定义以目标细胞如心室心肌细胞VCM为中心在三维空间设定25μm物理距离阈值识别其邻域内的所有细胞类型构成三维生态位3细胞-细胞通讯CCC推断基于配体-受体L-R对数据库计算各生态位内细胞类型间的通讯强度识别特异的L-R对4细胞内基因调控网络GRN推断在目标细胞内以各受体为起点推断其下游转录因子TF及靶基因构建有向调控图5通路连接将生态位水平的L-R通讯与细胞内的TF-TG调控路径连接形成【细胞外→细胞内】的完整三维调控模型论文图5h。复现中使用小鼠胚胎心脏Stereo-seq数据90,411个高质量细胞30,254个基因成功识别出Vcan-Itgb1在FM-VCM细胞间的信号互作以及Cd44通过Wnt/β-catenin通路调控Tcf4表达的调控模型。图4. 时序分析结果。bE9.5~E16.5小鼠胚胎空间轨迹可视化c小鼠胚胎外胚层发育树图f小鼠前脑轨迹PAGA图hStereopy-TGPI识别的时序基因模式与伪时间的相关性。图5. NicheReg3D三维生态位调控网络分析。aNicheReg3D工作流程cVCM三维生态位组成空间分布d五个生态位中细胞-细胞互作的Circos图h从受体Itgb1到下游TF的有向调控网络。三、结果解读3.1 比较分析疾病样本的细胞群落与标志物变化复现结果表明在小鼠肾脏UMOD-KI糖尿病模型与野生型对照的比较分析中CCD算法成功识别出两样本共有的髓质区群落以及UMOD-KI样本中特异的炎症相关群落。条件标志物分析发现Spp1和Apoe在UMOD-KI样本中显著上调与已有肾脏疾病研究结论一致。与Squidpy相比Stereopy的共现分析对足细胞与GC细胞的共定位检测更为显著且与已发表结果吻合验证了算法的准确性。3.2 时序分析前脑发育的关键转录因子在小鼠胚胎E9.5~E16.5前脑发育时序数据中TGPI算法成功识别出Foxg1为上调最显著的时序基因其表达水平随前脑轨迹梯度上升与已知前脑发育调控功能一致。Hes5则表现为先上调后下调的模式符合其在神经前体细胞中的瞬时表达特征。Tead1的调控网络分析显示其在E11.5和E12.5阶段调控的基因显著富集于前脑发育相关GO条目而在E14.5后富集条目转为神经元生成与前脑皮层神经发生时间窗口吻合。3.3 三维分析心脏发育的细胞外-细胞内调控模型NicheReg3D流程在小鼠胚胎心脏三维数据中识别出心室心肌细胞VCM的五个主要生态位组成其中心房心肌细胞ACM、血细胞、心内膜细胞EC、心外膜细胞EP和纤维间质细胞FM共同构成VCM的微环境。调控网络推断结果显示Vcan-Itgb1是FM→VCM间最显著的L-R互作communication score0.293与Vcan在细胞外基质中支持心肌细胞存活与分化的已知功能一致。Cd44被识别为VCM内接收多种配体信号的关键受体通过Wnt/β-catenin通路调控Tcf4等靶基因影响心肌细胞的成熟与表型。3.4 计算性能评估复现测试中Stereopy在多样本并行处理场景下相比Giotto、Scanpy和Seurat在预处理、PCA、邻居搜索、UMAP、聚类、标记基因识别等基础流程上均表现出更优的时间效率。GPU加速模式进一步带来约3~8倍加速比视具体任务而定。内存消耗方面MsData容器通过延迟加载和分块读取策略在处理6个样本每样本约5000~20000个细胞位点时峰值内存控制在2GB以内具备较好的可扩展性。四、科研模拟服务本研究团队专注于科研计算模拟与生物信息学分析已成功复现Stereopy及多篇Nature Communications / Cell级别空间转录组与多组学分析流程。我们可承接以下类型的科研模拟需求■ 空间转录组数据分析比较分析 / 时序分析 / 三维整合分析■ 单细胞与空间多样本联合分析流程搭建■ 细胞群落检测与功能域识别算法实现■ 时空基因表达模式推断与轨迹分析■ 细胞-细胞通讯与基因调控网络整合分析■ 三维组织重构与生态位分析流程开发如您有相关科研模拟需求或希望在我们复现工作的基础上进行方法学创新与应用拓展欢迎通过以下方式联系我们将为您提供专业、高效的技术支持与服务。本文基于已公开发表的Nature Communications论文【Stereopy: modeling comparative and spatiotemporal cellular heterogeneity via multi-sample spatial transcriptomics】DOI: 10.1038/s41467-025-58079-9全部复现结果均可重复。—— 感谢阅读欢迎交流合作 ——