论文总结1、有开源代码https://github.com/zylbuaa/PIBD.git2、针对多模态融合中模态间信息重复主导了多模态数据的表示导致模态特定信息容易被忽略模态间冗余问题。作者提出了模态内冗余的信息瓶颈变体PIB用于针对不同风险级别的多个实例建模可用于模态内的判别实例选择。PID模态内信息解耦模块用于将纠缠的多模态数据解耦为模态共享知识和模态特有知识。摘要多模态学习显著提升癌症生存预测尤其是病理图像和基因组数据的整合。尽管多模态学习在癌症存活预测方面有优势但多模态数据中的巨大冗余性使其无法提取有辨别性和紧凑的信息1大量模态内任务无关信息模糊了辨别性尤其是对于具有多病理斑块和数千条基因组数据通路的千兆像素全幻灯片图像WSI导致“模态内冗余”问题。2模态间信息重复主导了多模态数据的表示这使得模态特定信息容易被忽略导致“模态间冗余”问题。为解决这些问题我们提出了一个新框架——典型信息瓶颈与解缠PIBD由用于模态内冗余的原型信息瓶颈PIB模块和用于模态间冗余的原型信息纠缠PID模块组成。具体来说提出了一种信息瓶颈变体PIB用于建模针对不同风险级别的多个实例可用于模态内的判别实例选择。PID模块将纠缠的多模态数据解耦为紧凑且独立的组成部分模态-共同知识和模态特定知识并以联合原型分布为指导。对五个癌症基准数据集的广泛实验证明了我们优于其他方法。代码被公开。引言癌症生存分析Cox1975;Jenkins2005;Salerno Li 2023旨在估算患者的预后死亡风险在预后中通过整合组织学信息和基因组分子谱实现多模态学习有助于大多数癌症类型的预后Chen 等2020;2022b;2021;Jaume 等2023;Xu 和 Chen2023。这些方法为患者分层和治疗决策提供了多元视角Zuo等2022。例如组织学图像提供了肿瘤微环境的视觉表型信息例如细胞的组织Jackson 等2020用于不同癌症分级;而基因组学数据则提供了癌症各种分子亚型的全球景观Gy ̋orffy2021。它们协同作用导致不同的生存结果。然而多模态数据中的大量冗余对有效聚变构成了重大挑战。 当前的主要问题是如何通过消除其冗余性即所谓的“模态内冗余”问题捕捉单一模态的辨别信息由多个斑块组成的WSI标签通常在WSI级别提供导致存活预测的监督薄弱。在缺乏精确注释如对 WSI 癌区的贴片标记的情况下模型输入中任务相关和无关信息会混杂导致信息冗余Hosseini 等2023。具体来说关注区域例如高度相关的肿瘤细胞仅占一小部分这是千兆像素WSI中高分辨率约为10万×10万像素的部分Zhu 等2017。对于这种细粒度的视觉识别尽管某些多实例学习MILIlse 等2018;Li 等2021;Yao等2020提出了一些有前景的解决方案但它们不强制约束以去除冗余信息因此难以获得判别性表示。基因组模式中也出现了类似的冗余问题。研究Jaume 等2023;Chen 等2021指出基于生物途径的基因群具有已知的独特细胞功能相互作用与病理特征具有更多语义对应。然而这些通路可产生数百至数千组且只有少数特定通路与患者预后有强烈相关性例如免疫相关通路对膀胱癌预后预测具有显著性Jiang 等2021a。 另一个问题是我们如何从多模态数据中主导的重叠信息中捕捉紧凑而全面的知识这被称为“模态间冗余”问题由于信息重复产生的冗余会使知识提取变得复杂。因此通过解码提取独立因子可以提升特征效能同时剔除多余信息。知识Liang 等2023可以分为几个不同的组成部分模态专属知识和模态-常识。前者包含单一模态独有的信息而后者封装了共同信息并在不同模态间表现出一致性。为了从多模态冗余中获得有效知识现有的努力Chen 等2021;Xu 和 Chen2023侧重整合共同信息强调通过对齐实现的内在一致性。然而共同信息往往主导了对齐和整合多模态信息导致模态特定信息被压制从而忽视了丰富的独特视角。 本研究提出一个新的多模态生存预测框架——原型信息瓶颈与解缠PIBD由用于“模态内冗余”的原型信息瓶颈PIB模块和用于“模态间冗余”的原型信息纠缠PID模块组成。首先信息瓶颈IB提供了一种有前景的解决方案可以压缩自身不必要的冗余同时最大化任务目标的判别信息。然而IB可能会面临由千兆像素WSI大块和数百条路径带来的高维计算挑战。相反我们提出了一种新的IB变异PIB它通过建模不同风险级别的多个实例如病理斑块或基因组学通路的原型指导模态中识别的实例选择。其次PID通过全面分解纠缠的多模态特征消除了模态间冗余并分解为理想情况下独立的模态共同性和模态特异性知识。为此我们重用上述PIB建模的联合原型分布以指导共同知识的提取。同时我们强制该模型学习不同于联合原型分布的知识后者也被视为捕捉特定模态知识的指导。 值得注意的是该方法可扩展到具有袋状结构模态的更多多模态问题中。贡献如下1受信息理论影响以缓解冗余我们提出了一个新的多模态癌症存活框架PIBD以解决“模态内”和“模态间”冗余挑战。2我们设计了一种新的IB变体PIB用于模拟选择判别性信息以减少模态内冗余的原型而PID则通过将多模态数据解耦为不同组件并以联合原型分布为指导解决模态间冗余问题。3对五个癌症基准数据集的广泛实验证明了我们方法优于最先进方法的优势相关工作单一模态的生存预测预测生存风险对于理解癌症进展至关重要。数字病理学Evans 等2018和高通量测序Christinat Krek2015技术的最新进展分别推动了利用 WSI 和基因组数据进行单模态生存预测的活跃研究。为了处理千兆像素图像多实例学习MIL将“袋”定义为多个实例即图像补丁的集合并为学习WSI的全局表示提供了有效方法。MIL方法侧重于实例级预测的聚合Campanella等2019;Feng 和 Zhou2017;Hou 等2016或特征Ilse 等2018。对于前者袋子预测可以通过合并实例的概率值来简单实现。而后者则采用多种策略来获得全局特征例如聚类嵌入Yao 等2020年、与图的贴片相关建模Guan等2022年、注意力权重分配Ilse等2018年;Li 等2021以及通过变换器学习长程相互作用Shao 等2021。此外基因组学数据还提供了对生存预测至关重要的分子信息。通常以1 ×1的测量表示基因组特征可以通过简单的神经网络提取例如MLPHaykin1998和SNNKlambauer等2017。尽管这些基于单模态的方法在特征提取方面取得了显著改进但它们并未对去除冗余信息以捕捉判别特征提供限制。多种模态的生存预测在临床实践中患者通常会结合全面的多模态数据收集如基因组学Klambauer 等2017、病理学Zhu 等2017;Liu 等2022;Chen等2022a放射学Jiang等2021b;Yao等2021等用于诊断和预后因此学习多模态交互Zhang 等2023成为许多研究的重要动机。这些方法大致分为基于张量和基于注意力的融合技术Zhang 等2020。一些基于张量的融合如连接Mobadersany等2018和加权和Huang等2020参数较少结构简单。另外其他基于张量的融合利用双线性池化通过计算特征的外积来创建联合表示空间例如Kroncecker积Wang等2021、分解双线性池化Li等2022。然而这些方法通常用于融合的早期或晚期阶段使得模态间相互作用Chen 等2022b容易被忽视。近年来基于注意力的融合方法侧重于通过共注意力机制学习跨模态相关性Chen 等2021;Zhou 和 Chen2023。例如MCATChen 等2021提出了基因引导的共注意HMCATLi 等2023b设计了放射学引导的共注意MOTCatXu 和 Chen2023引入了最优运输OT以建模全局结构一致性SurvPathJaume 等2023利用交叉注意力建模通路与组织学斑块之间的密集相互作用。虽然某些方法可以通过比对部分缓解冗余但它们容易丢失特定模态信息。多模态学习与信息理论近年来信息理论因其能够提供量化信息的度量而在多模态学习社区中受到越来越多的关注Dai 等2023;梁等2023;Hjelm 等2018。具体来说基于信息瓶颈IB原则的方法Tishby 等2000;Alemi 等2016已成为压缩原始信息同时保留任务相关知识的有效策略这些策略在多视角中也被广泛应用Federici 等2020;Lee 和 Van der Schaar2021以及多模态学习Mai 等2022。此外另一种以信息解缠为中心的方法已被利用来提取定向知识Sanchez 等2020;Cheng 等2022;Chen 等2023促进了更紧凑表示的学习。我们首次将这一方向引入多模态癌症存活分析并受信息论缓解冗余的启发提出了一个新的PIBD框架提供信息视角解决方案以解决多模态数据中巨大的冗余问题。方法整体框架与问题表述图1PIBD框架。病理学和基因组学的患者数据最初被结构化成袋子。原型信息瓶颈PIB选择区分性特征以减少“模态内冗余”。随后原型信息纠缠PID模块将特定信息和通用信息解耦以解决“模态间冗余”问题。图2解缠Transformer。自关注用于建模模态内交互而从联合原型分布中抽样的token则通过交叉关注引导共同信息提取给定第i个患者多模态数据包括病理数据xih和基因组数据xig我们旨在通过估计一个风险函数fihazardt代表时间点t死亡的风险概率来预测患者的生存结果。图1展示了我们PIBD的整体框架。 我们从提取病理和基因组学数据的单模表示开始。沿用前作中病理性 WSI 和基因组通路的共同设定Chen 等2021;Jaume 等2023我们将 xi h 和 xi g 公式化为基于第 i 个患者的多实例学习MIL的“袋子”分别记为 xi h {xi hj ∈ Rd}Mh j1 和 xi g {xi gj ∈ Rd}Mg j1 其中Mh是WSI的斑块数Mg是生物通路的数量。 为解决“模态内冗余”我们提出了典型信息瓶颈PIB详见第3.2节用于为每种模态选择判别实例。随后为了减少“模态间冗余”我们提出了第3.3节中解释的典型信息纠缠PID。PID将多模态数据分解为独立的模态-共同表示C和模态特有的表示分别表示组织学的Sh和Sg以及基因组模态。最后解耦的紧致表示将被串接得到最终的多模特征H用于生存风险预测。生存预测是在特定时间之前估计结果事件的风险概率。然而结果并非总是被观察到导致数据被右遮。我们用c ∈ {0 1}表示审查状态c 0表示观察到死亡c 1表示未知结局离散生存时间t∈{1 2 ... Nt}对应特定风险区间。对于第1位患者的病理-基因组学对xi h xi g ti ci获得的最终多模态特征Hi我们使用NLL损失Zadeh 和 Schmid 2020作为生存率损失函数遵循之前的研究Chen 等2021;徐 陈2023典型的信息瓶颈为解决“模态内冗余”问题我们引入了信息瓶颈并提出了一种新的变体称为原型信息瓶颈PIB。信息瓶颈的初步报告。IB引入了一个新的表示变量Z该变量在最大化关于目标Y的表达性同时压缩输入X的原始信息。因此待最大化的目标函数在Tishby等2000中给出为其中N表示样本量qθy|z是难解似然py|z的变分近似pz|x是z上的后验分布rz是先验概率pz的近似。在实际操作中rz 通常被假定为球面高斯分布Alemi 等2016。而且后验分布 Pz|x 可以变分近似为典型的信息瓶颈。IB似乎提供了一个希望的解决方案以减少模态内冗余。然而在我们的任务中模态数据x被组织成包含多个实例的“袋子”。通过IB学习一个紧致袋一个可能的解决方案是直接使用VIB中方程4的变分近似qθz|x来学习袋中每个实例x∈x的表示。然而这种解决方案有两个缺点。首先基于如此多个实例分布推导整个袋子 pz|x 的整体分布具有挑战性这带来了高维计算挑战。也就是说方程3中第二项中高维x的后验分布pz|x是不可解的。其次由于每个实例的分布是单独学习的很难捕捉代表紧凑袋的袋级信息。因此我们提出了典型信息瓶颈PIB方法直接近似袋级分布pz|x用一组原型表示的参数分布pzˆ记作P {N zˆ; μy Σy}2Nt y1包括审查和未审查数据的场景。为了捕捉任务目标的判别性信息每个原型应表示其对应风险区间y的条件概率分布pzˆ|y N zˆ; μy Σy。然后袋子的实例z期望以相同的标签y接近zˆ。因此方程4中变分近似的目标应为为实现这一目标我们最大化pzˆ与潜在特征z fEx空间分布之间的相似性在多个实例中MLP作为表示编码器fE·将输入x映射为潜在特征z。因此我们只需优化袋子x的参数化原型zˆ和fE·而不是为每个袋子实例建模pz|x。 具体来说为了对齐潜在特征z和参数原型zˆ的分布我们首先通过蒙特卡洛采样从不同原型中抽样为了简化数学符号假设每个原型只抽样一次。然后我们尝试最大化正原型zˆ带有真实标签与最相关实例之间的相似性同时将这些实例与其他负面原型zˆ−的相似度降到最低。例如给定第i个患者数据袋子特征zi fExi {zi m }M m1特征 ˆzi {zˆi n }2Nt n1其中M是袋子xi中的实例数2Nt是原型数量。然后我们测量每个原型zˆi n和bag zi之间的相似性公式为为了回顾IB的目标我们将原型Zˆ替换到方程2中的IB目标函数中。在得到方程5中pz|x y或pz|x的近似pzˆ|y后我们可以像从式2到方程3进行类似推导详见附录B.2.2得到PIB的目标损失函数具体如下其中第一项是学习判别特征时的交叉熵损失。由于我们处理的是包含生存时间和审查状态标签的生存预测任务我们使用任务损失NLL作为第一项的备选。最后结合近似项Lpro我们得到PIB的总损耗函数最小化如下其中Nzˆ;μn Σn pzˆ|yn、α、β、γ是控制物品影响的超参数。因此建模的PIB可以指导提取判别特征并去除以袋形式组织的每种模态的冗余信息典型的信息纠缠在消除单模态源冗余后我们提出了一个原型信息纠缠PID模块用于解耦共享和特定表示解决“模态间冗余”问题。假设PIB选中的实例为z ̃i h和z ̃i g我们希望将纠缠的多模态数据分解为理想独立的模态-共同特征Ci和模态特定特征Si h Si g 。为此我们重复使用PIB建模的联合原型分布以提取共同知识。这些共同特征还可以通过独立于这些共享特征强制特定知识作为学习模态特定知识的指导。因此我们最小化了共同因素与特定因素之间的互信息MI以保持模态特异性信息。因此我们的目标是确保每种模态中特定表征的独立性以及共同特征与特定特征之间的独立性。PID的损失函数可以正式表示为其中S 表示通过将每个模态特征 ShSg 连接 Cat· 获得的所有特定表示。由于MI难以解决我们引入上界CLUBCheng等2020以实现MI最小化Chamber Bank中的MI最小化CLUB详情见附录B.3。 为了实现上述损耗我们设计了一个称为解缠变压器如图2所示的解缠层。该变压器模拟输入内的各种相互作用从而获得方程10中所需的特征Sh、Sg和C。我们最初根据联合原型分布表示联合后验分布p z|xh xg来提取共同信息该分布由专家乘积PoECao Fleet 2014定义这是一种通过乘以多个分布“专家”来组合的想法。由于我们之前已获得PIB中的阳性原型该原型近似患者风险区间的分布pz|x因此p z|xh xg可被表述为其中pz是先验分布pz|x大致等于正原型Nzˆ|μ Σ的分布。我们假设先验分布pz是一个球面高斯分布Nz|μ0 Σ0因此可以证明高斯分布的乘积也是一个高斯分布pz|xh xg N z|μc Σc因此我们从 pz|xh xg 中采样以获得共享信息提取的指导令牌。模态-公共表示C随后通过解缠变换器中的交叉注意力提取出来。此外对于模态特定信息自我注意力编码了通路间和贴片间交互其均值表示为Sh、Sg。因此在方程10约束下我们可以同时提取包含特定信息和共同信息的紧致特征。整体损失PIBD的最终损失如下其中Lh P IB和Lg P IB分别代表了病理学和基因组学模态中公式9中所表述的PIB损失推断。推理过程与训练的主要区别在于我们如何找到正面原型。在训练过程中利用已知标签我们可以直接获得PID的联合原型分布。然而在推理中我们需要从原型集合中识别出正的那个。为此我们首先选择用所有原型计算出的相似度更高的实例这些分数均见方程7。这些被选中的实例被视为相关实例。其中相关实例比例最高的原型被视为正面。诸如样本数量和信息保持率等超参数与训练过程保持一致。实验数据集及实现细节我们对TCGA2的五个公开癌症数据集进行了广泛实验乳腺浸润性癌BRCA、膀胱尿路上皮癌BLCA、结肠及直肠腺癌COADREAD、胃腺癌STAD和头颈鳞状细胞癌HNSC。我们跟随Jaume 等2023收集生物通路作为基因组学数据的工作。每个数据集采用五折交叉验证。模型采用索引C指数Harrell Jr等1996及其标准差std来量化正确排序预测患者风险溃疡的性能。我们还可视化了KaplanMeierKMKaplan Meier1958曲线可以显示不同风险组的存活概率。数据集及实验实现的详细信息可见附录C.1。与先进技术的比较我们将该方法与三组SOTA方法进行比较1单模法。在通路数据方面我们采用了MLPHaykin1998、SNNKlambauer等2017和SNNTransKlambauer等2017;Shao等2021作为基因组基线。在组织学方面我们与SOTA的MIL方法比较ABMILIlse等2018、AMISLYao等2020、TransMILShao等2021和CLAMLu等2021。2多模态方法。该组比较了四种SOTA方法PorpoiseChen 等2022b、MCATChen 等2021、MOTCatXu 和 Chen2023和 SurvPathJaume 等2023其中我们采用了两种晚期融合方法包括连接Cat和克罗内克积KP分别用于海豚和MCAT。此外还采用CoxPHCox1972模型对基因组学和组织学中表现最佳方法的风险评分进行了预测级组合。3基于信息论的方法。由于我们的工作提供了多模态癌症存活预测的信息理论视角我们还将其与多视角、多模态及任务特定微调领域的基于信息理论的方法进行比较包括CLAM-SB-FTLi等2023a、MIBFederici等2020、DeepIMVLee 和 Van der Schaar2021和L-MIBMai等2022。请注意尽管 CLAM-SB-FT 是一种基于 IB 的 WSI 方法但它设计在微调框架内不用于多模态生存预测。 比较。从表1的结果可以看出PIBD在五个癌症数据集中整体表现最佳。与单模态方法相比†包括我们的多模态方法在内的大多数多模态方法整体C指数更高表明两种模态的信息都为生存预测提供了极佳的视角和贡献。请注意在多模态方法中所提PIBD在5个基准测试中有4个表现优于2整体C指数比次优方法高出1.6%显示出解决模态内和模态间冗余问题的重要性。然后从基于投行的比较来看方法方面我们的方法在所有癌症数据集上表现优异提升0.5%-4.9%。PIBD充分考虑了弱监督下袋状结构的特性并设计用于多模态癌症存活预测显示其优越性。 Kaplan-Meier分析我们进一步利用统计分析评估方法Kaplan-Meier曲线如图3所示。患者根据预测风险评分分为高风险组和低风险组每个验证组的中位数作为分界线。随后我们利用对数秩检验计算p值评估这些组间差异的统计显著性同时报告各组的中位生存月数。与次优方法SurvPath相比我们的方法显著提升了两组之间的辨别能力。这种效应在BRCA、COADREAD和HNSC数据集中尤为明显且幅度显著。图3预测高风险组红色和低风险组绿色组的Kaplan-Meier曲线。P值0.05表示统计显著性阴影区域代表置信区间。中位生存月数以“高风险平均/低风险平均标准”格式报告。消融实验组件验证。在表2中我们削减了第3.2节和3.3节中提到的设计这些设计被提出用于“模态间冗余”和“模态内冗余”。对于消融PIB我们建立了两个基线一个涉及原始特征的直接平均池AP另一个使用非解缠的TransMIL编码器作为强基线。我们将PIB纳入两个基线以评估PIB所选典型特征的有效性。如表2前四行所示PIB的加入在更高的C指数方面优于基线。这表明学习PIB中多个不同的原型并用它们来过滤任务相关特征可以有效减少每种模态中的重复特征。对于消融PID我们使用非解缠TransMIL配合PIB进行PIBD与基线的比较。最后两行表明将共享和特定信息从多模态数据中分离有效消除了模态间冗余防止融合过程中模态特定信息的丢失显著提升模型性能。此外我们还开展了更多关于附录C.2中参数设置的定量研究。 PIB的可解释性。为验证PIB中学习的原型是否对不同风险区间建模了判别性底层分布我们对每个原型进行随机抽样频率为2000。随后我们利用t-超超方程t-SNE将获得的高维向量约简为二维平面Van der Maaten 和 Hinton2008。如图4所示这些分布表现出极佳的可分离性。此外受Sarkar 等2022干预启发我们在表3所示的推断过程中进行了干预结果显示存在显著差异。可以看出对阳性原型的干预导致C指数显著下降均低于0.5表明预测能力完全丧失。对正原型的干预还会导致错误的引导信号传递到后续的解缠模块PID且原型分布不正确导致性能下降。相反随机移除负面原型时C指数仅略有下降这进一步证明了PIB中识别性风险水平分布建模的有效性。两种模态的相似度评分可视化见附录D。总结本研究旨在探讨受信息理论启发的多模态癌症存活预测并提出了一个名为PIBD的新框架旨在解决“模型内冗余”和“模型间冗余”挑战。首先我们提出了一种典型的信息瓶颈PIB该瓶颈减少冗余同时保留任务相关信息。PIB建模了不同风险区间的原型使我们能够从庞大的实例中选择区分特征缓解“模型内冗余”。此外为了解决“模态间冗余”我们提出了一种原型信息纠缠PID以联合原型分布的指导将独立的模态共同特征和模态特有特征解耦。这些紧凑的功能提供了独特的视角和知识有效提升了网络的性能。此外为了应对任务中固有的高维计算挑战PIB通过最大化真实标签内的余弦相似度近似多个实例来建模原型。在此近似过程中选择合适的相似度指标有助于更好地对齐空间分布这也促使未来研究进一步研究。
多模态癌症存活预测中的信息瓶颈与解缠原型
发布时间:2026/6/10 17:03:15
论文总结1、有开源代码https://github.com/zylbuaa/PIBD.git2、针对多模态融合中模态间信息重复主导了多模态数据的表示导致模态特定信息容易被忽略模态间冗余问题。作者提出了模态内冗余的信息瓶颈变体PIB用于针对不同风险级别的多个实例建模可用于模态内的判别实例选择。PID模态内信息解耦模块用于将纠缠的多模态数据解耦为模态共享知识和模态特有知识。摘要多模态学习显著提升癌症生存预测尤其是病理图像和基因组数据的整合。尽管多模态学习在癌症存活预测方面有优势但多模态数据中的巨大冗余性使其无法提取有辨别性和紧凑的信息1大量模态内任务无关信息模糊了辨别性尤其是对于具有多病理斑块和数千条基因组数据通路的千兆像素全幻灯片图像WSI导致“模态内冗余”问题。2模态间信息重复主导了多模态数据的表示这使得模态特定信息容易被忽略导致“模态间冗余”问题。为解决这些问题我们提出了一个新框架——典型信息瓶颈与解缠PIBD由用于模态内冗余的原型信息瓶颈PIB模块和用于模态间冗余的原型信息纠缠PID模块组成。具体来说提出了一种信息瓶颈变体PIB用于建模针对不同风险级别的多个实例可用于模态内的判别实例选择。PID模块将纠缠的多模态数据解耦为紧凑且独立的组成部分模态-共同知识和模态特定知识并以联合原型分布为指导。对五个癌症基准数据集的广泛实验证明了我们优于其他方法。代码被公开。引言癌症生存分析Cox1975;Jenkins2005;Salerno Li 2023旨在估算患者的预后死亡风险在预后中通过整合组织学信息和基因组分子谱实现多模态学习有助于大多数癌症类型的预后Chen 等2020;2022b;2021;Jaume 等2023;Xu 和 Chen2023。这些方法为患者分层和治疗决策提供了多元视角Zuo等2022。例如组织学图像提供了肿瘤微环境的视觉表型信息例如细胞的组织Jackson 等2020用于不同癌症分级;而基因组学数据则提供了癌症各种分子亚型的全球景观Gy ̋orffy2021。它们协同作用导致不同的生存结果。然而多模态数据中的大量冗余对有效聚变构成了重大挑战。 当前的主要问题是如何通过消除其冗余性即所谓的“模态内冗余”问题捕捉单一模态的辨别信息由多个斑块组成的WSI标签通常在WSI级别提供导致存活预测的监督薄弱。在缺乏精确注释如对 WSI 癌区的贴片标记的情况下模型输入中任务相关和无关信息会混杂导致信息冗余Hosseini 等2023。具体来说关注区域例如高度相关的肿瘤细胞仅占一小部分这是千兆像素WSI中高分辨率约为10万×10万像素的部分Zhu 等2017。对于这种细粒度的视觉识别尽管某些多实例学习MILIlse 等2018;Li 等2021;Yao等2020提出了一些有前景的解决方案但它们不强制约束以去除冗余信息因此难以获得判别性表示。基因组模式中也出现了类似的冗余问题。研究Jaume 等2023;Chen 等2021指出基于生物途径的基因群具有已知的独特细胞功能相互作用与病理特征具有更多语义对应。然而这些通路可产生数百至数千组且只有少数特定通路与患者预后有强烈相关性例如免疫相关通路对膀胱癌预后预测具有显著性Jiang 等2021a。 另一个问题是我们如何从多模态数据中主导的重叠信息中捕捉紧凑而全面的知识这被称为“模态间冗余”问题由于信息重复产生的冗余会使知识提取变得复杂。因此通过解码提取独立因子可以提升特征效能同时剔除多余信息。知识Liang 等2023可以分为几个不同的组成部分模态专属知识和模态-常识。前者包含单一模态独有的信息而后者封装了共同信息并在不同模态间表现出一致性。为了从多模态冗余中获得有效知识现有的努力Chen 等2021;Xu 和 Chen2023侧重整合共同信息强调通过对齐实现的内在一致性。然而共同信息往往主导了对齐和整合多模态信息导致模态特定信息被压制从而忽视了丰富的独特视角。 本研究提出一个新的多模态生存预测框架——原型信息瓶颈与解缠PIBD由用于“模态内冗余”的原型信息瓶颈PIB模块和用于“模态间冗余”的原型信息纠缠PID模块组成。首先信息瓶颈IB提供了一种有前景的解决方案可以压缩自身不必要的冗余同时最大化任务目标的判别信息。然而IB可能会面临由千兆像素WSI大块和数百条路径带来的高维计算挑战。相反我们提出了一种新的IB变异PIB它通过建模不同风险级别的多个实例如病理斑块或基因组学通路的原型指导模态中识别的实例选择。其次PID通过全面分解纠缠的多模态特征消除了模态间冗余并分解为理想情况下独立的模态共同性和模态特异性知识。为此我们重用上述PIB建模的联合原型分布以指导共同知识的提取。同时我们强制该模型学习不同于联合原型分布的知识后者也被视为捕捉特定模态知识的指导。 值得注意的是该方法可扩展到具有袋状结构模态的更多多模态问题中。贡献如下1受信息理论影响以缓解冗余我们提出了一个新的多模态癌症存活框架PIBD以解决“模态内”和“模态间”冗余挑战。2我们设计了一种新的IB变体PIB用于模拟选择判别性信息以减少模态内冗余的原型而PID则通过将多模态数据解耦为不同组件并以联合原型分布为指导解决模态间冗余问题。3对五个癌症基准数据集的广泛实验证明了我们方法优于最先进方法的优势相关工作单一模态的生存预测预测生存风险对于理解癌症进展至关重要。数字病理学Evans 等2018和高通量测序Christinat Krek2015技术的最新进展分别推动了利用 WSI 和基因组数据进行单模态生存预测的活跃研究。为了处理千兆像素图像多实例学习MIL将“袋”定义为多个实例即图像补丁的集合并为学习WSI的全局表示提供了有效方法。MIL方法侧重于实例级预测的聚合Campanella等2019;Feng 和 Zhou2017;Hou 等2016或特征Ilse 等2018。对于前者袋子预测可以通过合并实例的概率值来简单实现。而后者则采用多种策略来获得全局特征例如聚类嵌入Yao 等2020年、与图的贴片相关建模Guan等2022年、注意力权重分配Ilse等2018年;Li 等2021以及通过变换器学习长程相互作用Shao 等2021。此外基因组学数据还提供了对生存预测至关重要的分子信息。通常以1 ×1的测量表示基因组特征可以通过简单的神经网络提取例如MLPHaykin1998和SNNKlambauer等2017。尽管这些基于单模态的方法在特征提取方面取得了显著改进但它们并未对去除冗余信息以捕捉判别特征提供限制。多种模态的生存预测在临床实践中患者通常会结合全面的多模态数据收集如基因组学Klambauer 等2017、病理学Zhu 等2017;Liu 等2022;Chen等2022a放射学Jiang等2021b;Yao等2021等用于诊断和预后因此学习多模态交互Zhang 等2023成为许多研究的重要动机。这些方法大致分为基于张量和基于注意力的融合技术Zhang 等2020。一些基于张量的融合如连接Mobadersany等2018和加权和Huang等2020参数较少结构简单。另外其他基于张量的融合利用双线性池化通过计算特征的外积来创建联合表示空间例如Kroncecker积Wang等2021、分解双线性池化Li等2022。然而这些方法通常用于融合的早期或晚期阶段使得模态间相互作用Chen 等2022b容易被忽视。近年来基于注意力的融合方法侧重于通过共注意力机制学习跨模态相关性Chen 等2021;Zhou 和 Chen2023。例如MCATChen 等2021提出了基因引导的共注意HMCATLi 等2023b设计了放射学引导的共注意MOTCatXu 和 Chen2023引入了最优运输OT以建模全局结构一致性SurvPathJaume 等2023利用交叉注意力建模通路与组织学斑块之间的密集相互作用。虽然某些方法可以通过比对部分缓解冗余但它们容易丢失特定模态信息。多模态学习与信息理论近年来信息理论因其能够提供量化信息的度量而在多模态学习社区中受到越来越多的关注Dai 等2023;梁等2023;Hjelm 等2018。具体来说基于信息瓶颈IB原则的方法Tishby 等2000;Alemi 等2016已成为压缩原始信息同时保留任务相关知识的有效策略这些策略在多视角中也被广泛应用Federici 等2020;Lee 和 Van der Schaar2021以及多模态学习Mai 等2022。此外另一种以信息解缠为中心的方法已被利用来提取定向知识Sanchez 等2020;Cheng 等2022;Chen 等2023促进了更紧凑表示的学习。我们首次将这一方向引入多模态癌症存活分析并受信息论缓解冗余的启发提出了一个新的PIBD框架提供信息视角解决方案以解决多模态数据中巨大的冗余问题。方法整体框架与问题表述图1PIBD框架。病理学和基因组学的患者数据最初被结构化成袋子。原型信息瓶颈PIB选择区分性特征以减少“模态内冗余”。随后原型信息纠缠PID模块将特定信息和通用信息解耦以解决“模态间冗余”问题。图2解缠Transformer。自关注用于建模模态内交互而从联合原型分布中抽样的token则通过交叉关注引导共同信息提取给定第i个患者多模态数据包括病理数据xih和基因组数据xig我们旨在通过估计一个风险函数fihazardt代表时间点t死亡的风险概率来预测患者的生存结果。图1展示了我们PIBD的整体框架。 我们从提取病理和基因组学数据的单模表示开始。沿用前作中病理性 WSI 和基因组通路的共同设定Chen 等2021;Jaume 等2023我们将 xi h 和 xi g 公式化为基于第 i 个患者的多实例学习MIL的“袋子”分别记为 xi h {xi hj ∈ Rd}Mh j1 和 xi g {xi gj ∈ Rd}Mg j1 其中Mh是WSI的斑块数Mg是生物通路的数量。 为解决“模态内冗余”我们提出了典型信息瓶颈PIB详见第3.2节用于为每种模态选择判别实例。随后为了减少“模态间冗余”我们提出了第3.3节中解释的典型信息纠缠PID。PID将多模态数据分解为独立的模态-共同表示C和模态特有的表示分别表示组织学的Sh和Sg以及基因组模态。最后解耦的紧致表示将被串接得到最终的多模特征H用于生存风险预测。生存预测是在特定时间之前估计结果事件的风险概率。然而结果并非总是被观察到导致数据被右遮。我们用c ∈ {0 1}表示审查状态c 0表示观察到死亡c 1表示未知结局离散生存时间t∈{1 2 ... Nt}对应特定风险区间。对于第1位患者的病理-基因组学对xi h xi g ti ci获得的最终多模态特征Hi我们使用NLL损失Zadeh 和 Schmid 2020作为生存率损失函数遵循之前的研究Chen 等2021;徐 陈2023典型的信息瓶颈为解决“模态内冗余”问题我们引入了信息瓶颈并提出了一种新的变体称为原型信息瓶颈PIB。信息瓶颈的初步报告。IB引入了一个新的表示变量Z该变量在最大化关于目标Y的表达性同时压缩输入X的原始信息。因此待最大化的目标函数在Tishby等2000中给出为其中N表示样本量qθy|z是难解似然py|z的变分近似pz|x是z上的后验分布rz是先验概率pz的近似。在实际操作中rz 通常被假定为球面高斯分布Alemi 等2016。而且后验分布 Pz|x 可以变分近似为典型的信息瓶颈。IB似乎提供了一个希望的解决方案以减少模态内冗余。然而在我们的任务中模态数据x被组织成包含多个实例的“袋子”。通过IB学习一个紧致袋一个可能的解决方案是直接使用VIB中方程4的变分近似qθz|x来学习袋中每个实例x∈x的表示。然而这种解决方案有两个缺点。首先基于如此多个实例分布推导整个袋子 pz|x 的整体分布具有挑战性这带来了高维计算挑战。也就是说方程3中第二项中高维x的后验分布pz|x是不可解的。其次由于每个实例的分布是单独学习的很难捕捉代表紧凑袋的袋级信息。因此我们提出了典型信息瓶颈PIB方法直接近似袋级分布pz|x用一组原型表示的参数分布pzˆ记作P {N zˆ; μy Σy}2Nt y1包括审查和未审查数据的场景。为了捕捉任务目标的判别性信息每个原型应表示其对应风险区间y的条件概率分布pzˆ|y N zˆ; μy Σy。然后袋子的实例z期望以相同的标签y接近zˆ。因此方程4中变分近似的目标应为为实现这一目标我们最大化pzˆ与潜在特征z fEx空间分布之间的相似性在多个实例中MLP作为表示编码器fE·将输入x映射为潜在特征z。因此我们只需优化袋子x的参数化原型zˆ和fE·而不是为每个袋子实例建模pz|x。 具体来说为了对齐潜在特征z和参数原型zˆ的分布我们首先通过蒙特卡洛采样从不同原型中抽样为了简化数学符号假设每个原型只抽样一次。然后我们尝试最大化正原型zˆ带有真实标签与最相关实例之间的相似性同时将这些实例与其他负面原型zˆ−的相似度降到最低。例如给定第i个患者数据袋子特征zi fExi {zi m }M m1特征 ˆzi {zˆi n }2Nt n1其中M是袋子xi中的实例数2Nt是原型数量。然后我们测量每个原型zˆi n和bag zi之间的相似性公式为为了回顾IB的目标我们将原型Zˆ替换到方程2中的IB目标函数中。在得到方程5中pz|x y或pz|x的近似pzˆ|y后我们可以像从式2到方程3进行类似推导详见附录B.2.2得到PIB的目标损失函数具体如下其中第一项是学习判别特征时的交叉熵损失。由于我们处理的是包含生存时间和审查状态标签的生存预测任务我们使用任务损失NLL作为第一项的备选。最后结合近似项Lpro我们得到PIB的总损耗函数最小化如下其中Nzˆ;μn Σn pzˆ|yn、α、β、γ是控制物品影响的超参数。因此建模的PIB可以指导提取判别特征并去除以袋形式组织的每种模态的冗余信息典型的信息纠缠在消除单模态源冗余后我们提出了一个原型信息纠缠PID模块用于解耦共享和特定表示解决“模态间冗余”问题。假设PIB选中的实例为z ̃i h和z ̃i g我们希望将纠缠的多模态数据分解为理想独立的模态-共同特征Ci和模态特定特征Si h Si g 。为此我们重复使用PIB建模的联合原型分布以提取共同知识。这些共同特征还可以通过独立于这些共享特征强制特定知识作为学习模态特定知识的指导。因此我们最小化了共同因素与特定因素之间的互信息MI以保持模态特异性信息。因此我们的目标是确保每种模态中特定表征的独立性以及共同特征与特定特征之间的独立性。PID的损失函数可以正式表示为其中S 表示通过将每个模态特征 ShSg 连接 Cat· 获得的所有特定表示。由于MI难以解决我们引入上界CLUBCheng等2020以实现MI最小化Chamber Bank中的MI最小化CLUB详情见附录B.3。 为了实现上述损耗我们设计了一个称为解缠变压器如图2所示的解缠层。该变压器模拟输入内的各种相互作用从而获得方程10中所需的特征Sh、Sg和C。我们最初根据联合原型分布表示联合后验分布p z|xh xg来提取共同信息该分布由专家乘积PoECao Fleet 2014定义这是一种通过乘以多个分布“专家”来组合的想法。由于我们之前已获得PIB中的阳性原型该原型近似患者风险区间的分布pz|x因此p z|xh xg可被表述为其中pz是先验分布pz|x大致等于正原型Nzˆ|μ Σ的分布。我们假设先验分布pz是一个球面高斯分布Nz|μ0 Σ0因此可以证明高斯分布的乘积也是一个高斯分布pz|xh xg N z|μc Σc因此我们从 pz|xh xg 中采样以获得共享信息提取的指导令牌。模态-公共表示C随后通过解缠变换器中的交叉注意力提取出来。此外对于模态特定信息自我注意力编码了通路间和贴片间交互其均值表示为Sh、Sg。因此在方程10约束下我们可以同时提取包含特定信息和共同信息的紧致特征。整体损失PIBD的最终损失如下其中Lh P IB和Lg P IB分别代表了病理学和基因组学模态中公式9中所表述的PIB损失推断。推理过程与训练的主要区别在于我们如何找到正面原型。在训练过程中利用已知标签我们可以直接获得PID的联合原型分布。然而在推理中我们需要从原型集合中识别出正的那个。为此我们首先选择用所有原型计算出的相似度更高的实例这些分数均见方程7。这些被选中的实例被视为相关实例。其中相关实例比例最高的原型被视为正面。诸如样本数量和信息保持率等超参数与训练过程保持一致。实验数据集及实现细节我们对TCGA2的五个公开癌症数据集进行了广泛实验乳腺浸润性癌BRCA、膀胱尿路上皮癌BLCA、结肠及直肠腺癌COADREAD、胃腺癌STAD和头颈鳞状细胞癌HNSC。我们跟随Jaume 等2023收集生物通路作为基因组学数据的工作。每个数据集采用五折交叉验证。模型采用索引C指数Harrell Jr等1996及其标准差std来量化正确排序预测患者风险溃疡的性能。我们还可视化了KaplanMeierKMKaplan Meier1958曲线可以显示不同风险组的存活概率。数据集及实验实现的详细信息可见附录C.1。与先进技术的比较我们将该方法与三组SOTA方法进行比较1单模法。在通路数据方面我们采用了MLPHaykin1998、SNNKlambauer等2017和SNNTransKlambauer等2017;Shao等2021作为基因组基线。在组织学方面我们与SOTA的MIL方法比较ABMILIlse等2018、AMISLYao等2020、TransMILShao等2021和CLAMLu等2021。2多模态方法。该组比较了四种SOTA方法PorpoiseChen 等2022b、MCATChen 等2021、MOTCatXu 和 Chen2023和 SurvPathJaume 等2023其中我们采用了两种晚期融合方法包括连接Cat和克罗内克积KP分别用于海豚和MCAT。此外还采用CoxPHCox1972模型对基因组学和组织学中表现最佳方法的风险评分进行了预测级组合。3基于信息论的方法。由于我们的工作提供了多模态癌症存活预测的信息理论视角我们还将其与多视角、多模态及任务特定微调领域的基于信息理论的方法进行比较包括CLAM-SB-FTLi等2023a、MIBFederici等2020、DeepIMVLee 和 Van der Schaar2021和L-MIBMai等2022。请注意尽管 CLAM-SB-FT 是一种基于 IB 的 WSI 方法但它设计在微调框架内不用于多模态生存预测。 比较。从表1的结果可以看出PIBD在五个癌症数据集中整体表现最佳。与单模态方法相比†包括我们的多模态方法在内的大多数多模态方法整体C指数更高表明两种模态的信息都为生存预测提供了极佳的视角和贡献。请注意在多模态方法中所提PIBD在5个基准测试中有4个表现优于2整体C指数比次优方法高出1.6%显示出解决模态内和模态间冗余问题的重要性。然后从基于投行的比较来看方法方面我们的方法在所有癌症数据集上表现优异提升0.5%-4.9%。PIBD充分考虑了弱监督下袋状结构的特性并设计用于多模态癌症存活预测显示其优越性。 Kaplan-Meier分析我们进一步利用统计分析评估方法Kaplan-Meier曲线如图3所示。患者根据预测风险评分分为高风险组和低风险组每个验证组的中位数作为分界线。随后我们利用对数秩检验计算p值评估这些组间差异的统计显著性同时报告各组的中位生存月数。与次优方法SurvPath相比我们的方法显著提升了两组之间的辨别能力。这种效应在BRCA、COADREAD和HNSC数据集中尤为明显且幅度显著。图3预测高风险组红色和低风险组绿色组的Kaplan-Meier曲线。P值0.05表示统计显著性阴影区域代表置信区间。中位生存月数以“高风险平均/低风险平均标准”格式报告。消融实验组件验证。在表2中我们削减了第3.2节和3.3节中提到的设计这些设计被提出用于“模态间冗余”和“模态内冗余”。对于消融PIB我们建立了两个基线一个涉及原始特征的直接平均池AP另一个使用非解缠的TransMIL编码器作为强基线。我们将PIB纳入两个基线以评估PIB所选典型特征的有效性。如表2前四行所示PIB的加入在更高的C指数方面优于基线。这表明学习PIB中多个不同的原型并用它们来过滤任务相关特征可以有效减少每种模态中的重复特征。对于消融PID我们使用非解缠TransMIL配合PIB进行PIBD与基线的比较。最后两行表明将共享和特定信息从多模态数据中分离有效消除了模态间冗余防止融合过程中模态特定信息的丢失显著提升模型性能。此外我们还开展了更多关于附录C.2中参数设置的定量研究。 PIB的可解释性。为验证PIB中学习的原型是否对不同风险区间建模了判别性底层分布我们对每个原型进行随机抽样频率为2000。随后我们利用t-超超方程t-SNE将获得的高维向量约简为二维平面Van der Maaten 和 Hinton2008。如图4所示这些分布表现出极佳的可分离性。此外受Sarkar 等2022干预启发我们在表3所示的推断过程中进行了干预结果显示存在显著差异。可以看出对阳性原型的干预导致C指数显著下降均低于0.5表明预测能力完全丧失。对正原型的干预还会导致错误的引导信号传递到后续的解缠模块PID且原型分布不正确导致性能下降。相反随机移除负面原型时C指数仅略有下降这进一步证明了PIB中识别性风险水平分布建模的有效性。两种模态的相似度评分可视化见附录D。总结本研究旨在探讨受信息理论启发的多模态癌症存活预测并提出了一个名为PIBD的新框架旨在解决“模型内冗余”和“模型间冗余”挑战。首先我们提出了一种典型的信息瓶颈PIB该瓶颈减少冗余同时保留任务相关信息。PIB建模了不同风险区间的原型使我们能够从庞大的实例中选择区分特征缓解“模型内冗余”。此外为了解决“模态间冗余”我们提出了一种原型信息纠缠PID以联合原型分布的指导将独立的模态共同特征和模态特有特征解耦。这些紧凑的功能提供了独特的视角和知识有效提升了网络的性能。此外为了应对任务中固有的高维计算挑战PIB通过最大化真实标签内的余弦相似度近似多个实例来建模原型。在此近似过程中选择合适的相似度指标有助于更好地对齐空间分布这也促使未来研究进一步研究。