观察性研究混杂偏倚控制【9天实用统计学公益训练营Day3-1】 关注公众号的朋友都知道郑老师我之前连续4年开设了“30天学会医学统计学”从理论到实操一步一步教会大家统计学、SPSS课程。2026年我们对这门课程进行全新升级课程时间大幅度缩短内容大幅度提升我称为9天实用医学统计学公益训练营。课程介绍“9天实用医学统计学”公益训练营即将启动更高效、更高级的统计课本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课不是骗人入坑收费的广告。本课程公益视频课定期开课欢迎您参与学习。欢迎报名本公众号“医学论文与统计分析”后台回复“报名”加入微信学习群吧。Day 3-1 混杂因素与混杂偏倚现在继续带大家学习我们实用统计学的第三章内容--观察性研究的混杂控制。在之前的课程当中我们曾介绍过医学研究常见的研究类型包括实验性研究和观察性研究。观察性研究在因果推断上会遇到很大的问题会碰到诸多偏倚其中典型的就是混杂偏倚。进行数据分析时如果不解决混杂偏倚的问题医学报告就缺乏可信度和可靠性。因此本节我们将重点介绍混杂偏倚如何控制分为以下几个部分混杂因素和混杂偏倚的概念如何利用回归方法控制混杂偏倚DAG方法的理念与工具帮助进行回归变量的筛选利用风暴统计平台进行混杂偏倚控制的操作演示。从统计学关联到因果关联首先介绍混杂因素与混杂偏倚。通过示意图可以看到医学研究如果希望探讨因果关系从得到数据、观察到关联到最后确认因果关联需要做很多工作。首先要进行统计分析从统计学上证明存在统计学关联从而排除随机误差抽样误差。接下来要确定数据的选择偏倚和测量偏倚都得到了控制。另外非常重要的是要通过统计学方法控制混杂偏倚。√三种偏倚的区别有人会问为什么选择偏倚和信息偏倚不重点讲解观察性研究因果推断的偏倚确实包括选择偏倚和信息偏倚也非常普遍存在。不过选择偏倚主要是在设计阶段带来的系统性误差信息偏倚主要是数据采集时带来的信息偏差。这两块内容与统计学关系不是特别紧密与流行病学的关系更加紧密。而混杂偏倚是在数据分析阶段产生的必须结合一定的方法来处理。有些时候在设计阶段就可以控制很大一部分混杂但对于观察性研究在数据分析阶段肯定会遭受到混杂偏倚。这时就需要统计学来解决。√混杂偏倚产生的根本原因观察性研究是自然分组的--暴露组与非暴露组、治疗组与对照组是自然而然分组的。这种自然分组不是随机化很难保证组间可比。暴露组与非暴露组在基线特征上必然存在系统性差异这种系统性差异不是偶然的是必然会存在的。这种系统性差异会扭曲暴露与结局的因果关系从而带来混杂偏倚。√混杂偏倚的定义从定义来看混杂偏倚是指暴露与疾病发生或疾病结局的关联性如回归系数β值、OR值、RR值受到其他因素的干扰--这个其他因素称为混杂因素。带来的干扰就是混杂偏倚即其他因素的效应混在一起很难区分真实效应和其他因素的效应。案例流感疫苗接种于慢阻肺患者住院率的关系以一项调研为例评价流感疫苗接种与慢性阻塞性肺疾病COPD患者住院率的关系。根据研究对象情况将患者分为两组 接种组和未接种组。接种组的群体中70%是60岁以上老年患者未接种组的群体中40%是60岁以上老年患者接种组3年住院率10%未接种组3年住院率20%能否说明接种疫苗的效果好于对照组10%从上述示意图中我们可以直观看到暴露组与对照组的年龄分布不同。暴露组的年龄普遍偏大70%是老年人而对照组只有40%是老年人。暴露组的3年住院率为10%对照组为20%。这种住院率的差异可能是疫苗接种造成的也可能是年龄不同造成的。年龄分组不均衡可能会带来偏差这个偏差就是混杂偏倚。√混杂因素需要满足的三个条件要造成混杂偏倚第三方因素不是随随便便就能成为混杂因素的。它必须满足三个条件第一与暴露因素有关系至少统计学上有关联。第二与结局有因果关系。第三不在暴露因素与结局的因果关系链之间统计学术语不是中介变量。我们用一个示例图来展示若要判定年龄是否为混杂因素年龄必须与暴露因素疫苗有关系年龄与结局住院率有关系年龄不是中介变量年龄不会因为接种疫苗而改变也不会通过改变年龄来影响住院率。三个条件全部成立年龄就是混杂因素。√如何从统计学上界定混杂因素那么怎么界定这些关系呢我们做统计分析大家应该就清楚了。在假设检验里我们可以做差异性分析来探讨关联性也可以用回归或相关分析来探讨关联性。第一种情况与研究因素存在相关关系。比如说我们想分析年龄和疫苗接种有没有关系。疫苗接种是二分类的年龄也是二分类的——是否老年人。这个时候就可以用卡方检验去分析接种组和未接种组当中老年人的分布有没有差异。大家记住一句话有差异即相关。如果P值小于0.05说明两组有统计学差异也就意味着这两个因素之间存在相关关系。第二种情况与结局存在因果关系。这个时候同样可以用t检验、卡方检验也可以用回归分析。具体用哪种回归要看结局变量的类型结局是定量变量 → 线性回归结局是二分类变量 → Logistic回归结局是生存时间资料 → Cox回归第三种情况变量是否在研究因素与结局的因果链之间。这个问题没有什么统计方法可以直接判定要从专业上来判断它是不是中介变量或者混杂因素。实例中的三个条件的判定比方说我们要分析流感疫苗和注意力的关系要判定“是否老年人”是不是混杂因素。第一个条件与研究因素有没有关系想要分析不同接种状态的年龄分布是否不同可以用卡方检验四格表。P值小于0.05说明接种人群老年人比例更高未接种人群非老年人比例更高即年龄和接种状态有关系。差异即相关。第二个条件年龄对住院率有没有影响。做单因素Logistic回归结果发现老年人的住院率更高OR值高达1.99说明年龄与住院率有关系。第三个条件年龄不可能是中介变量。中介变量会受到暴露因素的影响再通过中介因素影响结局。从专业上判断如果年龄是中介变量意味着接种疫苗会改变年龄再改变住院状态这显然不可能。年龄不可能受接种疫苗而改变。类似地性别也不可能受改变。除非做变性手术但那属于另一个变量。一般的年龄和性别不可能是中介变量。所以年龄和性别往往是混杂因素它们与研究因素有关系与结局有关系又不是中介变量。因此一般统计分析需要考虑的混杂因素就是年龄和性别。√分组不均衡与潜在混杂因素的关系混杂因素是三个条件都满足。还有一个类似的概念叫潜在混杂因素它与分组均衡性有直接关系。随机对照研究中研究对象被随机分为实验组和对照组两组基线特征是相似的分组均衡可比。观察性研究中研究对象自然形成两组或多组人群特征不相似分组不均衡。· 分组不均衡意味着什么呢意味着均数、率、构成比存在统计学差异。有差异即相关。同时分组不均衡意味着变量之间存在相关性这就满足了混杂因素的第一或第二个条件。如果某个因素分组不均衡这个因素很可能是混杂因素因为它满足了一个条件。但反过来说分组不均衡不一定是混杂因素。比如对年龄来说接种组和对照组的年龄结构分布是不同的。我们用卡方检验P值小于0.05分组不均衡。分组不均衡意味着接种组和对照组存在差异意味着年龄与暴露因素有关系即混杂因素的第一个条件成立。一个条件成立我们不能直接说它肯定是混杂因素因为还要判定第二个条件。但我们可以认为年龄是潜在的混杂因素。分组不均衡意味着它可能是混杂因素但不一定是。总结两个要点如果某个因素是混杂因素那么它必然是分组不均衡的。如果只是分组不均衡可能只满足了一个条件还需要满足第二个条件才能成为混杂因素。如果一个因素分组不均衡我们称之为潜在混杂因素。其他复杂情况还包括条件一三成立或条件二三成立。但肯定不能是中介变量。√潜在混杂因素的识别意义有人会问每次做数据分析把混杂因素挑出来不就行了吗为什么还要讲潜在混杂因素实际上在统计学或撰写报告时我们不会面面俱到地去严格界定每个因素是否混杂。研究者通常不会严格去界定这个因素是否混杂但会挑选出潜在的混杂因素或者直接从专业上根据已有的文献和先验知识来判定潜在的混杂因素。对于随机对照研究实验组和对照组的基线数据是分组可比的、均衡的那就意味着不存在混杂因素也没有潜在混杂因素。分组均衡意味着可以证明无混杂因素、无混杂偏倚。对于观察性研究可以通过简单的关联性分析做差异或相关分析发现潜在混杂因素。比如说接种组和对照组在年龄、性别、基础疾病等方面P值全部小于0.05意味着它们都是潜在的混杂因素。这样做的好处是写报告时不需要太啰嗦不需要逐一评价与暴露有没有关系、与结局有没有关系。评价的东西越多后续遗漏的信息越多。一般情况下我们通过挑选潜在混杂因素来识别它、控制它。√应对混杂或潜在混杂因素的策略面对混杂和潜在混杂因素有事前法和事后法。事前法在设计阶段控制。例如通过随机分组保证组间均衡就没有混杂了。通过限制或配对限制人群在特定范围如40-50岁或只针对男性则年龄或性别就一致了。配对也是一种限制将年龄相似、性别相同的人一对一配对再分配到两组中这样组间就均衡可比了数据分析时就不需要担心混杂了。事后法在数据分析阶段控制即项目实施完、数据出来后进行分析。事后法包括分层分析、多因素回归、倾向得分等方法。本次课程使用最常见的方法多因素回归和倾向得分方法。√已测混杂与未测混杂的控制在资料分析阶段还需要了解两个概念已测混杂的控制和未测混杂的控制。观察性研究的混杂因素很多。有些因素我们通过调查拿到了信息已测混杂就可以用统计模型去控制最常见的是回归分析还有倾向得分方法。分层分析也是方法之一后续会提到。有些混杂因素存在但我们没有调查到未测混杂就无法用回归或倾向得分等方法来控制了。这时需要更复杂的技术例如工具变量法或敏感性分析阴性对照法。目前更常用的是敏感性分析即评估如果未测混杂存在对结果干扰有多大会不会造成结果逆转从有意义到无意义或从阳性结果到阴性结果。未测混杂的分析比较复杂对初学者来说需要谨慎研究。可以了解一下敏感性分析中的E-value方法。本章总结混杂偏倚本质上是由于组间不均衡导致的因果效应扭曲。判断一个因素是不是混杂因素不需要严格验证三个条件只要它分组不均衡就是潜在的混杂因素就需要在回归模型中进行调整。这是观察性研究数据分析中最核心、最实用的操作思路。最后提醒要学习本推文的完全对应的课程视频请发送关键词“报名”至公众号加入高校公益免费课程群来学习吧。关于郑老师团队及公众号全国较大的医学统计服务平台专注于医学生、医护工作者学术研究统计支持郑老师团队可以提供诸多统计支持各式统计课程、临床试验设计构建预测模型与真实世界研究“双库”保发表训练营、医学数据库挖掘详情联系助教小董咨询微信号aq566665