样本选择偏差：为什么按结果变量筛选样本会让 OLS 有偏？

发布时间：2026/6/9 9:27:43

温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。作者孙晓艺 (厦门大学)邮箱sunnalzu202107163.com分类因果推断Title: 样本选择偏差为什么按结果变量筛选样本会让 OLS 有偏Keywords: Heckman模型, 样本选择偏误, 逆米尔斯比率, IMR, Mills Ratio, selection bias, sample selection bias提要本文通过蒙特卡洛模拟表明样本选择偏差不是简单由「删掉一部分观测」造成的而是由样本进入规则是否改变误差项与解释变量的关系决定。文章提供 Stata 复现代码并进一步介绍 Heckman 两步法、逆 Mills 比率和 mroz.dta 实例。Source本文参考 Ben Davies 的博客文章 Understanding selection bias 改写并补充 Stata 复现代码。特此致谢。1. 问题删样本为什么可能让回归有偏实证研究中删样本很常见。我们可能只保留有工资收入的个体来估计教育回报只保留上市公司来研究企业绩效也可能只分析销售额、利润或出口额为正的企业。很多时候研究者会担心这种样本筛选会带来「样本选择偏差」(sample selection bias)。但需要说明的是删样本本身并不必然导致 OLS 有偏。真正关键的是进入样本的规则是否与回归方程中的不可观测误差项有关。本文用一个最小模拟例子说明这个问题。假设真实模型为yiβxiuiyiβxiui其中β1β1xixi 与 uiui 相互独立。现在比较两种样本限制只保留 xi≥0xi≥0 的观测只保留 yi≥0yi≥0 的观测。结果会看到第一种限制基本不会破坏 OLS 的无偏性而第二种限制会使 OLS 估计值明显低于真实参数。这个差异揭示了样本选择偏差的核心机制样本进入规则是否把误差项 uiui 带进了选择过程。2. 一个最小模拟例子设数据生成过程为yiβxiui,β1yiβxiui,β1其中xixi 和 uiui 均服从标准正态分布且二者相互独立xi∼N(0,1),ui∼N(0,1),xi⊥uixi∼N(0,1),ui∼N(0,1),xi⊥ui在这个设定下OLS 估计量可以写为β^Cov⁡(x,y)Var⁡(x)β^Var(x)Cov(x,y)由于真实模型为 yixiuiyixiui且 xixi 与 uiui 独立因此在完整样本中Cov⁡(x,y)Cov⁡(x,xu)Var⁡(x)Cov⁡(x,u)Var⁡(x)Cov(x,y)Cov(x,xu)Var(x)Cov(x,u)Var(x)所以总体意义上有βCov⁡(x,y)Var⁡(x)1βVar(x)Cov(x,y)1需要区分的是β1β1 是真实参数在一次有限样本模拟中得到的 β^β^ 可能不等于 1。例如原文使用 n100n100 的随机模拟得到β^1.138795β^1.138795这个数不是新的真实参数而只是一次模拟中的样本估计值。若重复模拟很多次β^β^ 的平均值会接近真实参数 1。3. 只保留 xi≥0xi≥0为什么 OLS 仍然近似无偏先看第一种样本限制只保留 xi≥0xi≥0 的观测。定义选择变量Six1{xi≥0}Six1{xi≥0}此时进入样本的条件只取决于解释变量 xixi。由于在原始数据生成过程中 xixi 与 uiui 独立即使只保留 xi≥0xi≥0 的观测也不会改变误差项相对于 xixi 的条件均值E(ui∣xi,Six1)E(ui∣xi)0E(ui∣xi,Six1)E(ui∣xi)0这意味着在这个特定设定下选择 xi≥0xi≥0 的样本不会破坏 OLS 的关键外生性条件。直观地说虽然样本变小了xixi 的分布也变了但误差项 uiui 并没有因为这个选择规则而系统性地变大或变小。因此用这个子样本估计 yiyi 对 xixi 的回归仍然可以得到接近真实值的斜率估计。原文模拟结果显示在只保留 xi≥0xi≥0 的样本中OLS 估计值约为β^1.02β^1.02它与真实参数 β1β1 非常接近。4. 只保留 yi≥0yi≥0为什么 OLS 明显有偏再看第二种样本限制只保留 yi≥0yi≥0 的观测。定义选择变量Siy1{yi≥0}Siy1{yi≥0}由于 yixiuiyixiui所以上式等价于Siy1{xiui≥0}Siy1{xiui≥0}这时选择规则不再只取决于解释变量 xixi而是同时取决于误差项 uiui。这正是问题所在。如果 xixi 很低一个观测要进入 yi≥0yi≥0 的样本就必须有较高的 uiui 来抵消较低的 xixi如果 xixi 很高那么即使 uiui 较低该观测也可能进入样本。因此在被选择出来的样本中xixi 与 uiui 会被选择机制诱导出负相关关系。换句话说完整样本中 xixi 与 uiui 独立但在 yi≥0yi≥0 的子样本中二者不再独立。OLS 所需要的外生性条件被破坏E(ui∣xi,Siy1)≠0E(ui∣xi,Siy1)0这就是样本选择偏差的核心。不是因为样本少了也不是因为只看了 yiyi 为正的观测本身有什么神秘之处而是因为这个选择条件把误差项 uiui 纳入了样本进入机制。下图用一个白板示意图概括了这三种情形的差异。左图是完整样本中图只保留 xi≥0xi≥0右图只保留 yi≥0yi≥0。关键区别不在于删掉了多少样本而在于是否把误差项 uiui 带入了样本选择过程。在 yi≥0yi≥0 的子样本中可以把 uiui 对 xixi 做一个线性投影uiρxiεiuiρxiεi其中ρ0ρ0 表示在被选择样本中 xixi 与 uiui 的负相关关系εiεi 是与 xixi 不相关的残差项。把这个式子代入原始模型yiβxiuiyiβxiui可得yi(βρ)xiεiyi(βρ)xiεi因此在 yi≥0yi≥0 的样本中OLS 估计到的不是 ββ而是 βρβρ。由于 ρ0ρ0所以估计值会低于真实参数 ββ。原文模拟结果显示在只保留 yi≥0yi≥0 的样本中β^0.356β^0.356同时由于这是模拟数据我们能观察到真实误差项 uiui因此可以计算ρ^Cov⁡(u,x)Var⁡(x)≈−0.644ρ^Var(x)Cov(u,x)≈−0.644于是β^−ρ^≈0.356−(−0.644)1β^−ρ^≈0.356−(−0.644)1这说明 β^β^ 偏离真实参数的原因正是选择机制诱导出的 ρ^ρ^。不过在真实实证研究中研究者通常观测不到 uiui因此无法直接估计 ρ^ρ^ 并把真实参数反推出来。5. 用 Stata 复现这个例子下面给出一份可以直接运行的 Stata 代码。代码分为三步生成模拟数据、比较三类样本的 OLS 斜率、画图展示选择机制。温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。

anniversary

they had split up before their wedding anniversary. her brother in law passed away last year. she looks so young,but she has six great grandchildren.

2026/6/9 9:27:43 阅读更多

AI编程17-PLC开发太慢？Vibecoding让周期从2周缩至3天

「知识图谱生成工具」：一键将文件夹内容变身为交互式知识图谱的免安装桌面工具（文末附免费下载链接）-CSDN博客 CSDN AI数字营销功能实测：CSDN AI内容创作，10分钟从技术选题到成文，技术博主最值得开通的功能…

2026/6/9 9:27:43 阅读更多

MuleSoft+LLM企业级AI编排实战：数据治理、安全与生产落地

1. 项目概述：当企业级集成平台遇上大语言模型“AI Orchestration in Action: How MuleSoft and LLMs Fuel the Future of Enterprise AI”——这个标题不是一句空泛的营销口号，而是我在过去18个月里亲手搭建、上线并持续迭代的三个核心生产系统的真实写照…

2026/6/9 9:27:00 阅读更多

终极音乐解锁神器：ncmdumpGUI，一键释放被锁音乐，实现跨设备自由播放

终极音乐解锁神器：ncmdumpGUI，一键释放被锁音乐，实现跨设备自由播放【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换，Windows图形界面版本项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否…

2026/6/9 10:32:24 阅读更多

如何用GetQzonehistory完整备份你的QQ空间历史说说：终极免费指南

如何用GetQzonehistory完整备份你的QQ空间历史说说：终极免费指南【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾经担心QQ空间里那些记录青春岁月的说说、照片和评论…

2026/6/9 10:32:24 阅读更多

文件管理：让AI安全操作你的电脑 ——CogitoAgent开发实战（三）

文件管理：让AI安全操作你的电脑 ——CogitoAgent开发实战（第3篇） 📖 本文是专栏的第三篇。上一篇我们讲了工具系统的整体架构，给AI装上了一双手。但有了手之后，我们要解决两个更根本的问题：这双…

2026/6/9 10:31:43 阅读更多

多维聚合中的数据操纵：从立方体切片到细胞级编程

1. 项目概述：这不是简单的“分组求和”，而是多维数据世界的导航仪你有没有遇到过这样的场景：销售报表里要同时按“地区产品线季度”三个维度看销售额，还要在每个交叉格子里显示同比变化、环比变化、完成率、TOP3客户贡献占比——不…

2026/6/9 10:31:43 阅读更多

提示工程入门：从人机对话契约到结构化指令设计

1. 这不是“写提示词”，而是重建人与AI的对话契约“Mastering Prompt Engineering: A Beginner’s Guide to AI Interaction”这个标题里藏着一个被严重低估的事实：它根本不是教你怎么“哄”AI、怎么“猜”模型、怎么堆砌形容词凑出一段看似聪明的指令。…

2026/6/9 10:31:01 阅读更多

Anthropic推理层蒸发：零GPU成本的语义调度架构

1. 项目概述：这不是一次普通更新，而是一次架构级“蒸发”“Anthropic Just Shipped the Layer That’s Already Going to Zero”——这个标题乍看像科技媒体的夸张标题党，但如果你在2023—2024年深度跟进大模型推理链路、成本结构与部署实践&…

2026/6/9 10:29:17 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…