特征选择利器：手把手教你用Lasso回归在Python中自动筛选重要变量

发布时间：2026/5/28 13:00:06

特征选择利器手把手教你用Lasso回归在Python中自动筛选重要变量在机器学习项目中我们常常面临特征数量远多于样本量的情况。比如在房价预测中可能收集了50个特征地理位置、房龄、周边设施等但只有200条交易记录。传统线性回归在这种高维数据中容易过拟合且难以解释哪些特征真正影响房价。这时Lasso回归凭借其自动特征选择能力脱颖而出——它能将不重要特征的系数压缩为零生成一个既简洁又可解释的模型。与常规线性回归不同Lasso通过在损失函数中添加L1正则化项即系数绝对值之和实现特征筛选。这种系数压缩机制使其特别适合医疗诊断中从数百个检测指标找出关键病因金融风控中识别真正影响违约率的用户行为特征营销分析中确定最有效的广告投放渠道下面我们通过Python实战演示如何用Lasso从杂乱特征中提取黄金变量。1. 理解Lasso的数学本质1.1 正则化之战L1 vs L2两种主流正则化方法对比特性Lasso (L1)Ridge (L2)正则化项∑|β|∑β²系数压缩效果可精确至零接近但不等于零适用场景特征选择处理共线性计算复杂度需特殊优化算法解析解可用关键差异L1正则化的菱形约束域会使最优解出现在坐标轴上导致某些系数归零。这就像在特征空间中做硬筛选而L2的圆形约束域只会让系数均匀缩小。1.2 系数路径可视化随着正则化强度λ增大观察系数变化from sklearn.linear_model import Lasso import numpy as np import matplotlib.pyplot as plt # 生成模拟数据 np.random.seed(42) X np.random.randn(100, 10) y X np.array([3, 2, 0, 0, -1, 0, 0, 0, 0, 0]) np.random.randn(100)*0.5 alphas np.logspace(-3, 1, 100) coefs [] for a in alphas: lasso Lasso(alphaa, fit_interceptFalse) lasso.fit(X, y) coefs.append(lasso.coef_) plt.figure(figsize(10,6)) ax plt.gca() ax.plot(alphas, coefs) ax.set_xscale(log) plt.xlabel(Lambda (log scale)) plt.ylabel(Coefficients) plt.title(Lasso Coefficient Paths) plt.show()这张图清晰显示当λ较小时左侧所有特征都有贡献随着λ增大6个无关特征的系数归零最终只有3个真实信号特征保留2. Python实战从数据到特征筛选2.1 数据准备与基线模型使用sklearn内置的糖尿病数据集演示from sklearn.datasets import load_diabetes from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error data load_diabetes() X, y data.data, data.target # 标准线性回归 lr LinearRegression() lr.fit(X, y) print(原始特征数:, X.shape[1]) print(非零系数数:, np.sum(lr.coef_ ! 0)) print(MSE:, mean_squared_error(y, lr.predict(X)))此时所有10个特征都被保留但其中可能包含噪声。2.2 Lasso模型调优关键步骤步骤1交叉验证选择最优αfrom sklearn.linear_model import LassoCV # 自动寻找最佳alpha lasso_cv LassoCV(alphasnp.logspace(-4, 0, 100), cv5) lasso_cv.fit(X, y) print(最优alpha:, lasso_cv.alpha_)步骤2筛选重要特征selected np.where(lasso_cv.coef_ ! 0)[0] print(保留特征索引:, selected) print(特征重要性:, lasso_cv.coef_[selected]) # 对比特征名称 print(重要特征:, [data.feature_names[i] for i in selected])典型输出可能显示只保留了bmi、bp、s5等关键生理指标。步骤3模型评估from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2) lasso Lasso(alphalasso_cv.alpha_) lasso.fit(X_train, y_train) print(测试集MSE:, mean_squared_error(y_test, lasso.predict(X_test))) print(非零系数:, np.sum(lasso.coef_ ! 0))注意Lasso对特征缩放敏感建议预先做标准化处理。sklearn的Lasso内置normalize参数已可自动处理。3. 高级技巧与陷阱规避3.1 处理高相关特征组当多个特征高度相关时Lasso可能随机选择其中一个。这时可考虑弹性网络(ElasticNet)结合L1和L2正则化from sklearn.linear_model import ElasticNetCV enet ElasticNetCV(l1_ratio0.5) # 平衡L1/L2 enet.fit(X, y)分组Lasso将相关特征作为组处理from sklearn.linear_model import GroupLasso groups [0,0,1,1,2,2,3,3,4,4] # 假设分组 gl GroupLasso(groupsgroups) gl.fit(X, y)3.2 分类问题中的Lasso通过Logistic回归结合L1正则化from sklearn.linear_model import LogisticRegression from sklearn.datasets import load_breast_cancer cancer load_breast_cancer() X, y cancer.data, cancer.target log_l1 LogisticRegression(penaltyl1, solverliblinear) log_l1.fit(X, y) print(非零系数:, np.sum(log_l1.coef_ ! 0))3.3 常见错误排查表问题现象可能原因解决方案所有系数归零α值过大减小α或标准化数据特征选择不稳定数据量不足增加样本或使用bootstrap重要特征被剔除特征间高度相关改用弹性网络或先做特征聚类测试集性能骤降数据泄露确保预处理只在训练集进行4. 行业应用案例深度解析4.1 金融风控中的变量筛选某银行信用卡违约预测模型原始使用200特征包括用户基本信息年龄、职业等消费行为月均消费额、消费品类等信用历史逾期次数、查询次数等应用Lasso后筛选出核心15个特征模型性能提升23%同时减少数据收集成本提升模型可解释性降低计算资源消耗关键筛选结果重要特征 [ 近3月逾期次数, 信用卡利用率, 月收入负债比, 夜间娱乐消费占比 ]4.2 医疗诊断中的生物标记物发现在阿尔茨海默症预测研究中从500蛋白质表达量中筛选出7个关键生物标记物Aβ42脑脊液中含量pTau磷酸化程度NFL神经纤维轻链YKL-40炎症指标研究团队通过Lasso确定的生物标记物组合使诊断准确率从68%提升到89%同时大幅降低检测成本。4.3 电商推荐系统优化某平台用Lasso分析用户100行为特征后发现真正影响购买转化的关键行为视频完播率80%的内容深夜浏览23:00-2:00同类商品对比次数3-5次最优基于这些发现平台调整推荐策略转化率提升17%。

OpenMetadata与MySQL实战深度：解决企业元数据孤岛的技术指南

OpenMetadata与MySQL实战深度：解决企业元数据孤岛的技术指南【免费下载链接】OpenMetadata OpenMetadata is a unified metadata platform for data discovery, data observability, and data governance powered by a central metadata repository, in-depth colu…

2026/5/28 12:59:45 阅读更多

从电机控制到新能源并网：三相电压型逆变器的核心算法SVPWM，到底怎么玩？

从电机控制到新能源并网：三相电压型逆变器的核心算法SVPWM深度解析在电力电子技术领域，三相电压型逆变器犹如一位多面手，既能精准控制电机转速，又能高效管理新能源发电。这种看似简单的六开关拓扑结构，通过SVPWM&…

2026/5/28 12:59:45 阅读更多

基于ChatGPT与ROS的拟人化机器人：从感知到执行的具身智能实践

1. 项目概述：一个能听、能看、能聊的实体机器人伙伴如果你对让ChatGPT这类大语言模型从屏幕里“走出来”，变成一个能转动眼睛、追踪你、并和你面对面聊天的物理实体感兴趣，那么这个项目就是为你准备的。BotGPT，或者说“基于ChatGP…

2026/5/28 12:59:45 阅读更多

AI和大模型——AI的开发者技能

本文针对AI行业的火爆趋势，详细介绍了开发人员如何快速转行进入AI领域。文章指出，虽然AI行业对学历和技能要求较高，但仍有途径可以进入。主要介绍了入门级应用技术、搭建RAG系统、本地小模型部署和工程优化、大模型运维等方面的技能要求。同时…

2026/5/28 15:59:18 阅读更多

基于无人机观测的高光谱 BRDF 可表征平坦沙漠地表的光学特性：与实验室和卫星数据的综合对比研究

Hyperspectral BRDF based on UAV measurements can characterize optical properties of flat desert surfaces: A comprehensive comparison with laboratory and satellite data研究单位：东北师范大学摘要：沙漠是陆地生态系统的重要组成部分&#xff…

2026/5/28 15:59:18 阅读更多

找背景音乐不用愁！9个高质量素材库整理分享

短视频、vlog、商用项目找背景音乐，合规清晰的素材库是首选国内主流综合性素材库中，光厂是背景音乐储备比较全面的平台之一不同使用场景对背景音乐的版权要求不同，选库时需优先确认授权范围分类清晰的素材库，能帮创作者节省至少30…

2026/5/28 15:58:57 阅读更多

利用 Taotoken 为开源 GitHub 工作流提供自动化 AI 代码审查能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度利用 Taotoken 为开源 GitHub 工作流提供自动化 AI 代码审查能力为开源项目配置自动化的代码审查是提升代码质量和开发效率的有效…

2026/5/28 15:58:17 阅读更多

【CDA干货】如何做到全面的业务问题分析，5W2H + 多维分析 + AI，帮你在汇报中出彩

作者：张九领，CDA二级持证人分析业务问题和汇报的能力决定了你在职场的高度，这也是我们在工作学习和进步中必须迈过去的坎。为什么前辈们在组织分析问题和汇报时总是能够思路清晰，滔滔不绝，全面且有深度，他们…

2026/5/28 15:58:16 阅读更多

对比直接使用官方API，Taotoken在接入便捷性上的优势

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度对比直接使用官方API，Taotoken在接入便捷性上的体验在开发基于大模型的应用时，接入不同的模型服务往往意味…

2026/5/28 15:57:56 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/28 13:05:45 阅读更多

相关文章

OpenMetadata与MySQL实战深度：解决企业元数据孤岛的技术指南

从电机控制到新能源并网：三相电压型逆变器的核心算法SVPWM，到底怎么玩？

基于ChatGPT与ROS的拟人化机器人：从感知到执行的具身智能实践

AI和大模型——AI的开发者技能

基于无人机观测的高光谱 BRDF 可表征平坦沙漠地表的光学特性：与实验室和卫星数据的综合对比研究

找背景音乐不用愁！9个高质量素材库整理分享

利用 Taotoken 为开源 GitHub 工作流提供自动化 AI 代码审查能力

【CDA干货】如何做到全面的业务问题分析，5W2H + 多维分析 + AI，帮你在汇报中出彩

对比直接使用官方API，Taotoken在接入便捷性上的优势

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

Windows Defender终极恢复指南：5种强力方法解决禁用问题

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥