不是模型不行，是你没做好特征工程（附完整步骤）

发布时间：2026/5/20 9:34:14

来源DeepHub IMBA 本文约1800字建议阅读5分钟本文介绍了特征工程全流程含数据处理、特征构造与选择。Feature engineering 是机器学习 pipeline 里最关键的一环。算法再好如果输入数据噪声大、不一致或者缺乏有意义的特征模型表现都不会很好。这篇文章用 Pandas 和 Scikit-learn把一条完整的 feature engineering pipeline 做个完整的介绍。什么是 Feature Engineering把原始数据转换成有意义的输入变量特征让机器学习模型表现更好——这就是 feature engineering。Step 1 — 探索性数据分析EDA动手做特征之前先把数据看明白。import pandas as pd import numpy as np np.random.seed(42) df pd.DataFrame({ Age: [25, 30, np.nan, 40, 35, 120, 28], Salary: [50000, 60000, 55000, 80000, np.nan, 1000000, 62000], Gender: [Male, Female, Female, np.nan, Male, Male, Female], City: [NY, LA, NY, SF, np.nan, LA, SF], Experience: [1, 3, 2, 10, 7, 25, 4], Date: pd.date_range(start2024-01-01, periods7), Target: [0, 1, 0, 1, 0, 1, 0] }) print(df) print(df.head()) print(df.info()) print(df.describe())检查缺失值print(df.isnull().sum())查看分布import matplotlib.pyplot as plt df.hist(figsize(12, 10)) plt.show()Step 2 — 缺失值填补缺失值会拉低模型准确率。均值 / 中位数填补from sklearn.impute import SimpleImputer imputer SimpleImputer(strategymedian) df[Age] imputer.fit_transform(df[[Age]])众数填补cat_imputer SimpleImputer(strategymost_frequent) df[City] cat_imputer.fit_transform(df[[City]])KNN 填补from sklearn.impute import KNNImputer knn_imputer KNNImputer(n_neighbors5) numeric_cols df.select_dtypes(include[int64, float64]) df[numeric_cols.columns] knn_imputer.fit_transform(numeric_cols)Step 3 — 类别编码模型只认数字不认文本。Label Encodingfrom sklearn.preprocessing import LabelEncoder encoder LabelEncoder() df[Gender] encoder.fit_transform(df[Gender])One-Hot Encodingdf pd.get_dummies(df, columns[City], drop_firstTrue)使用 Scikit-learn OneHotEncoderfrom sklearn.preprocessing import OneHotEncoder ohe OneHotEncoder(handle_unknownignore)Step 4 — 异常值检测与处理异常值会扭曲模型的学习过程。用 IQR 检测异常值Q1 df[Salary].quantile(0.25) Q3 df[Salary].quantile(0.75) IQR Q3 - Q1 lower Q1 - 1.5 * IQR upper Q3 1.5 * IQR outliers df[(df[Salary] lower) | (df[Salary] upper)] print(outliers)移除异常值df df[(df[Salary] lower) (df[Salary] upper)]Winsorization from scipy.stats.mstats import winsorize df[Salary] winsorize(df[Salary], limits[0.05, 0.05])Step 5 — 特征缩放与归一化不同量纲的特征会影响模型表现。StandardScalerfrom sklearn.preprocessing import StandardScaler scaler StandardScaler() df[[Age, Salary]] scaler.fit_transform(df[[Age, Salary]])MinMaxScalerfrom sklearn.preprocessing import MinMaxScaler minmax MinMaxScaler() df[[Age, Salary]] minmax.fit_transform(df[[Age, Salary]])RobustScaler数据里有异常值时使用。from sklearn.preprocessing import RobustScaler robust RobustScaler() df[[Age, Salary]] robust.fit_transform(df[[Age, Salary]])Step 6 — 特征构造与变换构造出有意义的特征往往是准确率拉升最明显的一步。日期特征抽取df[Date] pd.to_datetime(df[Date]) df[Year] df[Date].dt.year df[Month] df[Date].dt.month df[Day] df[Date].dt.day多项式特征from sklearn.preprocessing import PolynomialFeatures poly PolynomialFeatures(degree2) poly_features poly.fit_transform(df[[Age, Experience]])数值变量分箱df[Age_Group] pd.cut( df[Age], bins[0, 18, 35, 60, 100], labels[Teen, Young, Adult, Senior] )Step 7 — 特征选择挑出真正重要的特征可以减少过拟合也能让模型跑得更快。基于相关系数的选择import seaborn as sns corr df.corr(numeric_onlyTrue) sns.heatmap(corr, annotTrue)SelectKBestfrom sklearn.feature_selection import SelectKBest, f_classif X df.drop(Target, axis1) y df[Target] selector SelectKBest(score_funcf_classif, k5) X_new selector.fit_transform(X, y)递归特征消除RFEfrom sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression model LogisticRegression() rfe RFE(model, n_features_to_select5) X_rfe rfe.fit_transform(X, y)Pipeline 把预处理自动化也能降低数据泄露的风险。完整 Pipeline 示例from sklearn.pipeline import Pipeline from sklearn.compose import ColumnTransformer from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.impute import SimpleImputer from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split X df.drop(Target, axis1) y df[Target] numeric_features [Age, Salary, Experience] categorical_features [Gender, City] numeric_transformer Pipeline(steps[ (imputer, SimpleImputer(strategymedian)), (scaler, StandardScaler()) ]) categorical_transformer Pipeline(steps[ (imputer, SimpleImputer(strategymost_frequent)), (onehot, OneHotEncoder(handle_unknownignore)) ]) preprocessor ColumnTransformer( transformers[ (num, numeric_transformer, numeric_features), (cat, categorical_transformer, categorical_features) ] ) model_pipeline Pipeline(steps[ (preprocessor, preprocessor), (classifier, LogisticRegression(max_iter1000)) ]) X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.2, random_state42 ) model_pipeline.fit(X_train, y_train) print(Model trained successfully)总结Feature engineering 是机器学习项目能否成立的基石。干净、变换过、有意义的特征往往胜过用劣质数据训练的复杂算法。上面把这些步骤都做扎实模型的准确率和稳健性都会上一个台阶。在真实的机器学习项目里feature engineering 往往比挑哪个模型更决定胜负。特征做得好预测自然好。by Dhivakar编辑于腾凯校对李嘉林关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

Jable视频下载神器：Chrome插件+本地下载器终极方案

Jable视频下载神器：Chrome插件本地下载器终极方案【免费下载链接】jable-download 方便下载jable的小工具项目地址: https://gitcode.com/gh_mirrors/ja/jable-download 还在为无法离线观看Jable.tv上的精彩内容而烦恼吗？想要轻松将喜欢的视频保…

2026/5/20 9:33:54 阅读更多

AMD Ryzen调试工具终极指南：免费开源硬件调优神器SMUDebugTool

AMD Ryzen调试工具终极指南：免费开源硬件调优神器SMUDebugTool 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: ht…

2026/5/20 9:33:54 阅读更多

Palantir Ontology 深度解析：是什么、架构、工作原理、AI 大模型融合逻辑

Palantir Ontology 深度解析：是什么、架构、工作原理、AI 大模型融合逻辑先一句话通俗定义：Palantir Ontology 是一套面向企业 / 政府复杂异构数据的「统一语义数据层知识图谱底座数据治理中枢」，不是传统数据库、不是大模型本身&#xf…

2026/5/20 9:33:13 阅读更多

如何快速掌握B站视频下载：从新手到专家的完整BilibiliDown教程

如何快速掌握B站视频下载：从新手到专家的完整BilibiliDown教程【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_m…

2026/5/20 14:47:45 阅读更多

Light Chaser终极指南：如何快速构建专业级数据可视化大屏

Light Chaser终极指南：如何快速构建专业级数据可视化大屏【免费下载链接】light-chaser light chaser is a lightweight data visualization designer tool 项目地址: https://gitcode.com/gh_mirrors/li/light-chaser Light Chaser是一款开源的轻量级数据可…

2026/5/20 14:47:45 阅读更多

HMI开发基石：初始值采集与条件分析的工作原理与工程实践

1. 项目概述：从“黑盒子”到“透明工厂”的起点在工业自动化现场，HMI（人机界面）设备是操作员与复杂控制系统之间最直接的桥梁。它不仅仅是显示数据和点击按钮的屏幕，更是整个生产流程的“眼睛”和“指挥棒”。很多刚接…

2026/5/20 14:47:45 阅读更多

企业管理软件选型时，为什么要关注可扩展性和源码可控

企业管理软件选型时，为什么要关注可扩展性和源码可控企业选管理软件时，最容易先看价格、页面和功能清单。但真正使用一两年后，决定系统能不能继续陪企业成长的，往往不是“第一版功能够不够”，而是可扩展性和源码可控…

2026/5/20 14:47:24 阅读更多

通过 Taotoken 审计日志功能回溯异常 API 调用与访问来源

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过 Taotoken 审计日志功能回溯异常 API 调用与访问来源当团队在使用大模型服务时，有时会发现账单上的 token 消耗量…

2026/5/20 14:47:03 阅读更多

测试工程师的职业形象：如何打造专业的职场形象

一、专业能力：职场形象的核心基石（一）筑牢测试理论根基软件测试工程师的专业形象，首先建立在扎实的理论基础之上。等价类划分、边界值分析、因果图法等经典测试方法，是测试工作的“基本功”。在电商平台购物车功能测试…

2026/5/20 14:46:23 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章

Jable视频下载神器：Chrome插件+本地下载器终极方案

AMD Ryzen调试工具终极指南：免费开源硬件调优神器SMUDebugTool

Palantir Ontology 深度解析：是什么、架构、工作原理、AI 大模型融合逻辑

如何快速掌握B站视频下载：从新手到专家的完整BilibiliDown教程

Light Chaser终极指南：如何快速构建专业级数据可视化大屏

HMI开发基石：初始值采集与条件分析的工作原理与工程实践

企业管理软件选型时，为什么要关注可扩展性和源码可控

通过 Taotoken 审计日志功能回溯异常 API 调用与访问来源

测试工程师的职业形象：如何打造专业的职场形象

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

百考通：AI赋能期刊论文写作，智能生成优质内容

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)