Pandas 缺失值的处理

发布时间：2026/6/5 4:30:08

一、pandas中的缺失值pandas使用浮点值NaNNot a Number表示缺失数据使用NANot Available表示缺失值。NaN通常表示一个无效的或未定义的数字值是浮点数的一种特殊取值用于表示那些不能表示为正常数字的情况,如 0/0、∞-∞等数学运算的结果。nan与任何值包括它自身进行比较的结果都为False。例如在 Python 中nan nan返回False。NA一般用于表示数据不可用或缺失的情况它的含义更侧重于数据在某种上下文中是缺失或不存在的不一定特指数字类型的缺失。importnumpyasnpimportpandasaspd#导入#None的数据类型没有数据类型print(type(None))# np.nan 表示的是数值的特殊值不是一个数是浮点类型print(type(np.nan))# NA 表示数据的可用与不可用性print(type(pd.NA))spd.Series(data[np.NAN,None,pd.NA],index[1,2,3])print(s)print(s.isnull())class NoneType class float class pandas.api.typing.NAType 1 NaN 2 None 3 NA dtype: object 1 True 2 True 3 True dtype: bool二、加载数据中包含缺失值dfpd.read_csv(data/weather_withna.csv)#取文件的前五行print(df.tail(5))date precipitation temp_max temp_min wind weather 1456 2015-12-27 NaN NaN NaN NaN NaN 1457 2015-12-28 NaN NaN NaN NaN NaN 1458 2015-12-29 NaN NaN NaN NaN NaN 1459 2015-12-30 NaN NaN NaN NaN NaN 1460 2015-12-31 20.6 12.2 5.0 3.8 rain1、keep_default_na参数设置是否将空白值设置为缺失值。dfpd.read_csv(data/weather_withna.csv,keep_default_naFalse)print(df.tail(5))dfpd.read_csv(data/weather_withna.csv,keep_default_naTrue)print(df.tail(5))date precipitation temp_max temp_min wind weather 1456 2015-12-27 1457 2015-12-28 1458 2015-12-29 1459 2015-12-30 1460 2015-12-31 20.6 12.2 5.0 3.8 rain date precipitation temp_max temp_min wind weather 1456 2015-12-27 NaN NaN NaN NaN NaN 1457 2015-12-28 NaN NaN NaN NaN NaN 1458 2015-12-29 NaN NaN NaN NaN NaN 1459 2015-12-30 NaN NaN NaN NaN NaN 1460 2015-12-31 20.6 12.2 5.0 3.8 rain2、na_values参数将指定值设置为缺失值dfpd.read_csv(data/weather_withna.csv,na_values[2015-12-31])print(df.tail(5))date precipitation temp_max temp_min wind weather 1456 2015-12-27 NaN NaN NaN NaN NaN 1457 2015-12-28 NaN NaN NaN NaN NaN 1458 2015-12-29 NaN NaN NaN NaN NaN 1459 2015-12-30 NaN NaN NaN NaN NaN 1460 NaN 20.6 12.2 5.0 3.8 rain三、查看缺失值1、通过isnull()查看缺失值数量dfpd.read_csv(data/weather_withna.csv)#isna()返回的是一个布尔类型 0 和 1 可以求和print(df.isna().sum())date 0 precipitation 303 temp_max 303 temp_min 303 wind 303 weather 303 dtype: int642、通过missingno条形图展示缺失值importpandasaspdimportmissingnoasmsno dfpd.read_csv(data/weather_withna.csv)msno.bar(df)Axes: 3、通过热力图查看缺失值的相关性missingno绘制的热力图能够展示数据集中不同列的缺失值之间的相关性。这里的相关性体现的是当某一列出现缺失值时其他列出现缺失值的可能性。如果两个列的缺失值呈现正相关意味着当其中一列有缺失值时另一列也很可能有缺失值若为负相关则表示当一列有缺失值时另一列更倾向于没有缺失值。颜色与数值热力图中的颜色和数值反映了列之间缺失值的相关性。接近 1 表示正相关接近 -1 表示负相关接近 0 则表示缺失值之间没有明显的关联。示例说明假如 A 列和 B 列在热力图中对应区域颜色较深且数值接近 1这就表明当 A 列出现缺失值时B 列也很可能出现缺失值若数值接近 -1情况则相反。#正相关print()#负相关print()msno.heatmap(df)print(df)date precipitation temp_max temp_min wind weather 0 2012-01-01 0.0 12.8 5.0 4.7 drizzle 1 2012-01-02 10.9 10.6 2.8 4.5 rain 2 2012-01-03 0.8 11.7 7.2 2.3 rain 3 2012-01-04 20.3 12.2 5.6 4.7 rain 4 2012-01-05 1.3 8.9 2.8 6.1 rain ... ... ... ... ... ... ... 1456 2015-12-27 NaN NaN NaN NaN NaN 1457 2015-12-28 NaN NaN NaN NaN NaN 1458 2015-12-29 NaN NaN NaN NaN NaN 1459 2015-12-30 NaN NaN NaN NaN NaN 1460 2015-12-31 20.6 12.2 5.0 3.8 rain [1461 rows x 6 columns]四、剔除缺失值1、Series剔除缺失值spd.Series(data[1,None,pd.NA],index[1,2,3],)print(s)print(s.isnull())print(s.dropna())1 1 2 None 3 NA dtype: object 1 False 2 True 3 True dtype: bool 1 1 dtype: object2、DataFrame剔除缺失值无法从DataFrame中单独剔除一个值只能剔除缺失值所在的整行或整列。默认情况下dropna()会剔除任何包含缺失值的整行数据。dfpd.DataFrame(data[[1,pd.NA,2],[2,3,5],[pd.NA,3,4]],index[1,2,3],)print(df)#去除缺失值#axis 0 去除包含缺失值的整行数据print(df.dropna(axis0))#axis 1 去除包含缺失值的整列数据print(df.dropna(axis1))0 1 2 1 1 NA 2 2 2 3 5 3 NA 3 4 0 1 2 2 2 3 5 2 1 2 2 5 3 4有时只需要剔除全部是缺失值的行或列或者绝大多数是缺失值的行或列。这些需求可以通过设置how或thresh参数来满足它们可以设置剔除行或列缺失值的数量阈值。dfpd.DataFrame(data[[1,pd.NA,2],[2,3,5],[pd.NA,3,4]],index[1,2,3],)print(df)# 如果所有值都是缺失值,则删除这一行print(df.dropna(howall))# 如果其中有缺失值则删除这一行print(df.dropna(howany))#如果其中至少有n个值不是缺失值这个行或者列才会保留print(df.dropna(thresh2))# 如果某一列有缺失值则进行剔除。#axis 0 按列的方向默认是行#axis 1 按行的方向默认是列print(df.dropna())print(df.dropna(axis1))#相当于在所有行的第0列有缺失值就删除这一行print(df.dropna(subset[0]))print(df.dropna(subset[0,1]))0 1 2 1 1 NA 2 2 2 3 5 3 NA 3 4 0 1 2 1 1 NA 2 2 2 3 5 3 NA 3 4 0 1 2 2 2 3 5 0 1 2 1 1 NA 2 2 2 3 5 3 NA 3 4 0 1 2 2 2 3 5 2 1 2 2 5 3 4 0 1 2 1 1 NA 2 2 2 3 5 0 1 2 2 2 3 5五、填充缺失值1、使用固定值填充通过fillna()方法传入固定值或字典进行填充。1固定值填充dfpd.read_csv(data/weather_withna.csv)print(df.fillna(1).tail(5))date precipitation temp_max temp_min wind weather 1456 2015-12-27 1.0 1.0 1.0 1.0 1 1457 2015-12-28 1.0 1.0 1.0 1.0 1 1458 2015-12-29 1.0 1.0 1.0 1.0 1 1459 2015-12-30 1.0 1.0 1.0 1.0 1 1460 2015-12-31 20.6 12.2 5.0 3.8 rain2字典填充dfpd.read_csv(data/weather_withna.csv)print(df.fillna({temp_max:60,temp_min:-60}).tail(5))date precipitation temp_max temp_min wind weather 1456 2015-12-27 NaN 60.0 -60.0 NaN NaN 1457 2015-12-28 NaN 60.0 -60.0 NaN NaN 1458 2015-12-29 NaN 60.0 -60.0 NaN NaN 1459 2015-12-30 NaN 60.0 -60.0 NaN NaN 1460 2015-12-31 20.6 12.2 5.0 3.8 rain2、使用统计值填充通过fillna()方法传入统计后的值进行填充。dfpd.read_csv(data/weather_withna.csv)print(df.fillna(df[[temp_max,temp_min,precipitation,wind]].mean()).tail(5))#或者# print(df.fillna(df[[temp_max,temp_min,precipitation,wind]].mean(),inplaceTrue))# df.tail(5)date precipitation temp_max temp_min wind weather 1456 2015-12-27 3.052332 15.851468 7.877202 3.242055 NaN 1457 2015-12-28 3.052332 15.851468 7.877202 3.242055 NaN 1458 2015-12-29 3.052332 15.851468 7.877202 3.242055 NaN 1459 2015-12-30 3.052332 15.851468 7.877202 3.242055 NaN 1460 2015-12-31 20.600000 12.200000 5.000000 3.800000 rain3、使用前后的有效值填充通过ffill()或bfill()方法使用前面或后面的有效值填充。dfpd.read_csv(data/weather_withna.csv)print(df.ffill().tail())print(df.bfill().tail())date precipitation temp_max temp_min wind weather 1456 2015-12-27 0.0 11.1 4.4 4.8 sun 1457 2015-12-28 0.0 11.1 4.4 4.8 sun 1458 2015-12-29 0.0 11.1 4.4 4.8 sun 1459 2015-12-30 0.0 11.1 4.4 4.8 sun 1460 2015-12-31 20.6 12.2 5.0 3.8 rain date precipitation temp_max temp_min wind weather 1456 2015-12-27 20.6 12.2 5.0 3.8 rain 1457 2015-12-28 20.6 12.2 5.0 3.8 rain 1458 2015-12-29 20.6 12.2 5.0 3.8 rain 1459 2015-12-30 20.6 12.2 5.0 3.8 rain 1460 2015-12-31 20.6 12.2 5.0 3.8 rain4、通过线性插值填充通过interpolate()方法进行线性插值填充。线性插值操作就是用于在已知数据点之间估算未知数据点的值。interpolate 方法支持多种插值方法可通过 method 参数指定常见的方法有’linear’线性插值基于两点之间的直线来估算缺失值适用于数据呈线性变化的情况。’time’适用于时间序列数据会考虑时间间隔进行插值。’polynomial’多项式插值通过拟合多项式曲线来估算缺失值可通过 order 参数指定多项式的阶数。importpandasaspdimportnumpyasnp#创建包含缺失值的Seriesspd.Series([1,np.nan,2,3,4,np.nan,6])print(s)s_interpolateds.interpolate()print(s_interpolated)0 1.0 1 NaN 2 2.0 3 3.0 4 4.0 5 NaN 6 6.0 dtype: float64 0 1.0 1 1.5 2 2.0 3 3.0 4 4.0 5 5.0 6 6.0 dtype: float64

Solidworks模型导入Gazebo实战：从建模到仿真的完整流程（附颜色丢失解决方案）

Solidworks模型导入Gazebo实战：从建模到仿真的完整流程（附颜色丢失解决方案） 在机器人仿真开发领域，能够将自定义设计的机械结构快速转化为可交互的仿真模型，是提升开发效率的关键能力。Solidworks作为工业设计领域的标…

2026/6/4 13:31:10 阅读更多

RWKV7-1.5B-g1a参数避坑：top_p=0.9在中文任务中易引发事实性错误实测

RWKV7-1.5B-g1a参数避坑：top_p0.9在中文任务中易引发事实性错误实测 1. 模型简介与测试背景 rwkv7-1.5B-g1a是基于RWKV-7架构的多语言文本生成模型，特别适合中文场景下的基础问答、文案续写和简短总结任务。作为一款轻量级模型，它能在单卡2…

2026/6/4 16:14:10 阅读更多

用Python脚本实现Postman接口压测：告别串行，拥抱并行

用Python脚本实现Postman接口压测：告别串行，拥抱并行当我们需要评估API接口在高并发场景下的表现时，Postman的Runner功能常常成为首选工具。但很多开发者在使用过程中发现，Runner实际上是串行执行请求的——这意味着它无法真实模…

2026/6/5 5:02:12 阅读更多

小米手机屏幕是三星还是国产？装个3MB的小工具一看便知

澎湃工具箱 V3.8.7 我手上这台红米用了快两年了，系统自带的电池页面永远只显示"正常"两个字，等于啥也没说。后来朋友安利了一个叫澎湃工具箱的东西，3MB大小，装上直接读系统日志，电池循环多少次了、屏幕谁家产的、内存颗粒什么牌子，全部摊开给你看。说白了这…

2026/6/5 6:08:30 阅读更多

Python解包 unpacking：数据流动的底层呼吸节奏

1. 项目概述： unpacking 不是语法糖，而是 Python 的呼吸方式“Python Tricks: Unpacking Iterables”这个标题乍看像是一篇讲小技巧的速查笔记，但在我用 Python 写过 12 年生产代码、维护过 7 个百万行级服务、带过 3 届实习生之后&#xff0…

2026/6/5 6:08:10 阅读更多

用STM32F4玩转PAJ7620手势识别：从I2C配置到九种手势的完整代码解析

STM32F4与PAJ7620手势识别的深度开发指南1. 硬件架构与通信原理PAJ7620U2作为一款集成光学阵列的智能传感器，其硬件设计充分考虑了嵌入式系统的集成需求。传感器采用3.3V供电设计，与STM32F4系列MCU的电压完美匹配，避免了电平转换的麻烦。在实…

2026/6/5 6:08:10 阅读更多

如何快速获取音乐歌词：163MusicLyrics免费开源工具的完整解决方案

如何快速获取音乐歌词：163MusicLyrics免费开源工具的完整解决方案【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为找不到心爱歌曲的歌词而烦恼吗&#…

2026/6/5 6:07:29 阅读更多

从Root检测到DRM解密：手把手调试Android TEE环境下的TA与CA通信

从Root检测到DRM解密：手把手调试Android TEE环境下的TA与CA通信在移动安全领域，可信执行环境（TEE）已成为保护敏感数据的关键防线。无论是金融应用的支付验证，还是媒体内容的DRM保护，TEE都扮演着不可替代的角…

2026/6/5 6:07:29 阅读更多

Maven vs Gradle，如何选择？

文章目录Maven如何使用 Maven？常用命令优点缺点Gradle如何使用 Gradle？常用命令优点缺点两者对比Gradle与 Maven的区别如何选择？总结Maven 和 Gradle 是两种常用的 Java构建工具，它们在构建、依赖管理和项目自动化方面各有优缺点。…

2026/6/5 6:07:09 阅读更多

利用claude code skill在快马平台快速构建个人博客原型

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请使用快马平台生成一个个人博客网站的原型。要求具备以下核心功能：响应式设计适配手机和电脑，包含首页文章列表展示，文章详情页，关…

2026/6/5 0:00:10 阅读更多

Gemma-4 E4B配置参数详解：如何优化模型性能和输出质量

Gemma-4 E4B配置参数详解：如何优化模型性能和输出质量【免费下载链接】gemma-4-E4B 项目地址: https://ai.gitcode.com/hf_mirrors/google/gemma-4-E4B Gemma-4 E4B是Google推出的先进多模态AI模型，支持文本、图像、音频和视频处理。本文将详细…

2026/6/5 0:00:10 阅读更多

AI 赋能下企业账户接管欺诈成因、风险与全维度防御体系研究

摘要：依托 Wintrust 金融集团发布的行业调研与美联储、FinCEN 公开统计数据，本文以美国 2022—2024 年账户接管欺诈（Account Takeover Fraud，ATO）损失逐年攀升的现实数据为切入点，系统梳理账户接管欺诈的定…

2026/6/5 0:00:52 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/4 9:21:37 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/4 7:15:04 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/4 9:21:48 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/4 9:21:45 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/4 9:21:52 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/4 9:21:53 阅读更多

相关文章