Pandas 高级技巧与最佳实践

发布时间：2026/6/8 17:01:35

Pandas 高级技巧与最佳实践目标掌握 Pandas 的进阶用法和性能优化技巧成为 Pandas 高手。11.1 性能优化11.1.1 向量化 vs 循环importpandasaspdimportnumpyasnpimporttime# 创建大数据集n1_000_000dfpd.DataFrame({A:np.random.randn(n),B:np.random.randn(n)})# ❌ 慢用循环defloop_add(df):result[]foriinrange(len(df)):result.append(df.iloc[i][A]df.iloc[i][B])returnresult starttime.time()loop_resultloop_add(df)print(f循环耗时:{time.time()-start:.2f}秒)# ✅ 快用向量化starttime.time()vector_resultdf[A]df[B]print(f向量化耗时:{time.time()-start:.4f}秒)黄金法则永远不要对 DataFrame 用循环11.1.2 使用合适的数据类型# 创建示例数据dfpd.DataFrame({int64_col:np.random.randint(0,100,1000000),float64_col:np.random.randn(1000000),category_col:np.random.choice([A,B,C,D],1000000),object_col:np.random.choice([北京,上海,广州,深圳],1000000)})print(原始内存使用:)print(df.memory_usage(deepTrue).sum()/1024**2,MB)# 优化数据类型df_optimizeddf.copy()df_optimized[int64_col]df_optimized[int64_col].astype(int32)# int64 → int32df_optimized[float64_col]df_optimized[float64_col].astype(float32)# float64 → float32df_optimized[category_col]df_optimized[category_col].astype(category)df_optimized[object_col]df_optimized[object_col].astype(category)print(\n优化后内存使用:)print(df_optimized.memory_usage(deepTrue).sum()/1024**2,MB)11.1.3 使用 eval 和 query# 创建大数据dfpd.DataFrame(np.random.randn(100000,4),columns[A,B,C,D])# eval高效计算# 普通方式df[E]df[A]df[B]*df[C]-df[D]# eval 方式更快df[E]df.eval(A B * C - D)# query高效筛选# 普通方式resultdf[(df[A]0)(df[B]0)]# query 方式更快resultdf.query(A 0 and B 0)11.2 内存优化11.2.1 分块读取大文件# 分块读取 CSVchunk_size100000chunks[]forchunkinpd.read_csv(large_file.csv,chunksizechunk_size):# 处理每个 chunkprocessedchunk[chunk[value]0]# 示例处理chunks.append(processed)# 合并结果dfpd.concat(chunks,ignore_indexTrue)11.2.2 使用迭代器# 迭代器方式读取forchunkinpd.read_csv(large_file.csv,chunksize10000):forrowinchunk.itertuples():# 处理每一行pass11.2.3 删除中间变量# ❌ 内存占用大df1pd.read_csv(data.csv)df2df1[df1[A]0]df3df2.groupby(B).sum()df4df3.reset_index()# ✅ 及时释放内存dfpd.read_csv(data.csv)dfdf[df[A]0]dfdf.groupby(B).sum()dfdf.reset_index()11.3 链式操作11.3.1 方法链式调用# ❌ 传统方式多个变量dfpd.read_csv(data.csv)dfdf[df[A]0]dfdf.dropna()dfdf.assign(Clambdax:x[A]x[B])dfdf.groupby(D).sum()# ✅ 链式操作一个表达式result(pd.read_csv(data.csv).query(A 0).dropna().assign(Clambdax:x[A]x[B]).groupby(D).sum().reset_index())11.3.2 使用 pipe# 自定义函数deffilter_positive(df,col):returndf[df[col]0]defadd_ratio(df,num_col,den_col):returndf.assign(ratiodf[num_col]/df[den_col])# 使用 pipe 链式调用result(pd.read_csv(data.csv).pipe(filter_positive,sales).pipe(add_ratio,profit,sales).groupby(category).agg({ratio:mean}))11.4 实用技巧合集11.4.1 快速查看数据dfpd.DataFrame(np.random.randn(1000,10),columns[fcol_{i}foriinrange(10)])# 快速查看print(df.head())# 前5行print(df.tail())# 后5行print(df.sample(5))# 随机5行print(df.describe())# 统计摘要print(df.info())# 数据信息print(df.dtypes)# 数据类型print(df.shape)# 形状print(df.columns.tolist())# 列名列表print(df.index)# 索引11.4.2 快速选择数据# 快速选择# 选择数值列numeric_colsdf.select_dtypes(include[np.number]).columns# 选择字符串列string_colsdf.select_dtypes(include[object]).columns# 选择列名包含特定字符串的列df.filter(likecol_1)# 选择列名匹配正则表达式的列df.filter(regexcol_[0-5])11.4.3 快速处理缺失值dfpd.DataFrame({A:[1,2,np.nan,4],B:[5,np.nan,np.nan,8],C:[9,10,11,12]})# 快速查看缺失值print(df.isnull().sum())# 每列缺失值数量print(df.isnull().sum().sum())# 总缺失值数量print(df.isnull().mean()*100)# 缺失值百分比# 快速删除print(df.dropna())# 删除包含缺失值的行print(df.dropna(axis1))# 删除包含缺失值的列print(df.dropna(thresh2))# 保留至少2个非缺失值的行# 快速填充print(df.fillna(0))# 用0填充print(df.fillna(df.mean()))# 用均值填充print(df.fillna(methodffill))# 前向填充print(df.fillna(methodbfill))# 后向填充11.4.4 快速数据转换dfpd.DataFrame({A:[1,2,3,4],B:[a,b,c,d],C:[1.5,2.5,3.5,4.5]})# 类型转换print(df.astype({A:float64,C:int32}))# 字符串操作df[B_upper]df[B].str.upper()df[B_len]df[B].str.len()# 数值操作df[A_squared]df[A].pow(2)df[A_log]np.log(df[A])# 条件赋值df[A_category]np.where(df[A]2,high,low)11.5 调试技巧11.5.1 查看中间结果# 使用 pipe 查看中间结果defdebug_print(df,message):print(f\n{message})print(fShape:{df.shape})print(df.head())returndf result(pd.read_csv(data.csv).pipe(debug_print,After loading).query(A 0).pipe(debug_print,After filtering).groupby(B).sum().pipe(debug_print,After grouping))11.5.2 使用选项设置# 显示设置pd.set_option(display.max_rows,100)# 最大显示行数pd.set_option(display.max_columns,50)# 最大显示列数pd.set_option(display.width,200)# 显示宽度pd.set_option(display.float_format,{:.2f}.format)# 浮点数格式# 重置设置pd.reset_option(all)11.6 常见陷阱与解决方案11.6.1 SettingWithCopyWarningdfpd.DataFrame({A:[1,2,3],B:[4,5,6]})# ❌ 警告SettingWithCopyWarningdf[df[A]1][B]100# 可能不生效# ✅ 正确方式1使用 locdf.loc[df[A]1,B]100# ✅ 正确方式2使用 copysubsetdf[df[A]1].copy()subset[B]10011.6.2 索引问题# ❌ 问题重置索引后丢失原索引dfdf.reset_index()# ✅ 保留原索引dfdf.reset_index(dropFalse)# 保留为列dfdf.reset_index(dropTrue)# 完全删除11.6.3 类型推断问题# ❌ 问题整数列有缺失值会变成 floatdfpd.DataFrame({A:[1,2,None,4]})print(df.dtypes)# float64# ✅ 使用 nullable 整数类型dfpd.DataFrame({A:pd.array([1,2,None,4],dtypepd.Int64Dtype())})print(df.dtypes)# Int6411.7 与其他库的集成11.7.1 NumPy# DataFrame 和 NumPy 数组互转dfpd.DataFrame(np.random.randn(100,4),columns[A,B,C,D])arrdf.values# 转 NumPy 数组df2pd.DataFrame(arr,columns[A,B,C,D])# 转 DataFrame# 使用 NumPy 函数print(np.sqrt(df))print(np.log(df))print(np.mean(df,axis0))11.7.2 Matplotlibimportmatplotlib.pyplotasplt dfpd.DataFrame({A:np.random.randn(100).cumsum(),B:np.random.randn(100).cumsum()},indexpd.date_range(2024-01-01,periods100))# 快速绘图df.plot(figsize(10,6))plt.title(Time Series Plot)plt.show()# 子图df.plot(subplotsTrue,figsize(10,8))plt.show()11.7.3 Scikit-learnfromsklearn.preprocessingimportStandardScalerfromsklearn.model_selectionimporttrain_test_split dfpd.DataFrame(np.random.randn(100,4),columns[A,B,C,D])# 数据预处理scalerStandardScaler()df_scaledpd.DataFrame(scaler.fit_transform(df),columnsdf.columns,indexdf.index)# 划分训练集和测试集train,testtrain_test_split(df,test_size0.2)11.8 本章小结核心要点✅性能优化使用向量化操作避免循环选择合适的数据类型使用 eval 和 query✅内存优化分块读取大文件及时删除中间变量使用 category 类型✅链式操作使用方法链提高可读性使用 pipe 自定义函数✅实用技巧快速查看数据快速选择和处理数据调试技巧✅避免陷阱SettingWithCopyWarning索引问题类型推断问题最佳实践清单使用向量化操作选择合适的数据类型使用链式操作提高可读性及时释放内存使用 loc 进行赋值处理大文件时使用分块读取使用 pipe 进行调试

MPC500 TPU3中断机制详解：从寄存器操作到实战避坑

1. 项目概述与TPU3中断机制核心价值在嵌入式实时控制领域，尤其是汽车电子、工业电机驱动和电源管理这些对时序精度要求严苛的场景里，如何高效、可靠地处理定时事件和外部信号，往往是决定系统性能上限的关键。飞思卡尔（现恩智浦&am…

2026/6/8 17:01:14 阅读更多

别再只用Open3D做点云了！用它的GUI模块5分钟搭建一个3D模型查看器（Python版）

解锁Open3D GUI模块：5分钟打造专业级3D模型查看器当大多数开发者还在用Open3D进行基础点云处理时，它的GUI模块已经悄然进化成一个被严重低估的宝藏工具。想象一下：用不到50行Python代码就能构建一个支持OBJ、STL等多种格式的专业3D模型查看器…

2026/6/8 17:01:14 阅读更多

OpenSeesPy完整方案：Python结构工程分析的7个核心策略

OpenSeesPy完整方案：Python结构工程分析的7个核心策略【免费下载链接】OpenSeesPy OpenSeesPy versions, doc, and pip 项目地址: https://gitcode.com/gh_mirrors/op/OpenSeesPy OpenSeesPy作为开源结构工程分析工具，为工程师提供了强大的Pytho…

2026/6/8 17:00:11 阅读更多

【一键搞定】抖音批量下载神器：无水印视频、图集、音乐全攻略

【一键搞定】抖音批量下载神器：无水印视频、图集、音乐全攻略【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallbac…

2026/6/8 18:10:06 阅读更多

无传感器BLDC电机控制：基于MC68HC908MR32的反电动势过零检测实战

1. 项目概述与核心价值无刷直流电机（BLDC）以其高效率、长寿命和低维护成本，早已成为工业自动化、消费电子和汽车领域的主流选择。但一个核心挑战始终横亘在工程师面前：如何精确、低成本地获取转子位置以实现电子换相？传…

2026/6/8 18:08:45 阅读更多

从运维老鸟的视角：FusionAccess桌面云日常巡检与故障快速定位Checklist

华为FusionAccess桌面云高效运维实战：从健康巡检到故障定位的完整指南引言：当桌面云成为企业数字神经中枢在金融行业某省级分行的数据中心监控大屏前，运维主管张工正盯着突然激增的告警信息皱眉——上午9点开盘时段，交易部门的数十…

2026/6/8 18:07:44 阅读更多

ngx_open_and_stat_file

1 定义 ngx_open_and_stat_file 函数定义在 ./nginx-1.24.0/src/core/ngx_open_file_cache.cstatic ngx_int_t ngx_open_and_stat_file(ngx_str_t *name, ngx_open_file_info_t *of,ngx_log_t *log) {ngx_fd_t fd;ngx_file_info_t fi;if (of->fd ! NGX_INVALID_FI…

2026/6/8 18:07:44 阅读更多

wu.js核心函数解析：map、filter、reduce的迭代器版本实现原理

wu.js核心函数解析：map、filter、reduce的迭代器版本实现原理【免费下载链接】wu.js wu.js is a JavaScript library providing higher order functions for ES6 iterators. 项目地址: https://gitcode.com/gh_mirrors/wu/wu.js wu.js是一个为ES6迭代器提供…

2026/6/8 18:06:23 阅读更多

Matlab语音去噪实操包：谱减法vs卡尔曼滤波，带原始音频、可运行脚本与全程操作录像

本文还有配套的精品资源，点击获取简介：直接上手就能跑的Matlab语音去噪实验环境，包含干净语音clean.wav和5dB信噪比的带噪语音5dB_noisy.wav。两个核心去噪脚本Runm1_pujianfa.m（谱减法）和Runm1_kalman.m&#xff…

2026/6/8 18:02:40 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

MPC500 TPU3中断机制详解：从寄存器操作到实战避坑

别再只用Open3D做点云了！用它的GUI模块5分钟搭建一个3D模型查看器（Python版）

OpenSeesPy完整方案：Python结构工程分析的7个核心策略

【一键搞定】抖音批量下载神器：无水印视频、图集、音乐全攻略

无传感器BLDC电机控制：基于MC68HC908MR32的反电动势过零检测实战

从运维老鸟的视角：FusionAccess桌面云日常巡检与故障快速定位Checklist

ngx_open_and_stat_file

wu.js核心函数解析：map、filter、reduce的迭代器版本实现原理

Matlab语音去噪实操包：谱减法vs卡尔曼滤波，带原始音频、可运行脚本与全程操作录像

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因