模块四-数据转换与操作——28. 分组变换与过滤

发布时间：2026/5/15 23:20:17

28. 分组变换与过滤1. 概述除了聚合agg之外groupby 还支持**变换transform和过滤filter**操作。transform 用于在组内进行元素级运算filter 用于根据组属性筛选组。importpandasaspdimportnumpyasnp# 创建示例数据np.random.seed(42)dfpd.DataFrame({部门:[技术,销售,技术,市场,销售,技术,市场,销售,技术,市场],姓名:[f员工_{i}foriinrange(1,11)],工资:[8000,12000,10000,15000,11000,9500,10500,12500,9000,13000],年龄:[25,30,28,32,35,27,29,31,26,33]})print(原始数据:)print(df)2. transform() 变换2.1 什么是 transformtransform返回与原始数据相同形状的结果而agg返回的是聚合后的结果。# agg 返回聚合结果形状改变agg_resultdf.groupby(部门)[工资].mean()print(agg 结果:)print(agg_result)print(fagg 形状:{agg_result.shape})# transform 返回相同形状transform_resultdf.groupby(部门)[工资].transform(mean)print(\ntransform 结果:)print(transform_result)print(ftransform 形状:{transform_result.shape})2.2 常用 transform 操作# 计算组内均值df[部门平均工资]df.groupby(部门)[工资].transform(mean)print(部门平均工资:)print(df[[部门,姓名,工资,部门平均工资]])# 计算组内标准差df[部门工资标准差]df.groupby(部门)[工资].transform(std)# 计算组内排名df[组内排名]df.groupby(部门)[工资].transform(rank,ascendingFalse)print(\n组内排名:)print(df[[部门,姓名,工资,组内排名]])2.3 标准化Z-Score# 组内标准化df[工资标准化]df.groupby(部门)[工资].transform(lambdax:(x-x.mean())/x.std())print(组内标准化:)print(df[[部门,姓名,工资,工资标准化]])2.4 计算与均值的差值# 计算与组均值的差值df[与均值差额]df[工资]-df.groupby(部门)[工资].transform(mean)print(与均值差额:)print(df[[部门,姓名,工资,与均值差额]])2.5 填充组内缺失值# 创建包含缺失值的数据df_nadf.copy()df_na.loc[[1,5],工资]np.nanprint(包含缺失值的数据:)print(df_na)# 用组内均值填充df_na[工资_filled]df_na.groupby(部门)[工资].transform(lambdax:x.fillna(x.mean()))print(\n填充后:)print(df_na[[部门,工资,工资_filled]])3. filter() 过滤3.1 基本用法filter根据组属性筛选组返回满足条件的组的所有行。# 筛选员工数 3 的部门filtereddf.groupby(部门).filter(lambdax:len(x)3)print(员工数 3 的部门:)print(filtered)# 筛选平均工资 10000 的部门filtereddf.groupby(部门).filter(lambdax:x[工资].mean()10000)print(\n平均工资 10000 的部门:)print(filtered)3.2 条件过滤# 筛选最高工资 12000 的部门filtereddf.groupby(部门).filter(lambdax:x[工资].max()12000)print(有员工工资 12000 的部门:)print(filtered)# 筛选最低工资 9000 的部门filtereddf.groupby(部门).filter(lambdax:x[工资].min()9000)print(\n有员工工资 9000 的部门:)print(filtered)# 筛选工资方差 500000 的部门filtereddf.groupby(部门).filter(lambdax:x[工资].var()500000)print(\n工资方差 500000 的部门:)print(filtered)4. transform vs agg vs filter 对比方法返回值形状用途agg聚合后的形状每组一行计算组统计量transform与原数据相同形状组内元素级运算filter满足条件的组的所有行筛选组# 对比示例print(原始数据形状:,df.shape)print(agg 结果形状:,df.groupby(部门)[工资].mean().shape)print(transform 结果形状:,df.groupby(部门)[工资].transform(mean).shape)print(filter 结果形状:,df.groupby(部门).filter(lambdax:len(x)3).shape)5. 完整示例员工绩效分析# 创建员工数据np.random.seed(42)employeespd.DataFrame({部门:np.random.choice([技术,销售,市场,人事],100),姓名:[f员工_{i}foriinrange(1,101)],工资:np.random.randint(5000,20000,100),绩效分:np.random.uniform(60,100,100).round(1),工龄:np.random.randint(1,15,100)})print(*60)print(员工绩效分析transform filter)print(*60)print(\n原始数据:)print(employees.head())# 1. 添加组内统计列print(\n1. 添加组内统计:)employees[部门平均工资]employees.groupby(部门)[工资].transform(mean)employees[部门平均绩效]employees.groupby(部门)[绩效分].transform(mean)employees[部门人数]employees.groupby(部门)[姓名].transform(count)employees[组内排名]employees.groupby(部门)[绩效分].transform(rank,ascendingFalse)print(employees[[部门,姓名,绩效分,组内排名,部门平均绩效]].head(10))# 2. 计算与平均值的差距print(\n2. 绩效差距分析:)employees[绩效差距]employees[绩效分]-employees[部门平均绩效]print(employees[[部门,姓名,绩效分,部门平均绩效,绩效差距]].head(10))# 3. 筛选部门平均绩效 80print(\n3. 平均绩效 80 的部门:)high_perf_deptsemployees.groupby(部门).filter(lambdax:x[绩效分].mean()80)print(f筛选前行数:{len(employees)})print(f筛选后行数:{len(high_perf_depts)})print(筛选后的部门分布:)print(high_perf_depts[部门].value_counts())# 4. 筛选部门人数 20print(\n4. 人数 20 的部门:)large_deptsemployees.groupby(部门).filter(lambdax:len(x)20)print(large_depts[部门].value_counts())# 5. 标准化绩效分print(\n5. 组内标准化绩效:)employees[标准化绩效]employees.groupby(部门)[绩效分].transform(lambdax:(x-x.mean())/x.std())print(employees[[部门,姓名,绩效分,标准化绩效]].head(10))# 6. 标记优秀员工组内前20%deftop_20_percent(x):thresholdx.quantile(0.8)returnxthreshold employees[是否优秀]employees.groupby(部门)[绩效分].transform(top_20_percent)print(\n6. 各部门优秀员工:)print(employees[employees[是否优秀]][[部门,姓名,绩效分]].head(10))6. transform 常用函数函数说明示例mean()组内均值df.groupby(A)[B].transform(mean)sum()组内和df.groupby(A)[B].transform(sum)std()组内标准差df.groupby(A)[B].transform(std)rank()组内排名df.groupby(A)[B].transform(rank)cumsum()组内累计和df.groupby(A)[B].transform(cumsum)fillna()填充缺失值df.groupby(A)[B].transform(lambda x: x.fillna(x.mean()))自定义函数任意运算df.groupby(A)[B].transform(lambda x: x - x.mean())7. 总结操作方法返回值示例组内均值transform(mean)同形状df.groupby(A)[B].transform(mean)组内排名transform(rank)同形状df.groupby(A)[B].transform(rank)组内标准化transform(lambda x: (x-x.mean())/x.std())同形状df.groupby(A)[B].transform(lambda x: (x-x.mean())/x.std())组内累计transform(cumsum)同形状df.groupby(A)[B].transform(cumsum)筛选组filter(lambda x: condition)满足条件的行df.groupby(A).filter(lambda x: len(x) 3)筛选组均值条件filter(lambda x: x[B].mean() threshold)满足条件的行df.groupby(A).filter(lambda x: x[B].mean() 50)

DeepL Chrome翻译插件：如何让外语网页阅读变得像母语一样流畅

DeepL Chrome翻译插件：如何让外语网页阅读变得像母语一样流畅【免费下载链接】deepl-chrome-extension A DeepL Translator Chrome extension 项目地址: https://gitcode.com/gh_mirrors/de/deepl-chrome-extension 你是否曾经遇到过这样的困扰：…

2026/5/15 23:19:56 阅读更多

2026年成企业级AI Agent落地决战年，巨头各展所长谁能抢占先机？

阿里财报：AI进入规模商业化回报周期5月13日，阿里巴巴集团发布2026财年Q4及全年财报。财报显示，阿里全栈AI技术投入已跨越初期培育阶段，进入正向的规模商业化回报周期。财年第四季度，阿里AI在模型、云基础设施和应用各层…

2026/5/15 23:19:36 阅读更多

如何快速上手Cura：3D打印切片软件的完整使用指南

如何快速上手Cura：3D打印切片软件的完整使用指南【免费下载链接】Cura 3D printer / slicing GUI built on top of the Uranium framework 项目地址: https://gitcode.com/gh_mirrors/cu/Cura Ultimaker Cura是全球最受欢迎的3D打印切片软件，它将…

2026/5/15 23:17:35 阅读更多

QModMaster：开源Modbus调试解决方案的完整技术架构解析

QModMaster：开源Modbus调试解决方案的完整技术架构解析【免费下载链接】qModbusMaster Fork of QModMaster (https://sourceforge.net/p/qmodmaster/code/ci/default/tree/) 项目地址: https://gitcode.com/gh_mirrors/qm/qModbusMaster 在工业自动化领域&a…

2026/5/16 0:06:53 阅读更多

终极DeepL Chrome翻译插件完整指南：高效跨语言浏览解决方案

终极DeepL Chrome翻译插件完整指南：高效跨语言浏览解决方案【免费下载链接】deepl-chrome-extension A DeepL Translator Chrome extension 项目地址: https://gitcode.com/gh_mirrors/de/deepl-chrome-extension 在全球化信息时代，阅读外文网页…

2026/5/16 0:06:53 阅读更多

NotebookLM赋能畜牧科研：5个被90%研究员忽略的文献分析技巧，效率提升300%

更多请点击： https://intelliparadigm.com 第一章：NotebookLM赋能畜牧科研的核心价值与适用边界 NotebookLM 是 Google 推出的基于文档理解的 AI 助手，其核心能力在于对用户上传的私有 PDF、TXT、DOCX 等科研资料进行深度语义索引与上下文感…

2026/5/16 0:04:31 阅读更多

3d 打印拆分零件

目录 SnapSplit SnapSplit：Blender 附加组件可实现模块化 3D 打印的自动分割和连接 b3dkit 1. 智能切割与拼接（最重要的功能） 2. 几何工具 3. 通用库扩展 SnapSplit SnapSplit：Blender 附加组件可实现模块化 3D 打印的自动…

2026/5/16 0:04:31 阅读更多

我靠“测试即服务”这个理念，拿下了3个大客户

当“人头”不再是唯一的度量衡在软件测试行业摸爬滚打多年，我们最熟悉的场景往往是：客户抛出一个项目需求，我们评估工作量，然后换算成“人/天”或“人/月”，最后报出一个基于人头数的价格。这种“测试人力外包”的模式…

2026/5/16 0:04:31 阅读更多

【NotebookLM物理学研究辅助终极指南】：20年物理计算专家亲授5大高阶用法，90%研究者至今不知

更多请点击： https://intelliparadigm.com 第一章：NotebookLM物理学研究辅助终极指南导论 NotebookLM 是 Google 推出的基于 AI 的研究协作者，专为学者、科研人员和教育工作者设计。在物理学研究中，它能高效解析 PDF 论文、实验…

2026/5/16 0:04:31 阅读更多

SD-PPP：在Photoshop中开启智能设计革命的终极AI插件

SD-PPP：在Photoshop中开启智能设计革命的终极AI插件【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 你是否厌倦了在Photoshop和AI工具之间频繁切换，打断了创意的流畅性？SD-PPP正…

2026/5/16 0:00:07 阅读更多

NomNom存档编辑器：解放你的《无人深空》游戏体验终极指南

NomNom存档编辑器：解放你的《无人深空》游戏体验终极指南【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item i…

2026/5/16 0:00:27 阅读更多

5个专业策略：构建企业级本地漏洞情报分析平台

5个专业策略：构建企业级本地漏洞情报分析平台【免费下载链接】cve-search cve-search - a tool to perform local searches for known vulnerabilities 项目地址: https://gitcode.com/gh_mirrors/cv/cve-search 在当今复杂的网络安全环境中，快速…

2026/5/16 0:00:27 阅读更多

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构摘要本文基于贾子理论的文明竞争视角，揭示中美AI战略差异的本质并非技术参数较量，而是“暴力计算”与“本质贯通”两种文明范式的根本对立。美国依赖算力堆叠与资本逻辑追求技术霸权…

2026/5/14 23:29:16 阅读更多

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…

2026/5/15 17:36:19 阅读更多

基于飞书与OpenAI构建企业级AI助手：架构、部署与深度优化指南

1. 项目概述：当飞书遇上AI，一个企业级智能助手的诞生最近在折腾一个挺有意思的项目，叫“ConnectAI-E/feishu-openai”。简单来说，它就是一个桥梁，把飞书这个强大的企业协作平台，和以ChatGPT为代表的OpenA…

2026/5/15 0:06:09 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/15 14:41:25 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/15 14:41:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/15 14:41:26 阅读更多

相关文章

DeepL Chrome翻译插件：如何让外语网页阅读变得像母语一样流畅

2026年成企业级AI Agent落地决战年，巨头各展所长谁能抢占先机？

如何快速上手Cura：3D打印切片软件的完整使用指南

QModMaster：开源Modbus调试解决方案的完整技术架构解析

终极DeepL Chrome翻译插件完整指南：高效跨语言浏览解决方案

NotebookLM赋能畜牧科研：5个被90%研究员忽略的文献分析技巧，效率提升300%

3d 打印拆分零件

我靠“测试即服务”这个理念，拿下了3个大客户

【NotebookLM物理学研究辅助终极指南】：20年物理计算专家亲授5大高阶用法，90%研究者至今不知

SD-PPP：在Photoshop中开启智能设计革命的终极AI插件

NomNom存档编辑器：解放你的《无人深空》游戏体验终极指南

5个专业策略：构建企业级本地漏洞情报分析平台

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

基于飞书与OpenAI构建企业级AI助手：架构、部署与深度优化指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥