Pandas 数据清洗与分析

发布时间：2026/5/19 14:18:35

第一部分水果销售分析入门篇首先我们有一个简单的水果销售列表。我们的任务是算出每种水果的总销量以及每天的销售明细。1. 数据准备我们先造一点数据import pandas as pd import numpy as np data { 日期: [2025-03-01, 2025-03-01, 2025-03-01, 2025-03-02, 2025-03-02, 2025-03-02, 2025-03-03, 2025-03-03, 2025-03-03, 2025-03-04, 2025-03-04, 2025-03-04, 2025-03-05, 2025-03-05, 2025-03-05, 2025-03-06, 2025-03-06, 2025-03-06], 水果种类: [苹果, 香蕉, 橙子, 苹果, 香蕉, 葡萄, 苹果, 橙子, 葡萄, 香蕉, 橙子, 葡萄, 苹果, 香蕉, 橙子, 苹果, 香蕉, 葡萄], 销售数量斤: [15, 10, 8, 12, 18, 10, 20, 15, 12, 14, 10, 8, 18, 16, 12, 10, 11, 9], 销售金额元: [75, 30, 40, 60, 54, 50, 100, 75, 60, 42, 50, 40, 90, 48, 60, 50, 33, 45] } df1 pd.DataFrame(data)2. 分组统计 (Groupby)需求算算每种水果总共卖了多少斤收了多少钱大白话把相同的水果堆在一起把它们的数量和钱数加起来。# 按水果种类分组对数量和金额求和 result1 df1.groupby(水果种类).sum() print(result1)输出结果苹果卖了 75 斤收了 375 元。香蕉卖了 69 斤收了 207 元。橙子卖了 45 斤收了 225 元。葡萄卖了 39 斤收了 195 元。3. 透视表 (Pivot Table)需求我想看一张表格行是日期列是水果中间是销量。大白话把数据“转”一下变成交叉报表没有的数据显示为0。# index行columns列values值fill_value空值填0 result2 df1.pivot_table(index日期, columns水果种类, values销售数量斤, fill_value0) print(result2)效果你会得到一张 6天 x 4种水果的表格一眼就能看出哪天卖了什么。第二部分校园超市数据清洗进阶篇真实的业务数据校园超市销售.csv往往很乱。我们来看看如何清洗它。1. 数据概览 (info isnull)大白话先给数据做个“体检”。发现的问题空值商品ID缺1个销售数量缺1个单价缺2个支付方式缺3个。类型错误数量和单价竟然是“文本”object不是数字。乱码支付方式里有“微信”、“weixin”、“ZHI FU BAO”混着写。2. 清洗步骤 (Step-by-Step)第一步处理支付方式的乱码把所有字母转大写并统一替换为标准名称。# 统一格式转大写并替换掉全大写的拼音 data2[支付方式] data2[支付方式].str.replace(ZHI FU BAO,支付宝).str.upper().str.replace(WEIXIN,微信)第二步处理空值 (NaN)难点支付方式里有“未记录”这其实也是空值。策略先把“未记录”转成标准的空值NaN。单价用平均值填充。支付方式这里有个坑如果用“众数”出现最多的词填发现“微信”和“支付宝”一样多。这时候我们用了向前填充 (ffill)也就是用上一笔交易的支付方式来推断这一笔。# 把未记录变成空值 data2[支付方式] data2[支付方式].replace(未记录, float(nan)) # 单价用平均值填 data2[单价元] data2[单价元].fillna(data2[单价元].mean()) # 支付方式用上一行的值来填 data2[支付方式] data2[支付方式].ffill()第三步格式化与类型转换去掉单价里的“”和“元”并把类型转为浮点数。# 去掉符号 data2[单价元] data2[单价元].str.replace(,).str.replace(元,).str.strip() # 转成数字类型 data2[单价元] data2[单价元].astype(float)第四步删除异常值把销售数量小于0的删掉超市不可能卖出负数。data2.drop(data2[data2[销售数量]0].index, inplaceTrue)第三部分用代码“造”数据NumPy 随机生成有时候为了测试代码我们需要大量数据。我们可以用代码模拟生成1. 模拟需求时间2023年1月1日到 2025年12月20日。水果随机选[苹果,香蕉,车厘子,西瓜,榴莲]。用户随机选[Jack,Tom,Lucy...]。数量随机生成 50-100 之间的数字。2. 核心代码# 1. 生成日期序列 time_range pd.date_range(start1/1/2023, end20/12/2025) # 2. 定义选项池 fruits [苹果,香蕉,车厘子,西瓜,榴莲] names [Jack,Tom,Lucy,Lily,Bob,Mike] # 3. 随机抽选 (关键函数np.random.choice) fruits_list np.random.choice(fruits, sizelen(time_range), replaceTrue) names_list np.random.choice(names, sizelen(time_range), replaceTrue) # 4. 组合成表格 order pd.DataFrame({ 时间: time_range, 水果种类: fruits_list, 用户: names_list, 购买数量: np.random.choice(list(range(50,100)), sizelen(time_range), replaceTrue) })3. 数据可视化热力图用颜色深浅来表示数值大小一眼看出谁是“大胃王”。# cmapSpectral_r 是配色方案颜色越深代表数值越大 order.style.background_gradient(cmapSpectral_r)总结今天我们学到了清洗脏数据处理乱码统一大小写、处理空值平均值填充 vs 向前填充、删除异常值。数据生成利用numpy.random.choice快速构建测试数据集。分析groupby分组求和pivot_table重塑数据。

还在为Linux文件搜索太慢而烦恼？FSearch让文件秒级定位成为现实

还在为Linux文件搜索太慢而烦恼？FSearch让文件秒级定位成为现实【免费下载链接】fsearch A fast file search utility for Unix-like systems based on GTK3 项目地址: https://gitcode.com/gh_mirrors/fs/fsearch 你是否曾在Linux系统中花费大量时间寻找一…

2026/5/19 14:18:15 阅读更多

【LLM】CC

一、什么是 Claude Code？ Claude Code 是 Anthropic 发布的一款智能体编码工具（Agentic Coding Tool），它有一个"智能体循环"（Agentic Loop）——可以规划并执行动作以完成目标，能调用…

2026/5/19 14:17:34 阅读更多

AI Agent 智能体架构深度解析：从 GPT-5.5 到企业级规模化部署

前言 2026年5月，AI行业迎来历史性转折点。OpenAI于5月8日正式推送GPT-5.5，其Agent能力从"演示"跃升至"可用"级别；OpenAI同日宣布成立"OpenAI Deployment Company"，标志着大模型产业正式从"能力展示"转入"规模化部署"阶…

2026/5/19 14:16:31 阅读更多

告别假进度条！UE5蓝图实战：用自定义AssetManager实现真实关卡加载进度

UE5蓝图实战：打造真实关卡加载进度系统在虚幻引擎5（UE5）游戏开发中，流畅的关卡加载体验对玩家沉浸感至关重要。许多开发者会遇到"假进度条"问题——进度条看似在动，实则与真实加载进度无关。本文将手把手教…

2026/5/19 15:05:48 阅读更多

基于ESP32的嵌入式AI语音交互系统：从硬件设计到软件实现全解析

1. 项目概述：从零打造一个会聊天的嵌入式AI伙伴几年前，当我第一次把“小爱同学”拆开，看到里面密密麻麻的芯片和电路时，一个念头就冒了出来：能不能自己动手，用一块开发板，从头搭建一个能听会说、…

2026/5/19 15:05:48 阅读更多

EB Garamond 12：免费获取经典学术字体与完整使用指南

EB Garamond 12：免费获取经典学术字体与完整使用指南【免费下载链接】EBGaramond12 项目地址: https://gitcode.com/gh_mirrors/eb/EBGaramond12 你是否正在寻找一款既拥有古典韵味又适合现代学术排版的优雅字体？EB Garamond 12正是这样一款让你…

2026/5/19 15:05:26 阅读更多

Midscene.js：当AI成为你的跨平台UI操作员，告别传统自动化困境

Midscene.js：当AI成为你的跨平台UI操作员，告别传统自动化困境【免费下载链接】midscene AI-powered, vision-driven UI automation for every platform. 项目地址: https://gitcode.com/GitHub_Trending/mid/midscene 你是否曾经为编写复杂的UI自…

2026/5/19 15:05:26 阅读更多

RK3588安防实战：从边缘智能到后端分析的全栈开发指南

1. 项目概述：为什么选择RK3588作为安防应用的“大脑”？在安防行业摸爬滚打这些年，我经手过不少基于不同芯片平台的解决方案。从早期的海思、TI，到后来的NXP、瑞芯微，每一次平台选型都直接关系到项目的成败，…

2026/5/19 15:04:44 阅读更多

用纸板和CircuitPython制作踉跄机器人：从伺服电机控制到步态编程

1. 项目概述：一个会“踉跄”行走的纸板机器人如果你对机器人感兴趣，但又觉得那些复杂的机械结构、昂贵的金属零件和深奥的控制算法让人望而却步，那么这个项目就是为你准备的。今天我们要聊的，是一个名叫“Stumble-Bot”&#xff0…

2026/5/19 15:03:41 阅读更多

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务【免费下载链接】biliTickerBuy b站会员购购票辅助工具项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy biliTickerBuy是一款专为B站会员购平台设计的开源辅助工具&…

2026/5/19 0:00:10 阅读更多

一口气讲清楚 Monorepo、Turborepo、pnpm、Changesets 到底是什么？

你肯定遇到过这种情况：项目里同时有前端、后端、公共组件，放在一个仓库嫌乱，拆成多个仓库又改一个公共函数要在五个项目里各改一遍。于是出现了 Monorepo、Turborepo、pnpm、Changesets 这四个词。它们不是互相替代，而是分别解决工…

2026/5/19 0:00:31 阅读更多

从ok-skills项目解析技能树：设计理念、技术实现与工程实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目，叫“ok-skills”。光看这个名字，可能有点摸不着头脑，但点进去一看，发现这是一个关于“技能树”或“知识图谱”的开源项目。简单来说，它试图用一种结构化的…

2026/5/19 0:01:12 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/19 4:14:12 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/19 0:56:48 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/19 0:00:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/18 19:34:27 阅读更多

相关文章