Python数据分析小实践：用Pandas解析你的MBTI测试结果数据

发布时间：2026/6/3 23:29:11

Python数据分析实战用Pandas挖掘MBTI测试数据的隐藏价值MBTI性格测试作为全球最流行的心理测评工具之一每年有数百万人参与测试。但大多数人只关注最终的四个字母结果却忽略了测试过程中产生的丰富数据金矿。本文将带你用Python的Pandas库从数据科学的角度重新审视这些测试数据发现性格特征背后的有趣规律。1. 数据采集与预处理收集MBTI测试数据是分析的起点。一个完整的测试包含93道选择题每道题都有A/B两个选项最终会生成四个维度的分数E/I、S/N、T/F、J/P。我们可以设计一个CSV格式来存储这些数据import pandas as pd # 示例数据结构 data { user_id: [1, 2, 3], E_I_score: [5, -3, 8], S_N_score: [-2, 7, 4], T_F_score: [6, -1, -5], J_P_score: [-4, 2, 3], Q1: [A, B, A], Q2: [B, A, B], # ...其他题目 } df pd.DataFrame(data)处理原始数据时常见的几个问题缺失值处理测试者可能跳过某些题目异常值检测检查是否存在非A/B的无效输入数据标准化将A/B选项转换为数值便于计算# 将A/B选项转换为0/1 for col in df.columns[5:]: # 从第5列开始是题目 df[col] df[col].map({A: 0, B: 1})2. 基础统计分析有了清洗好的数据我们可以开始进行一些基础统计分析了解测试群体的整体性格分布。性格类型分布统计# 根据四个维度分数确定性格类型 def get_mbti_type(row): type_str type_str I if row[E_I_score] 0 else E type_str N if row[S_N_score] 0 else S type_str F if row[T_F_score] 0 else T type_str P if row[J_P_score] 0 else J return type_str df[mbti_type] df.apply(get_mbti_type, axis1) # 统计各类型占比 type_dist df[mbti_type].value_counts(normalizeTrue) * 100 print(type_dist)各维度得分分布可视化import matplotlib.pyplot as plt plt.figure(figsize(12, 8)) dimensions [E_I_score, S_N_score, T_F_score, J_P_score] titles [外向(E) vs 内向(I), 实感(S) vs 直觉(N), 思考(T) vs 情感(F), 判断(J) vs 感知(P)] for i, dim in enumerate(dimensions, 1): plt.subplot(2, 2, i) df[dim].hist(bins20) plt.title(titles[i-1]) plt.xlabel(得分) plt.ylabel(人数) plt.tight_layout() plt.show()3. 深入数据挖掘基础统计只是开始真正有价值的是隐藏在数据中的关联和模式。题目与性格维度的相关性分析# 计算每道题与四个维度的相关性 correlation_results [] for q in df.columns[5:97]: # 假设前5列是元数据后面是93道题 for dim in dimensions: corr df[q].corr(df[dim]) correlation_results.append({question: q, dimension: dim, correlation: corr}) corr_df pd.DataFrame(correlation_results) # 找出与各维度最相关的题目 top_correlations corr_df.groupby(dimension).apply( lambda x: x.nlargest(5, correlation)).reset_index(dropTrue)性格类型与答题模式的聚类分析from sklearn.cluster import KMeans # 使用K-means聚类分析答题模式 X df.iloc[:, 5:98] # 所有题目数据 kmeans KMeans(n_clusters16, random_state42) # 16种MBTI类型 df[cluster] kmeans.fit_predict(X) # 比较聚类结果与实际MBTI类型 cluster_type_crosstab pd.crosstab(df[cluster], df[mbti_type])4. 高级分析与应用有了前面的分析基础我们可以探索一些更高级的应用场景。性格类型预测模型from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 准备数据 X df.iloc[:, 5:98] # 题目数据 y df[mbti_type] # 目标变量 # 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42) # 训练模型 model RandomForestClassifier(n_estimators100, random_state42) model.fit(X_train, y_train) # 评估模型 y_pred model.predict(X_test) print(f模型准确率: {accuracy_score(y_test, y_pred):.2f}) # 查看特征重要性 feature_importance pd.DataFrame({ question: X.columns, importance: model.feature_importances_ }).sort_values(importance, ascendingFalse)测试结果随时间的变化分析如果收集了同一批测试者多次测试的数据可以分析性格特征的变化# 假设df包含timestamp列 df[test_date] pd.to_datetime(df[timestamp]) df.set_index(test_date, inplaceTrue) # 按月统计各类型占比变化 monthly_type_dist df.groupby([pd.Grouper(freqM), mbti_type]).size().unstack().fillna(0) monthly_type_dist monthly_type_dist.div(monthly_type_dist.sum(axis1), axis0) # 绘制变化趋势 monthly_type_dist.plot(figsize(12, 6)) plt.title(MBTI类型占比随时间变化) plt.ylabel(占比) plt.xlabel(日期) plt.legend(bbox_to_anchor(1.05, 1), locupper left) plt.show()不同人群的性格特征对比如果有额外的人口统计信息如年龄、职业等可以进行更丰富的交叉分析# 假设df中有age_group和occupation列 age_type_dist pd.crosstab(df[age_group], df[mbti_type], normalizeindex) occupation_type_dist pd.crosstab(df[occupation], df[mbti_type], normalizeindex) # 可视化 fig, axes plt.subplots(1, 2, figsize(16, 6)) age_type_dist.plot(kindbar, stackedTrue, axaxes[0]) occupation_type_dist.plot(kindbar, stackedTrue, axaxes[1]) axes[0].set_title(不同年龄段的MBTI分布) axes[1].set_title(不同职业的MBTI分布) plt.tight_layout()在实际项目中我发现数据质量对分析结果影响很大。特别是当测试者随意答题时会产生大量噪声数据。一个实用的技巧是设置验证题——在测试中插入几道内容相似的问题通过回答一致性来识别无效数据。

MQTT协议详解：从发布订阅模式到ESP8266物联网实战

1. MQTT协议：物联网时代的“轻量级信使”如果你正在捣鼓ESP8266、Arduino或者任何一款微控制器，想让它“开口说话”，把传感器数据发出去，或者远程控制一个继电器，那你大概率绕不开MQTT这个名字。它不是什么新鲜玩意儿&…

2026/6/3 23:28:10 阅读更多

告别求助IT！Windows Server 2022/21H2下，普通域用户也能自己装共享打印机的完整策略配置清单

企业IT效率革命：让普通域用户自主安装共享打印机的全策略指南每次听到办公区传来"IT小哥，帮我装个打印机吧"的呼唤，作为管理员是否感到一丝疲惫？在Windows Server 2022/21H2环境下，通过精细化的组策略配置&a…

2026/6/3 23:28:10 阅读更多

LabVIEW模块化实战：手把手教你从零封装一个带自定义图标的‘等待’函数子VI

LabVIEW模块化实战：从零封装带自定义图标的可配置等待函数在LabVIEW开发中，函数模块化是提升代码可维护性和复用性的关键。本文将带你完整实现一个带自定义图标的"等待"函数子VI，涵盖从控件布局到属性配置的全流程。不同于简单的功…

2026/6/3 23:28:10 阅读更多

如何快速掌握抖音下载器：面向新手的完整免费教程

如何快速掌握抖音下载器：面向新手的完整免费教程【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…

2026/6/4 6:16:35 阅读更多

Xcode 15开发者的终端效率手册：除了CMD+R运行，你的快捷键还缺这一块

Xcode 15终极效率指南：解锁终端快捷键的隐藏潜力在苹果开发生态中，Xcode始终是核心工具，但很多开发者只利用了它不到一半的效率潜力。当我们熟练使用CMDR运行、CMD点击跳转定义时，却常常忽略了一个关键环节——终端操作。现代iOS开…

2026/6/4 6:15:34 阅读更多

手把手教你用ethtool -E命令修改网卡EEPROM（附虚拟机安全测试流程）

深度解析ethtool -E命令：虚拟机环境下安全修改网卡EEPROM的完整指南在数据中心运维和网络设备调试中，网卡EEPROM配置异常常常是各种奇怪问题的根源。想象一下这样的场景：一批同型号的服务器中，某台设备的网络吞吐量始终达不到预期…

2026/6/4 6:15:34 阅读更多

用STM32F103C8T6搞定74HC165扩展16个按键（附完整代码和接线图）

STM32F103C8T6与74HC165实现16键扩展实战指南在嵌入式开发中，GPIO资源紧张是常见问题。当我们需要控制多个按键时，直接连接会占用大量引脚。本文将详细介绍如何利用STM32F103C8T6和74HC165移位寄存器芯片，仅用3个GPIO引脚实现16个独立按键的扩…

2026/6/4 6:13:13 阅读更多

别再手动复制粘贴了！用poi-tl + Apache POI 5.2.2+ 搞定Word领料单自动生成（附完整代码）

基于poi-tl的Word领料单自动化生成实战指南1. 为什么选择poi-tl而非原生Apache POI在企业级文档自动化领域，Apache POI一直是Java生态中的标准解决方案。然而当面对复杂模板、动态内容和精细排版需求时，原生POI API的冗长代码和低可维护性成为开发者的噩…

2026/6/4 6:11:31 阅读更多

避坑指南：在RH850上发送超过16位SPI数据包，EDL位和CS信号时序你配对了吗？

RH850 SPI扩展数据长度实战：40位数据发送与EDL时序避坑指南当你在RH850平台上尝试发送一段40位的SPI数据时，是否遇到过CS信号提前释放、数据截断或时序错乱的问题？这往往源于对EDL扩展数据长度位与CS片选信号之间微妙配合关系的误解。本文将深…

2026/6/4 6:11:11 阅读更多

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

IAR Embedded Workbench 许可证管理全指南与合规开发方案在嵌入式开发领域，IAR Embedded Workbench 以其高效的编译器和强大的调试功能著称，成为众多工程师的首选工具。然而，随着团队规模扩大和项目复杂度提升，许可证管理问题逐渐…

2026/6/4 0:03:11 阅读更多

赤铁矿磨矿过程运行优化控制软件系统【附程序】

✨ 长期致力于赤铁矿磨矿过程、磨矿粒度、数据驱动、运行优化控制、神经网络、案例推理、规则推理、软件系统研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&…

2026/6/4 0:03:32 阅读更多

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

终极指南：如何使用Attu轻松管理你的Milvus向量数据库【免费下载链接】attu The Best GUI for Milvus 项目地址: https://gitcode.com/gh_mirrors/at/attu Attu是一款专为Milvus向量数据库设计的现代化AI工作台管理工具，提供全面的可视化界面&…

2026/6/4 0:04:12 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/3 4:17:19 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/3 4:17:20 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/3 4:17:20 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/3 5:40:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/3 4:17:20 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/3 4:17:19 阅读更多

相关文章

MQTT协议详解：从发布订阅模式到ESP8266物联网实战

告别求助IT！Windows Server 2022/21H2下，普通域用户也能自己装共享打印机的完整策略配置清单

LabVIEW模块化实战：手把手教你从零封装一个带自定义图标的‘等待’函数子VI

如何快速掌握抖音下载器：面向新手的完整免费教程

Xcode 15开发者的终端效率手册：除了CMD+R运行，你的快捷键还缺这一块

手把手教你用ethtool -E命令修改网卡EEPROM（附虚拟机安全测试流程）

用STM32F103C8T6搞定74HC165扩展16个按键（附完整代码和接线图）

别再手动复制粘贴了！用poi-tl + Apache POI 5.2.2+ 搞定Word领料单自动生成（附完整代码）

避坑指南：在RH850上发送超过16位SPI数据包，EDL位和CS信号时序你配对了吗？

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

赤铁矿磨矿过程运行优化控制软件系统【附程序】

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因