用Python和Matlab玩转东南大学齿轮箱数据集：从数据读取到故障分类实战

发布时间：2026/5/30 1:27:06

用Python和Matlab玩转东南大学齿轮箱数据集从数据读取到故障分类实战当你第一次打开东南大学齿轮箱数据集时面对几十个CSV文件和8通道的振动信号数据可能会感到无从下手。这份数据集包含了五种齿轮故障类型和两种工况是研究机械故障诊断的绝佳素材。本文将带你用Python和Matlab两种工具从数据清洗到特征提取最终构建一个能够自动识别齿轮故障类型的机器学习模型。1. 数据集理解与预处理东南大学齿轮箱数据集包含了五种齿轮故障状态齿缺损、断齿、根部裂纹、齿面磨损以及正常运行状态。每种故障类型又分为两种工况转速20Hz-负载0V和转速30Hz-负载2V这使得数据集具有很好的多样性。1.1 数据结构解析每个CSV文件包含8列数据分别对应电机振动信号行星齿轮x方向振动行星齿轮y方向振动行星齿轮z方向振动电机扭矩减速器x方向振动减速器y方向振动减速器z方向振动采样频率为5120Hz这意味着每秒钟记录了5120个数据点。理解这些通道的物理意义对后续特征提取至关重要。1.2 Python数据读取方法使用Python的pandas库可以高效读取这些CSV文件import pandas as pd import os def load_gear_data(folder_path): data_dict {} for file in os.listdir(folder_path): if file.endswith(.csv): # 从文件名解析故障类型和工况 fault_type file.split(_)[0] condition file.split(_)[1] # 读取CSV跳过可能的文件头 df pd.read_csv(os.path.join(folder_path, file), headerNone) # 添加列名 df.columns [motor_vib, planet_x, planet_y, planet_z, motor_torque, reducer_x, reducer_y, reducer_z] data_dict[f{fault_type}_{condition}] df return data_dict1.3 Matlab数据读取优化虽然原始资料提供了Matlab读取代码但我们可以做一些改进function [data_cell, labels] loadGearData(folder_path) files dir(fullfile(folder_path, *.csv)); data_cell cell(length(files), 1); labels cell(length(files), 1); for i 1:length(files) filename files(i).name; % 解析故障类型和工况 parts strsplit(filename, _); fault_type parts{1}; condition parts{2}(1:end-4); % 去掉.csv % 读取数据 data readmatrix(fullfile(folder_path, filename)); % 存储数据和标签 data_cell{i} data; labels{i} [fault_type _ condition]; end end2. 数据可视化与探索性分析2.1 时域信号可视化在Python中我们可以使用matplotlib快速绘制各通道信号import matplotlib.pyplot as plt def plot_time_domain(data_dict, sample_key, start0, end1000): data data_dict[sample_key].iloc[start:end] plt.figure(figsize(15, 10)) for i, col in enumerate(data.columns, 1): plt.subplot(4, 2, i) plt.plot(data[col]) plt.title(col) plt.xlabel(Sample) plt.ylabel(Amplitude) plt.tight_layout() plt.show()2.2 频域分析技巧振动信号的频域特征往往比时域特征更具区分度。使用快速傅里叶变换(FFT)进行分析import numpy as np from scipy.fft import fft def compute_fft(signal, fs5120): n len(signal) yf fft(signal) xf np.linspace(0, fs/2, n//2) return xf, 2/n * np.abs(yf[0:n//2]) def plot_frequency_domain(data_dict, sample_key, channelplanet_x): signal data_dict[sample_key][channel].values xf, yf compute_fft(signal) plt.figure(figsize(10, 4)) plt.plot(xf, yf) plt.title(fFrequency Domain - {channel}) plt.xlabel(Frequency (Hz)) plt.ylabel(Magnitude) plt.grid() plt.show()2.3 多通道信号相关性分析8个通道信号之间存在一定的相关性计算相关系数矩阵可以帮助我们理解它们之间的关系def plot_correlation_matrix(data_dict, sample_key): data data_dict[sample_key] corr data.corr() plt.figure(figsize(10, 8)) sns.heatmap(corr, annotTrue, cmapcoolwarm, center0) plt.title(Channel Correlation Matrix) plt.show()3. 特征工程从原始信号到特征向量3.1 时域特征提取时域特征计算简单且具有明确的物理意义。以下是一些常用的时域特征def extract_time_features(signal): features { mean: np.mean(signal), std: np.std(signal), rms: np.sqrt(np.mean(signal**2)), peak: np.max(np.abs(signal)), kurtosis: scipy.stats.kurtosis(signal), skewness: scipy.stats.skew(signal), crest_factor: np.max(np.abs(signal)) / np.sqrt(np.mean(signal**2)), impulse_factor: np.max(np.abs(signal)) / np.mean(np.abs(signal)) } return features3.2 频域特征提取频域特征通常能更好地反映机械故障特征def extract_freq_features(signal, fs5120): xf, yf compute_fft(signal, fs) features { freq_mean: np.mean(yf), freq_std: np.std(yf), freq_peak: np.max(yf), peak_freq: xf[np.argmax(yf)], band_energy_0_500: np.sum(yf[(xf 0) (xf 500)]), band_energy_500_1000: np.sum(yf[(xf 500) (xf 1000)]), band_energy_1000_2000: np.sum(yf[(xf 1000) (xf 2000)]) } return features3.3 多通道特征融合策略如何有效利用8个通道的信息是一个关键问题。以下是几种融合策略通道选择根据相关性分析选择信息量最大的几个通道特征级融合计算所有通道特征的均值或最大值决策级融合为每个通道训练单独的分类器然后投票决定最终结果def extract_all_features(data_dict): all_features [] labels [] for key, df in data_dict.items(): # 为每个样本提取特征 sample_features {} # 为每个通道提取时域和频域特征 for channel in df.columns: signal df[channel].values time_feat extract_time_features(signal) freq_feat extract_freq_features(signal) # 添加通道前缀 for k, v in time_feat.items(): sample_features[f{channel}_{k}] v for k, v in freq_feat.items(): sample_features[f{channel}_{k}] v all_features.append(sample_features) labels.append(key.split(_)[0]) # 只取故障类型 # 转换为DataFrame feature_df pd.DataFrame(all_features) feature_df[label] labels return feature_df4. 故障分类模型构建4.1 数据准备与划分在构建模型前我们需要准备好特征矩阵和标签from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler, LabelEncoder # 加载特征 feature_df extract_all_features(data_dict) # 编码标签 le LabelEncoder() y le.fit_transform(feature_df[label]) X feature_df.drop(label, axis1) # 标准化特征 scaler StandardScaler() X_scaled scaler.fit_transform(X) # 划分训练测试集 X_train, X_test, y_train, y_test train_test_split( X_scaled, y, test_size0.3, random_state42, stratifyy)4.2 随机森林模型随机森林适合处理高维特征且对参数不敏感from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report rf RandomForestClassifier(n_estimators200, max_depth10, random_state42) rf.fit(X_train, y_train) y_pred rf.predict(X_test) print(classification_report(y_test, y_pred, target_namesle.classes_))4.3 SVM模型SVM在小样本情况下表现优异但对特征缩放敏感from sklearn.svm import SVC svm SVC(C1.0, kernelrbf, gammascale, random_state42) svm.fit(X_train, y_train) y_pred_svm svm.predict(X_test) print(classification_report(y_test, y_pred_svm, target_namesle.classes_))4.4 模型评估与特征重要性分析哪些特征对分类最有帮助# 获取特征重要性 importances rf.feature_importances_ indices np.argsort(importances)[::-1] # 打印最重要的10个特征 print(Feature ranking:) for f in range(10): print(f{f1}. {X.columns[indices[f]]}: {importances[indices[f]]})5. 高级技巧与实战建议5.1 处理类别不平衡齿轮故障数据通常存在类别不平衡问题可以采用以下方法from imblearn.over_sampling import SMOTE smote SMOTE(random_state42) X_resampled, y_resampled smote.fit_resample(X_train, y_train)5.2 时频分析结合结合时域和频域分析可以提取更丰富的特征from scipy.signal import spectrogram def compute_spectrogram(signal, fs5120): f, t, Sxx spectrogram(signal, fsfs, nperseg256) return f, t, Sxx def plot_spectrogram(signal, fs5120): f, t, Sxx compute_spectrogram(signal, fs) plt.pcolormesh(t, f, 10*np.log10(Sxx), shadinggouraud) plt.ylabel(Frequency [Hz]) plt.xlabel(Time [sec]) plt.colorbar(labelPower/Frequency [dB/Hz]) plt.show()5.3 模型集成与优化结合多个模型可以提升分类性能from sklearn.ensemble import VotingClassifier # 定义多个分类器 estimators [ (rf, RandomForestClassifier(n_estimators200, random_state42)), (svm, SVC(probabilityTrue, random_state42)), (xgb, XGBClassifier(random_state42)) ] # 创建投票分类器 ensemble VotingClassifier(estimatorsestimators, votingsoft) ensemble.fit(X_train, y_train) # 评估 y_pred_ens ensemble.predict(X_test) print(classification_report(y_test, y_pred_ens, target_namesle.classes_))5.4 实际应用中的注意事项采样一致性确保所有数据使用相同的采样频率处理工况影响不同转速和负载下的信号特征可能有显著差异特征选择不是所有提取的特征都有用需要进行筛选实时性考虑在实际应用中需要考虑计算效率

Redis在线学习终极指南：3分钟零配置掌握数据库核心操作

Redis在线学习终极指南：3分钟零配置掌握数据库核心操作【免费下载链接】try.redis A demonstration of the Redis database. 项目地址: https://gitcode.com/gh_mirrors/tr/try.redis 还在为Redis环境搭建而头疼吗？还在为复杂的配置步骤而烦恼吗…

2026/5/30 1:26:45 阅读更多

空间频域成像技术与梨光学特性参数检测解析方案【附数据】

✨ 长期致力于积分球、空间频域成像、光学特性参数、梨、快速无损检测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于蒙特卡洛仿真与最小二乘支持…

2026/5/30 1:25:45 阅读更多

Claude Opus 4.8 接口与工程落地分析：长任务调用链应该怎么设计

Claude Opus 4.8 发布后，很多人关注模型本身的能力提升。但从工程落地角度看，更值得关注的是：如果把它放进一个真实系统，调用链应该怎么设计。尤其是长任务、代码分析、自动化验证这类场景，不能只把模型当成一个普通聊…

2026/5/30 1:25:45 阅读更多

第16篇实战：用 Docker Compose 编排 WordPress 与 MySQL

IT策士 10余年一线大厂经验，专注 IT 思维、架构、职场进阶。我会在各个平台持续发布最新文章，助你少走弯路。到目前为止，我们的贯穿案例一直是 Flask Redis 计数器。它足够经典，但有些读者可能会觉得“太轻量”了——毕竟只有两…

2026/5/30 1:59:46 阅读更多

别再用老教程了！2024年Windows 11下配置DirectX SDK (June 2010) 的完整避坑指南

别再用老教程了！2024年Windows 11下配置DirectX SDK (June 2010) 的完整避坑指南如果你正在Windows 11上尝试配置DirectX SDK进行图形开发，可能会发现网上大多数教程都停留在十年前。这些过时的指南不仅无法解决新系统下的兼容性问题，还可能让…

2026/5/30 1:59:46 阅读更多

MySQL之表的内连接和外连接

内连接内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选，我们前面学习的查询都是内连接，也是在开发过程中使用的最多的连接查询。select 字段 from 表1 inner join 表2 on 连接条件 and 其他条件；只返回两张表中满足连接条件的…

2026/5/30 1:59:25 阅读更多

终末期心衰并非终局！合肥高心成功破局112kg超高危多病灶心衰患者

心内科、心外科临床工作中，经常被问到一个问题：确诊终末期心衰、合并肥胖、多种心脏疾病叠加，是不是基本没有救治希望了？很多患者、甚至部分基层医生的固有认知是：终末期心衰等待心脏移植，无法移植就等于不…

2026/5/30 1:59:25 阅读更多

不止于画线：用Vectrosity插件在Unity里制作平滑的游戏技能轨迹与UI指示线

超越基础线条：用Vectrosity打造Unity中的动态视觉艺术在MOBA游戏中精准释放技能时那道优雅的弧形轨迹，RPG任务指引中蜿蜒穿过UI元素的光带，或是射击游戏中子弹弹道留下的动态残影——这些令人印象深刻的视觉元素背后，往往隐藏着开…

2026/5/30 1:59:05 阅读更多

600D/800D 牛津布好缝制吗？厚料缝纫真实行业案例解析

一、行业常见咨询问题不少加工厂选购自动化缝纫设备时，都会问到：设备能否顺畅缝制 600D、800D 牛津布？缝制过程容易断针吗？面料会不会出现褶皱？这类疑问直击厚料缝纫行业普遍痛点，传统缝纫设备加工高强度厚…

2026/5/30 1:59:05 阅读更多

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

Win11/Win10深度学习环境终极对决：WSL2 CUDA vs 虚拟机 vs 双系统实测指南当开发者需要在Windows系统上进行深度学习开发时，通常会面临三种选择：虚拟机方案、双系统方案和WSL2方案。本文将基于实际测试数据，从GPU性能、开发便利性…

2026/5/30 0:00:39 阅读更多

SketchUp STL插件终极指南：3D打印工作流完全掌握

SketchUp STL插件终极指南：3D打印工作流完全掌握【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl SketchUp STL插件…

2026/5/30 0:00:39 阅读更多

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

1. 项目概述：从零构建一个基于ICL8038的多波形信号发生器在电子实验、设备调试乃至生物医学信号处理领域，一个稳定可靠、波形纯净的信号源是不可或缺的“心脏”。无论是用于测试放大器的频率响应，还是模拟生理电信号进行算法研究，…

2026/5/30 0:01:40 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/29 8:13:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/29 8:13:55 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/29 8:13:54 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/28 20:29:33 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/28 17:40:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/29 13:19:05 阅读更多

相关文章