算法竞赛党必备：用Friedman检验和Nemenyi后续检验给你的模型排名次（附Python代码）

发布时间：2026/5/24 11:46:49

算法竞赛实战指南用Friedman与Nemenyi检验科学评估模型性能在Kaggle等数据科学竞赛中我们常常需要面对一个关键问题**当多个模型在不同数据集上的表现存在波动时如何科学判断哪个模型真正更优**传统方法如直接比较平均指标往往忽略了数据分布差异带来的影响而Friedman检验与Nemenyi后续检验的组合恰好为解决这一难题提供了统计学严谨的方案。1. 为什么需要非参数检验数据科学竞赛中常见的模型比较误区是仅凭测试集上的平均准确率或F1分数直接排名。这种做法的致命缺陷在于忽视了不同数据集之间的分布差异——某个模型可能在特定数据分布下表现优异但在其他分布中表现平平。这就好比用不同考卷测试学生能力直接比较原始分数显然有失公平。参数检验的局限性在模型比较中尤为明显要求数据服从正态分布对异常值敏感需要满足方差齐性假设当我们在多个数据集上测试模型时这些条件往往难以满足。此时基于排序的非参数检验方法展现出独特优势# 常见参数检验方法示例对比参考 from scipy import stats # t检验参数检验 t_stat, p_val stats.ttest_ind(model_a_scores, model_b_scores) # Wilcoxon检验非参数检验 wilcoxon_stat, p_val stats.wilcoxon(model_a_scores, model_b_scores)2. Friedman检验模型性能的综合裁判Friedman检验的核心思想是将每个数据集视为一个区块在区块内部对模型性能进行排序从而消除数据集间的差异影响。这种方法类似于竞赛中的分组预赛——在每个小组内先确定排名再汇总比较。2.1 检验步骤详解假设我们比较XGBoost、LightGBM和CatBoost三个模型在10个数据集上的F1分数数据准备整理模型在各数据集上的指标区块内排序在每个数据集上对模型表现排名最佳为1次之为2...处理平局对性能相同的模型分配平均排名计算平均序值对每个模型在所有数据集上的排名取平均示例数据集数据集XGBoost(F1)LightGBM(F1)CatBoost(F1)XGBoost(rank)LightGBM(rank)CatBoost(rank)Set10.850.830.84132Set20.780.790.77213.....................2.2 统计量计算Friedman检验统计量计算公式[ \chi_F^2 \frac{12N}{k(k1)}\left[\sum_{j1}^k R_j^2 - \frac{k(k1)^2}{4}\right] ]其中( N )数据集数量( k )模型数量( R_j )第j个模型的平均序值更准确的F分布统计量[ F_F \frac{(N-1)\chi_F^2}{N(k-1)-\chi_F^2} ]2.3 Python实现import numpy as np import pandas as pd from scipy import stats # 示例数据3个模型在5个数据集上的F1分数 data { Dataset: [Set1, Set2, Set3, Set4, Set5], XGBoost: [0.85, 0.78, 0.82, 0.79, 0.83], LightGBM: [0.83, 0.79, 0.81, 0.80, 0.84], CatBoost: [0.84, 0.77, 0.80, 0.78, 0.82] } df pd.DataFrame(data) rankings df.drop(Dataset, axis1).rank(axis1, ascendingFalse) average_ranks rankings.mean() # Friedman检验 N, k df.shape[0], df.shape[1]-1 chi2 (12*N)/(k*(k1)) * (sum(average_ranks**2) - (k*(k1)**2)/4) F ((N-1)*chi2) / (N*(k-1) - chi2) p_value 1 - stats.f.cdf(F, k-1, (k-1)*(N-1)) print(fFriedman统计量: {F:.4f}, p值: {p_value:.4f})3. Nemenyi后续检验找出差异来源当Friedman检验拒绝原假设即模型性能存在显著差异时Nemenyi检验可以帮助我们确定具体哪些模型之间存在显著差异。3.1 关键概念临界差CDNemenyi检验的核心是计算临界差[ CD q_\alpha \sqrt{\frac{k(k1)}{6N}} ]其中( q_\alpha )是Studentized range统计量除以√2。常用( q_\alpha )值模型数(k)α0.05α0.121.9601.64532.3432.05242.5692.291.........3.2 结果解读方法计算各模型平均序值差与临界差CD比较若差值 CD则认为两模型性能差异显著否则认为差异不显著可视化工具——临界差图import matplotlib.pyplot as plt models [XGBoost, LightGBM, CatBoost] avg_ranks [1.4, 1.8, 2.8] cd 0.5 # 假设计算的临界差 fig, ax plt.subplots(figsize(8,4)) ax.hlines(ymodels, xmin[r-cd/2 for r in avg_ranks], xmax[rcd/2 for r in avg_ranks], colorgray, alpha0.7) ax.scatter(avg_ranks, models, colorred, s100) ax.set_xlabel(Average Rank) ax.set_title(Critical Difference Diagram) plt.grid(True) plt.show()4. 竞赛实战技巧与陷阱规避4.1 数据准备注意事项指标选择确保评估指标与竞赛目标一致如不平衡分类优先考虑F1而非准确率交叉验证每个数据集应采用相同的交叉验证策略结果记录保存每次运行的详细结果避免仅记录平均值4.2 常见错误与修正错误1忽略平局情况的处理修正对相同性能的模型分配平均排名错误2在小样本情况下直接应用Friedman检验修正当N10且k5时应查专用临界值表而非依赖χ²近似错误3未考虑多重比较问题修正使用Nemenyi等专门设计的多重比较方法4.3 进阶应用结合其他检验方法在某些场景下可以组合使用不同检验方法先用Friedman检验判断是否存在全局差异若显著用Nemenyi找出差异组对特别关注的模型对可辅以Wilcoxon符号秩检验# 组合检验示例 from scipy import stats # 对特定模型对进行Wilcoxon检验 xgb_scores [0.85, 0.78, 0.82, 0.79, 0.83] lgbm_scores [0.83, 0.79, 0.81, 0.80, 0.84] wilcoxon_stat, wilcoxon_p stats.wilcoxon(xgb_scores, lgbm_scores)在实际竞赛中我发现当模型性能差异较小时Friedman-Nemenyi组合能有效避免单纯依赖指标平均值导致的误判。特别是在处理异构数据集时这种基于排序的方法展现出更强的鲁棒性。一个实用的建议是当两个模型的平均序值差小于CD但接近时虽然统计上不显著但实践中可能仍值得选择排名更优的模型特别是在竞赛时间有限的情况下。

iOS设备激活解锁终极指南：Applera1n工具完整使用教程

iOS设备激活解锁终极指南：Applera1n工具完整使用教程【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 还在为二手iOS设备的激活锁问题而烦恼吗？Applera1n是一款专为iOS 15-16系统…

2026/5/24 11:45:48 阅读更多

PCL2启动器微软账户登录皮肤显示问题的完整解决方案与实践指南

PCL2启动器微软账户登录皮肤显示问题的完整解决方案与实践指南【免费下载链接】PCL Minecraft 启动器 Plain Craft Launcher（PCL）。项目地址: https://gitcode.com/gh_mirrors/pc/PCL PCL2启动器作为一款功能强大的Minecraft第三方启动器&#…

2026/5/24 11:45:48 阅读更多

Windows快捷键冲突终极解决方案：3分钟定位占用程序的秘密武器

Windows快捷键冲突终极解决方案：3分钟定位占用程序的秘密武器【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你…

2026/5/24 11:45:28 阅读更多

鸿蒙PC：Qt适配OpenHarmony实战【度量间】：把长度、重量、温度三类换算装进 Qt Quick

前言欢迎加入鸿蒙PC开发者社区，共同打造开发者工具生态：鸿蒙PC开发者社区 ：https://harmonypc.csdn.net/ 项目开源地址：https://atomgit.com/lqjmac/qt_dulianjian 我更愿意把这类 Demo 当成工程切片来看：功能要小&am…

2026/5/24 23:45:13 阅读更多

鸿蒙PC：Qt适配OpenHarmony实战【花账】：从一笔支出开始，做一个本地记账小应用

前言欢迎加入鸿蒙PC开发者社区，共同打造开发者工具生态：鸿蒙PC开发者社区 ：https://harmonypc.csdn.net/ 项目开源地址：https://atomgit.com/lqjmac/qt_huazhang 这篇不是从概念开始，而是从一个已经能安装、能启动、能…

2026/5/24 23:45:13 阅读更多

支付即开票·自助开票·阿雪心学·无相无界(12)—东方仙盟

未来之窗架构：支付即开票，构建企业数字化开票新生态未来之窗架构深度融合数电发票创新能力，以支付即开票为核心内核，打通交易、开票、数据流转全链路，为企业提供合规、高效、低成本的一体化开票解决方案。该架构无需依…

2026/5/24 23:44:33 阅读更多

对比自建代理，使用Taotoken聚合平台在稳定性与运维上的体验提升

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度对比自建代理，使用Taotoken聚合平台在稳定性与运维上的体验提升过去，一些开发团队为了便捷地使用特定的大…

2026/5/24 23:43:12 阅读更多

我突然发现了一个道理，这个什么烂人都有，哪怕你随便说句没啥贬低的中性的话，人家也可以给你找出话来说你，你说这个社会搞笑不？这就是社会大了，什么鸟人都有的缘故了

你这个感受，其实很多人在进入社会、尤其进入婚姻和复杂人际关系后，都会慢慢体会到。确实有一类人会：对别人特别敏感喜欢挑话里的刺默认别人有恶意很容易上纲上线把中性话也理解成冒犯你会发现：同一句话，正常人听完没感觉；有的人却能立刻开始不爽、挑理、发…

2026/5/24 23:42:52 阅读更多

有些女的就是只配孤独终老，一说话就伤人，我觉得没有必要相处，没必要去改变一些人，林子大了，什么鸟都有。。。——拉开距离，减少纠缠，建立边界，降低期待

你现在这种反感，更多像是长期被消耗后的失望和厌倦。当一个人长期经历：被否定不被维护说话被刺情绪被压着沟通没反馈确实很容易慢慢变成： “我不想再理解了，也不想再靠近了。” 这其实是一种心理上的“抽离”。不过也要注意，别因为遇到一种人，就把情绪扩大…

2026/5/24 23:42:52 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/24 15:30:50 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/24 15:03:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章

iOS设备激活解锁终极指南：Applera1n工具完整使用教程

PCL2启动器微软账户登录皮肤显示问题的完整解决方案与实践指南

Windows快捷键冲突终极解决方案：3分钟定位占用程序的秘密武器

鸿蒙PC：Qt适配OpenHarmony实战【度量间】：把长度、重量、温度三类换算装进 Qt Quick

鸿蒙PC：Qt适配OpenHarmony实战【花账】：从一笔支出开始，做一个本地记账小应用

支付即开票·自助开票·阿雪心学·无相无界(12)—东方仙盟

对比自建代理，使用Taotoken聚合平台在稳定性与运维上的体验提升

我突然发现了一个道理，这个什么烂人都有，哪怕你随便说句没啥贬低的中性的话，人家也可以给你找出话来说你，你说这个社会搞笑不？这就是社会大了，什么鸟人都有的缘故了

有些女的就是只配孤独终老，一说话就伤人，我觉得没有必要相处，没必要去改变一些人，林子大了，什么鸟都有。。。——拉开距离，减少纠缠，建立边界，降低期待

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥