别再只盯着AUC了！用Python手把手教你绘制ROC与PR曲线（附sklearn代码）

发布时间：2026/6/8 0:04:29

超越AUC用Python实战ROC与PR曲线的深度解读在机器学习模型评估的海洋里AUC指标就像一座灯塔指引着无数数据科学家的航向。但真正理解AUC背后的ROC和PR曲线才能让我们在模型优化的航程中不迷失方向。本文将带你用Python代码亲手绘制这两条关键曲线从实践角度揭示它们的差异与应用场景。1. 环境准备与数据加载首先确保你的Python环境已安装以下库!pip install scikit-learn matplotlib numpy pandas我们将使用sklearn内置的乳腺癌数据集作为示例这个二分类数据集非常适合演示ROC和PR曲线from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split data load_breast_cancer() X, y data.data, data.target X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, random_state42)提示在实际项目中建议使用stratifyy参数保持训练集和测试集的类别分布一致2. 模型训练与概率预测我们选择逻辑回归作为基础模型因为它能直接输出概率预测这对绘制ROC和PR曲线至关重要from sklearn.linear_model import LogisticRegression model LogisticRegression(max_iter10000) model.fit(X_train, y_train) # 获取测试集的预测概率 y_scores model.predict_proba(X_test)[:, 1] # 取正类的概率理解预测概率的分布对后续分析很有帮助概率区间样本数量占比0.0-0.2158.8%0.2-0.42313.5%0.4-0.63218.8%0.6-0.84526.5%0.8-1.05532.4%3. ROC曲线绘制与解读ROC曲线通过以下代码生成from sklearn.metrics import roc_curve, roc_auc_score import matplotlib.pyplot as plt fpr, tpr, thresholds roc_curve(y_test, y_scores) roc_auc roc_auc_score(y_test, y_scores) plt.figure(figsize(10, 6)) plt.plot(fpr, tpr, colordarkorange, lw2, labelfROC曲线 (AUC {roc_auc:.2f})) plt.plot([0, 1], [0, 1], colornavy, lw2, linestyle--) plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.xlabel(False Positive Rate) plt.ylabel(True Positive Rate) plt.title(ROC曲线分析) plt.legend(loclower right) plt.show()关键点解读(0,1)点完美分类器所有正例都被正确识别且没有误报对角线随机猜测的表现基准曲线凸起程度越靠近左上角模型区分能力越强ROC曲线的几个实用观察角度早期识别能力曲线左侧陡峭说明模型能高效识别高置信度正例稳健性曲线平滑表示模型在不同阈值下表现稳定AUC值0.9以上优秀0.8-0.9良好0.7-0.8一般4. PR曲线绘制与场景分析PR曲线特别适合类别不平衡的场景绘制代码如下from sklearn.metrics import precision_recall_curve, average_precision_score precision, recall, thresholds precision_recall_curve(y_test, y_scores) avg_precision average_precision_score(y_test, y_scores) plt.figure(figsize(10, 6)) plt.plot(recall, precision, colorblue, lw2, labelfPR曲线 (AP {avg_precision:.2f})) plt.xlabel(召回率(Recall)) plt.ylabel(精确率(Precision)) plt.title(PR曲线分析) plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.legend(loclower left) plt.show()PR曲线与ROC曲线的关键区别特征ROC曲线PR曲线X轴FPRRecallY轴TPRPrecision基准线对角线(yx)正例比例(水平线)适用场景类别平衡类别不平衡关注点整体分类能力正例识别质量注意当负样本远多于正样本时PR曲线比ROC曲线更能反映模型真实表现5. 阈值选择实战策略通过分析曲线我们可以找到最佳分类阈值# 寻找最佳阈值 - F1分数最大化 from sklearn.metrics import f1_score f1_scores [f1_score(y_test, y_scores t) for t in thresholds] best_threshold thresholds[np.argmax(f1_scores)] print(f最佳F1分数阈值: {best_threshold:.3f}) # 可视化阈值选择 plt.figure(figsize(10, 6)) plt.plot(thresholds, f1_scores[:-1], labelF1分数) plt.axvline(xbest_threshold, colorr, linestyle--, labelf最佳阈值{best_threshold:.3f}) plt.xlabel(阈值) plt.ylabel(F1分数) plt.title(阈值选择分析) plt.legend() plt.show()实际项目中阈值选择应考虑业务需求假阳性与假阴性的代价是否对等资源限制人工复核能力决定可接受的阳性预测数量稳定性避免选择在敏感区域的阈值曲线陡峭处6. 多模型对比可视化比较不同模型的曲线能直观展示性能差异from sklearn.ensemble import RandomForestClassifier # 训练随机森林模型 rf_model RandomForestClassifier(n_estimators100) rf_model.fit(X_train, y_train) rf_scores rf_model.predict_proba(X_test)[:, 1] # 计算两个模型的指标 lr_fpr, lr_tpr, _ roc_curve(y_test, y_scores) rf_fpr, rf_tpr, _ roc_curve(y_test, rf_scores) lr_precision, lr_recall, _ precision_recall_curve(y_test, y_scores) rf_precision, rf_recall, _ precision_recall_curve(y_test, rf_scores) # 绘制对比图 plt.figure(figsize(14, 6)) plt.subplot(1, 2, 1) plt.plot(lr_fpr, lr_tpr, labelf逻辑回归 (AUC{roc_auc_score(y_test, y_scores):.2f})) plt.plot(rf_fpr, rf_tpr, labelf随机森林 (AUC{roc_auc_score(y_test, rf_scores):.2f})) plt.plot([0, 1], [0, 1], k--) plt.xlabel(False Positive Rate) plt.ylabel(True Positive Rate) plt.title(ROC曲线对比) plt.legend() plt.subplot(1, 2, 2) plt.plot(lr_recall, lr_precision, labelf逻辑回归 (AP{average_precision_score(y_test, y_scores):.2f})) plt.plot(rf_recall, rf_precision, labelf随机森林 (AP{average_precision_score(y_test, rf_scores):.2f})) plt.xlabel(Recall) plt.ylabel(Precision) plt.title(PR曲线对比) plt.legend() plt.tight_layout() plt.show()模型对比的关键观察点曲线包络被完全包住的模型明显更差AUC/AP值量化比较的客观指标特定区域表现根据业务需求关注特定区间如高召回率区域7. 高级应用与陷阱规避在实际项目中应用这些曲线时有几个常见陷阱需要注意类别不平衡的应对策略过采样/欠采样调整类别分布使用类别权重参数如class_weightbalanced优先参考PR曲线而非ROC曲线# 使用类别权重的逻辑回归 balanced_model LogisticRegression(class_weightbalanced, max_iter10000) balanced_model.fit(X_train, y_train)交叉验证的曲线绘制更稳健的做法是使用交叉验证绘制平均曲线from sklearn.model_selection import cross_val_predict # 获取交叉验证的预测概率 cv_scores cross_val_predict(LogisticRegression(max_iter10000), X, y, cv5, methodpredict_proba)[:, 1] # 绘制基于交叉验证的曲线 fpr, tpr, _ roc_curve(y, cv_scores) plt.plot(fpr, tpr, labelf交叉验证ROC (AUC{roc_auc_score(y, cv_scores):.2f}))概率校准的重要性某些模型如SVM、随机森林输出的概率需要校准from sklearn.calibration import calibration_curve prob_true, prob_pred calibration_curve(y_test, y_scores, n_bins10) plt.plot(prob_pred, prob_true, markero, label未校准)在医疗诊断项目中我们发现ROC曲线在早期筛查中价值更大而PR曲线在确诊阶段更为关键。一个实用的技巧是将两种曲线结合使用先用ROC确定模型的整体区分能力再用PR曲线优化具体阈值选择。

从“奶茶店选址”到“广告投放”：3个真实案例带你吃透函数最值的实际应用

从奶茶店选址到广告投放：3个商业案例揭示函数最值的实战价值数学公式从不是冰冷的符号游戏，而是商业决策中的隐形推手。去年夏天，一位连锁奶茶品牌创始人拿着选址数据问我："为什么明明人流量最大的商圈，反而不是最…

2026/6/8 7:12:08 阅读更多

d2s-editor深度解析：如何像游戏设计师一样掌控暗黑破坏神2存档

d2s-editor深度解析：如何像游戏设计师一样掌控暗黑破坏神2存档【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 你是否曾想过，如果能像游戏设计师那样自由调整暗黑破坏神2的角色属性、装备和任务进度&…

2026/6/8 7:20:08 阅读更多

英雄联盟回放播放终极指南：如何用ROFL-Player重温经典比赛

英雄联盟回放播放终极指南：如何用ROFL-Player重温经典比赛【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player ROFL-Player是一款…

2026/6/8 7:13:33 阅读更多

告别手动检索：3小时完成论文文献收集的智能解决方案

告别手动检索：3小时完成论文文献收集的智能解决方案【免费下载链接】CNKI-download :frog: 知网(CNKI)文献下载及文献速览爬虫 (Web Scraper for Extracting Data) 项目地址: https://gitcode.com/gh_mirrors/cn/CNKI-download 还在为毕业论文文献收集而烦…

2026/6/8 11:16:48 阅读更多

因果推断中的方差缩减：提升ATE估计精度的工程实践

1. 项目概述：为什么“方差缩减”是因果推断里最被低估的硬功夫在因果推断的实际项目中，我见过太多人把全部精力押注在“模型是否够新”——比如非参数DML、双机器学习、神经网络倾向得分、甚至最近火起来的因果图神经网络。但真正决定你那份政策评估报告…

2026/6/8 11:16:48 阅读更多

避坑指南：Spring Cloud微服务整合Seata时，达梦DM8数据库的兼容性配置实战

Spring Cloud微服务整合Seata时达梦DM8数据库的兼容性配置实战当企业级应用从单体架构向微服务转型时，分布式事务成为必须面对的挑战。在国产化替代浪潮下，达梦DM8数据库与Spring Cloud微服务架构的结合日益普遍，而Seata作为主流的分布式事务…

2026/6/8 11:16:06 阅读更多

OpenMV数字识别精度上不去？试试这3个STM32F427端的调参技巧和常见误区排查

OpenMV数字识别精度优化实战：STM32F427端三大调参策略与深度避坑指南当你用OpenMV4的STM32F427核心板调试数字识别项目时，是否遇到过这样的场景：实验室完美运行的代码，一到赛场就频繁误识别？模板匹配在静态环境下表现…

2026/6/8 11:16:06 阅读更多

不止OBS：用Python+OpenCV把摄像头或RTSP流转成直播流（SRS服务器推流实战）

用PythonOpenCV构建轻量级直播推流系统：从摄像头到SRS服务器的全代码实战直播技术早已不再是专业团队的专利。作为一名长期从事多媒体开发的工程师，我发现很多场景下我们需要的只是一个简单可靠的推流方案——不需要OBS复杂的界面，不需要手动…

2026/6/8 11:15:43 阅读更多

抖音内容批量下载神器：douyin-downloader让精彩永不消失

抖音内容批量下载神器：douyin-downloader让精彩永不消失【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback sup…

2026/6/8 11:15:43 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

从“奶茶店选址”到“广告投放”：3个真实案例带你吃透函数最值的实际应用

d2s-editor深度解析：如何像游戏设计师一样掌控暗黑破坏神2存档

英雄联盟回放播放终极指南：如何用ROFL-Player重温经典比赛

告别手动检索：3小时完成论文文献收集的智能解决方案

因果推断中的方差缩减：提升ATE估计精度的工程实践

避坑指南：Spring Cloud微服务整合Seata时，达梦DM8数据库的兼容性配置实战

OpenMV数字识别精度上不去？试试这3个STM32F427端的调参技巧和常见误区排查

不止OBS：用Python+OpenCV把摄像头或RTSP流转成直播流（SRS服务器推流实战）

抖音内容批量下载神器：douyin-downloader让精彩永不消失

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因