RobustBench leaderboard全面解读如何提交模型并提升排名【免费下载链接】robustbenchRobustBench: a standardized adversarial robustness benchmark [NeurIPS 2021 Benchmarks and Datasets Track]项目地址: https://gitcode.com/gh_mirrors/ro/robustbenchRobustBench是一个标准化的对抗鲁棒性基准测试平台旨在系统追踪对抗鲁棒性的真实进展。作为NeurIPS 2021 Benchmarks and Datasets Track的成果RobustBench leaderboard已经成为评估深度学习模型对抗鲁棒性的权威标准。本文将为您详细解读这个对抗鲁棒性基准测试平台并提供提交模型和提升排名的完整指南。什么是RobustBench leaderboardRobustBench leaderboard是一个系统跟踪对抗鲁棒性真实进展的标准化平台。在对抗性攻击研究领域有超过3,000篇论文发表但哪些方法真正有效、哪些只是高估了鲁棒性往往难以判断。RobustBench通过建立标准化的评估流程为研究人员提供了一个可靠的比较平台。该平台主要关注Linf、L2和常见损坏Common Corruptions这三种最常研究的对抗攻击场景。为确保评估的可靠性RobustBench只接受满足以下三个原则的防御方法具有非零梯度模型对输入具有非零梯度确定性前向传播完全确定性的前向传播过程无随机性无优化循环不包含优化循环RobustBench leaderboard的核心结构三大威胁模型RobustBench leaderboard按照不同的威胁模型分为三个主要排行榜Linf攻击排行榜ε8/255评估模型对L∞范数约束下对抗攻击的鲁棒性L2攻击排行榜ε0.5评估模型对L2范数约束下对抗攻击的鲁棒性常见损坏排行榜评估模型对自然损坏如雾、雪、运动模糊等的鲁棒性数据集覆盖RobustBench支持多个主流数据集CIFAR-10最常用的对抗鲁棒性测试数据集CIFAR-100更细粒度的分类任务ImageNet大规模图像分类基准ImageNet-CImageNet的常见损坏版本ImageNet-3DCC包含3D常见损坏的扩展数据集如何查看和解读RobustBench leaderboard访问官方排行榜RobustBench leaderboard的官方网址是https://robustbench.github.io/您可以在网站上直观地查看各个模型的排名情况。排行榜按照鲁棒精度Robust Accuracy从高到低排序同时显示清洁精度Clean Accuracy、模型架构、发表会议等信息。关键指标解读清洁精度Clean Accuracy模型在干净无攻击数据上的准确率鲁棒精度Robust Accuracy模型在对抗攻击下的准确率这是排名的核心指标精度-鲁棒性权衡高清洁精度不一定意味着高鲁棒性两者之间存在权衡关系模型排名趋势从排行榜中可以看出一些重要趋势使用额外数据如生成模型生成的数据通常能提高鲁棒性更大的模型架构如WideResNet-70-16通常表现更好近年来Vision Transformers在对抗鲁棒性方面也展现出强大潜力如何提交模型到RobustBench leaderboard提交前的准备工作在提交模型之前您需要确保模型满足以下要求模型必须满足三个基本原则非零梯度、确定性前向传播、无优化循环使用AutoAttack进行评估这是RobustBench的标准评估方法准备模型检查点提供可下载的模型权重文件准备评估结果在标准测试集上的清洁精度和鲁棒精度提交步骤详解步骤1评估模型性能使用RobustBench提供的评估脚本对模型进行标准化测试from robustbench import benchmark from myrobust_model import MyRobustModel threat_model Linf # 选择威胁模型Linf、L2或corruptions dataset cifar10 # 选择数据集cifar10、cifar100或imagenet model MyRobustModel() model_name YourName2024ModelTitle device torch.device(cuda:0) clean_acc, robust_acc benchmark(model, model_namemodel_name, n_examples10000, datasetdataset, threat_modelthreat_model, eps8/255, devicedevice, to_diskTrue)步骤2生成JSON结果文件设置to_diskTrue参数后系统会自动生成一个JSON文件路径为model_info/dataset/threat_model/YourName2024ModelTitle.jsonJSON文件包含以下关键信息论文链接和标题作者信息是否使用额外数据模型架构威胁模型和ε值清洁精度和鲁棒精度步骤3通过GitHub提交访问RobustBench的GitHub仓库使用New Model模板提交issue填写论文信息标题、URL、作者提供每个模型的详细技术规格上传评估结果JSON文件提供模型检查点和代码链接两种提交方式公共模型提交同时加入Model Zoo如果您愿意公开分享模型权重可以将模型同时添加到排行榜和Model Zoo中。这需要在robustbench/model_zoo中添加模型定义提供Google Drive ID用于自动下载同意使用MIT许可证或指定自定义许可证私有模型提交仅加入排行榜如果您希望保持模型检查点的私密性可以选择仅将模型添加到排行榜。您需要通过issue提交评估结果将模型检查点通过电子邮件发送到adversarial.benchmarkgmail.com模型将只出现在排行榜中不会加入Model Zoo提升模型排名的关键技术策略1. 数据增强技术从排行榜前列的模型可以看出有效的数据增强是提升鲁棒性的关键CutMix和MixUp在Rebuffi2021Fixing等模型中广泛使用DDPM生成数据使用扩散模型生成额外训练数据AutoAugment策略自动搜索最佳数据增强策略2. 模型架构优化宽残差网络WideResNet在CIFAR-10上表现最佳Vision Transformers在ImageNet上展现出竞争力ConvNeXt架构结合CNN和Transformer的优势3. 训练策略改进对抗训练Adversarial Training基础但有效的技术TRADES方法平衡清洁精度和鲁棒精度辅助训练Helper-based Training减少过大的分类边界4. 使用额外数据排行榜前列的模型大多使用了额外数据Carmon2019Unlabeled使用5000万张未标记图像Gowal2021Improving使用DDPM生成的合成数据Rebuffi2021Fixing结合CutMix和额外数据常见问题解答Q: 我的模型比AutoAttack更强的攻击方法评估可以提交吗A: 可以RobustBench欢迎任何能够提供更低鲁棒精度的评估方法。您可以通过New external evaluation(s)模板提交您的外部评估结果。Q: 我的模型使用随机性防御能提交吗A: 很遗憾RobustBench目前不接受具有随机性前向传播的模型因为这可能高估鲁棒性。但如果您能提供理论保证如可验证鲁棒性可以考虑提交。Q: 如何确保评估的公平性A: RobustBench使用标准化的AutoAttack进行评估所有模型都在相同的测试集和攻击参数下进行评估确保结果的可比性。Q: 我的模型在多个威胁模型上都表现良好需要分开提交吗A: 是的每个威胁模型都需要单独提交评估结果。您可以在同一个issue中提交多个威胁模型的结果。使用RobustBench Model Zoo快速加载预训练模型RobustBench不仅是一个排行榜还是一个包含最鲁棒模型的Model Zoo。只需一行代码即可加载预训练模型from robustbench import load_model # 加载CIFAR-10上Linf攻击下最鲁棒的模型 model load_model(model_nameCarmon2019Unlabeled, datasetcifar10, threat_modelLinf)评估模型鲁棒性使用AutoAttack评估加载的模型from autoattack import AutoAttack adversary AutoAttack(model, normLinf, eps8/255) x_adv adversary.run_standard_evaluation(x_test, y_test)在不同损坏类型上测试from robustbench.data import load_cifar10c from robustbench.utils import clean_accuracy corruptions [fog, snow, frost] x_test, y_test load_cifar10c(n_examples1000, corruptionscorruptions, severity5) acc clean_accuracy(model, x_test, y_test)最佳实践建议1. 仔细阅读提交指南在提交前请仔细阅读robustbench/model_zoo中的模型定义示例确保格式正确。2. 使用标准评估设置确保使用与排行榜相同的评估设置相同的测试集大小通常为10,000个样本相同的攻击参数如ε8/255 for Linf相同的预处理步骤3. 提供完整的复现信息在提交时提供完整的训练代码精确的超参数设置数据预处理流程随机种子设置4. 考虑不同威胁模型如果您的模型在多个威胁模型上都表现良好考虑提交所有相关结果这将增加模型的可见度。总结RobustBench leaderboard为对抗鲁棒性研究提供了一个标准化、可靠的评估平台。通过参与这个基准测试您不仅可以展示您的研究成果还可以与全球最先进的模型进行公平比较。关键要点总结✅ 使用标准化的AutoAttack进行评估✅ 确保模型满足三个基本原则✅ 提供完整的模型定义和检查点✅ 考虑同时提交多个威胁模型的结果✅ 利用Model Zoo中的预训练模型进行基准测试无论您是刚开始研究对抗鲁棒性的新手还是经验丰富的研究人员RobustBench都为您提供了一个展示和比较研究成果的理想平台。立即开始准备您的模型提交在对抗鲁棒性研究的舞台上展现您的技术实力记住推动对抗鲁棒性研究的发展不仅需要创新的方法还需要公平、可重复的评估标准。RobustBench正是为此而生期待您的贡献【免费下载链接】robustbenchRobustBench: a standardized adversarial robustness benchmark [NeurIPS 2021 Benchmarks and Datasets Track]项目地址: https://gitcode.com/gh_mirrors/ro/robustbench创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
RobustBench leaderboard全面解读:如何提交模型并提升排名?
发布时间:2026/7/5 20:49:47
RobustBench leaderboard全面解读如何提交模型并提升排名【免费下载链接】robustbenchRobustBench: a standardized adversarial robustness benchmark [NeurIPS 2021 Benchmarks and Datasets Track]项目地址: https://gitcode.com/gh_mirrors/ro/robustbenchRobustBench是一个标准化的对抗鲁棒性基准测试平台旨在系统追踪对抗鲁棒性的真实进展。作为NeurIPS 2021 Benchmarks and Datasets Track的成果RobustBench leaderboard已经成为评估深度学习模型对抗鲁棒性的权威标准。本文将为您详细解读这个对抗鲁棒性基准测试平台并提供提交模型和提升排名的完整指南。什么是RobustBench leaderboardRobustBench leaderboard是一个系统跟踪对抗鲁棒性真实进展的标准化平台。在对抗性攻击研究领域有超过3,000篇论文发表但哪些方法真正有效、哪些只是高估了鲁棒性往往难以判断。RobustBench通过建立标准化的评估流程为研究人员提供了一个可靠的比较平台。该平台主要关注Linf、L2和常见损坏Common Corruptions这三种最常研究的对抗攻击场景。为确保评估的可靠性RobustBench只接受满足以下三个原则的防御方法具有非零梯度模型对输入具有非零梯度确定性前向传播完全确定性的前向传播过程无随机性无优化循环不包含优化循环RobustBench leaderboard的核心结构三大威胁模型RobustBench leaderboard按照不同的威胁模型分为三个主要排行榜Linf攻击排行榜ε8/255评估模型对L∞范数约束下对抗攻击的鲁棒性L2攻击排行榜ε0.5评估模型对L2范数约束下对抗攻击的鲁棒性常见损坏排行榜评估模型对自然损坏如雾、雪、运动模糊等的鲁棒性数据集覆盖RobustBench支持多个主流数据集CIFAR-10最常用的对抗鲁棒性测试数据集CIFAR-100更细粒度的分类任务ImageNet大规模图像分类基准ImageNet-CImageNet的常见损坏版本ImageNet-3DCC包含3D常见损坏的扩展数据集如何查看和解读RobustBench leaderboard访问官方排行榜RobustBench leaderboard的官方网址是https://robustbench.github.io/您可以在网站上直观地查看各个模型的排名情况。排行榜按照鲁棒精度Robust Accuracy从高到低排序同时显示清洁精度Clean Accuracy、模型架构、发表会议等信息。关键指标解读清洁精度Clean Accuracy模型在干净无攻击数据上的准确率鲁棒精度Robust Accuracy模型在对抗攻击下的准确率这是排名的核心指标精度-鲁棒性权衡高清洁精度不一定意味着高鲁棒性两者之间存在权衡关系模型排名趋势从排行榜中可以看出一些重要趋势使用额外数据如生成模型生成的数据通常能提高鲁棒性更大的模型架构如WideResNet-70-16通常表现更好近年来Vision Transformers在对抗鲁棒性方面也展现出强大潜力如何提交模型到RobustBench leaderboard提交前的准备工作在提交模型之前您需要确保模型满足以下要求模型必须满足三个基本原则非零梯度、确定性前向传播、无优化循环使用AutoAttack进行评估这是RobustBench的标准评估方法准备模型检查点提供可下载的模型权重文件准备评估结果在标准测试集上的清洁精度和鲁棒精度提交步骤详解步骤1评估模型性能使用RobustBench提供的评估脚本对模型进行标准化测试from robustbench import benchmark from myrobust_model import MyRobustModel threat_model Linf # 选择威胁模型Linf、L2或corruptions dataset cifar10 # 选择数据集cifar10、cifar100或imagenet model MyRobustModel() model_name YourName2024ModelTitle device torch.device(cuda:0) clean_acc, robust_acc benchmark(model, model_namemodel_name, n_examples10000, datasetdataset, threat_modelthreat_model, eps8/255, devicedevice, to_diskTrue)步骤2生成JSON结果文件设置to_diskTrue参数后系统会自动生成一个JSON文件路径为model_info/dataset/threat_model/YourName2024ModelTitle.jsonJSON文件包含以下关键信息论文链接和标题作者信息是否使用额外数据模型架构威胁模型和ε值清洁精度和鲁棒精度步骤3通过GitHub提交访问RobustBench的GitHub仓库使用New Model模板提交issue填写论文信息标题、URL、作者提供每个模型的详细技术规格上传评估结果JSON文件提供模型检查点和代码链接两种提交方式公共模型提交同时加入Model Zoo如果您愿意公开分享模型权重可以将模型同时添加到排行榜和Model Zoo中。这需要在robustbench/model_zoo中添加模型定义提供Google Drive ID用于自动下载同意使用MIT许可证或指定自定义许可证私有模型提交仅加入排行榜如果您希望保持模型检查点的私密性可以选择仅将模型添加到排行榜。您需要通过issue提交评估结果将模型检查点通过电子邮件发送到adversarial.benchmarkgmail.com模型将只出现在排行榜中不会加入Model Zoo提升模型排名的关键技术策略1. 数据增强技术从排行榜前列的模型可以看出有效的数据增强是提升鲁棒性的关键CutMix和MixUp在Rebuffi2021Fixing等模型中广泛使用DDPM生成数据使用扩散模型生成额外训练数据AutoAugment策略自动搜索最佳数据增强策略2. 模型架构优化宽残差网络WideResNet在CIFAR-10上表现最佳Vision Transformers在ImageNet上展现出竞争力ConvNeXt架构结合CNN和Transformer的优势3. 训练策略改进对抗训练Adversarial Training基础但有效的技术TRADES方法平衡清洁精度和鲁棒精度辅助训练Helper-based Training减少过大的分类边界4. 使用额外数据排行榜前列的模型大多使用了额外数据Carmon2019Unlabeled使用5000万张未标记图像Gowal2021Improving使用DDPM生成的合成数据Rebuffi2021Fixing结合CutMix和额外数据常见问题解答Q: 我的模型比AutoAttack更强的攻击方法评估可以提交吗A: 可以RobustBench欢迎任何能够提供更低鲁棒精度的评估方法。您可以通过New external evaluation(s)模板提交您的外部评估结果。Q: 我的模型使用随机性防御能提交吗A: 很遗憾RobustBench目前不接受具有随机性前向传播的模型因为这可能高估鲁棒性。但如果您能提供理论保证如可验证鲁棒性可以考虑提交。Q: 如何确保评估的公平性A: RobustBench使用标准化的AutoAttack进行评估所有模型都在相同的测试集和攻击参数下进行评估确保结果的可比性。Q: 我的模型在多个威胁模型上都表现良好需要分开提交吗A: 是的每个威胁模型都需要单独提交评估结果。您可以在同一个issue中提交多个威胁模型的结果。使用RobustBench Model Zoo快速加载预训练模型RobustBench不仅是一个排行榜还是一个包含最鲁棒模型的Model Zoo。只需一行代码即可加载预训练模型from robustbench import load_model # 加载CIFAR-10上Linf攻击下最鲁棒的模型 model load_model(model_nameCarmon2019Unlabeled, datasetcifar10, threat_modelLinf)评估模型鲁棒性使用AutoAttack评估加载的模型from autoattack import AutoAttack adversary AutoAttack(model, normLinf, eps8/255) x_adv adversary.run_standard_evaluation(x_test, y_test)在不同损坏类型上测试from robustbench.data import load_cifar10c from robustbench.utils import clean_accuracy corruptions [fog, snow, frost] x_test, y_test load_cifar10c(n_examples1000, corruptionscorruptions, severity5) acc clean_accuracy(model, x_test, y_test)最佳实践建议1. 仔细阅读提交指南在提交前请仔细阅读robustbench/model_zoo中的模型定义示例确保格式正确。2. 使用标准评估设置确保使用与排行榜相同的评估设置相同的测试集大小通常为10,000个样本相同的攻击参数如ε8/255 for Linf相同的预处理步骤3. 提供完整的复现信息在提交时提供完整的训练代码精确的超参数设置数据预处理流程随机种子设置4. 考虑不同威胁模型如果您的模型在多个威胁模型上都表现良好考虑提交所有相关结果这将增加模型的可见度。总结RobustBench leaderboard为对抗鲁棒性研究提供了一个标准化、可靠的评估平台。通过参与这个基准测试您不仅可以展示您的研究成果还可以与全球最先进的模型进行公平比较。关键要点总结✅ 使用标准化的AutoAttack进行评估✅ 确保模型满足三个基本原则✅ 提供完整的模型定义和检查点✅ 考虑同时提交多个威胁模型的结果✅ 利用Model Zoo中的预训练模型进行基准测试无论您是刚开始研究对抗鲁棒性的新手还是经验丰富的研究人员RobustBench都为您提供了一个展示和比较研究成果的理想平台。立即开始准备您的模型提交在对抗鲁棒性研究的舞台上展现您的技术实力记住推动对抗鲁棒性研究的发展不仅需要创新的方法还需要公平、可重复的评估标准。RobustBench正是为此而生期待您的贡献【免费下载链接】robustbenchRobustBench: a standardized adversarial robustness benchmark [NeurIPS 2021 Benchmarks and Datasets Track]项目地址: https://gitcode.com/gh_mirrors/ro/robustbench创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考