原文towardsdatascience.com/the-metrics-of-continual-learning-08f2d1cd959b持续学习是机器学习的一个子领域它处理在持续到达的数据上增量训练神经网络。关键的是数据不能完全存储很多时候甚至无法从旧任务中携带任何样本。因为网络只优化当前可用的数据它们会覆盖旧参数。在覆盖它们的过程中旧知识通常会被破坏即遗忘。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2686d69049a171843914adec729d0d15.png图片由 Reid Zura 在 Unsplash 上提供为了基准测试持续学习和灾难性遗忘持续学习研究中使用了几个评估指标。在本文中我将详细介绍三个最常用的指标。虽然我会以分类为例但这些指标同样适用于其他问题例如回归。如果你对持续学习的主题不太熟悉我建议你阅读我之前的 两篇 文章以更深入地了解这个主题。像之前一样我将在文章末尾提供阅读推荐以进一步探索这个主题。平均准确率最常用的指标是平均准确率通常缩写为 ACC。正如其名所示它衡量每个任务的测试集准确率然后对特定任务的准确率进行平均。形式上定义为 [1]https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0b5d7162617d43f8f4d196a81e99f4f6.png在方程中k是当前任务_ak,j表示在任务k上训练后对先前任务jj k的测试准确率。以下示例应该会使这一点更清晰假设我们在三个任务 1、2、3 上训练网络。我们首先在任务 1 上训练并在所有先前任务上进行测试。因为没有先前的任务所以我们只测试任务 1。接下来我们在任务 2 的数据上训练。然后我们在所有旧任务上进行评估。现在任务一被认为是先前的任务因此我们在它上面测试我们的网络。然后在训练任务三之后我们在任务 1 到 3 上进行评估。在最后一种情况下在训练之后上述方程将变为以下求和https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cb48e008f0713a476693d450ffdc516c.png反向迁移当使用 ACC 来衡量性能时反向迁移BWT关注的是持续学习的性能变化——即灾难性遗忘。它衡量直接在任务上训练和在后续任务上训练后的测试集性能差异。形式上定义为 [1]https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0f8829855a5024ad67d5208696351393.png其中括号内的项表示性能差异。在大多数情况和研究中这个指标将是负值。负值表示遗忘对于某个任务的原始性能比后续训练任务时要好。以下示例应该会使它更清晰假设我们在任务 1 上进行训练并在之后直接对其测试集进行评估达到 90%的准确率。在后续任务上训练后我们后来再次评估我们持续训练的网络在任务 1 的测试集上的表现达到 90%的准确率。现在计算 BWTBurrows-Wheeler Transform简单就是 70% - 90%等于-20。这里持续训练我们的网络导致了灾难性遗忘。注意0 BWT即现在的性能差异是可能的。然而正的 BWT表示对旧任务的回顾性改进例如从 90%到 91%是非常具有挑战性的尤其是在没有访问旧数据点的情况下。前向迁移之前介绍的两个指标都是在持续设置中衡量性能。为了量化持续训练本身是否对学习新任务有益可以使用前向迁移度量 FWT。正式地FWT 定义为[1]。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9a76b0b6f46a099b3410a873b5dcd25d.png其中hat{a}是仅针对任务 j 的参考模型趋势的准确率。负的 FWTForward Weight Transfer值表明在先前任务上的顺序训练并没有导致优于从头开始训练的性能。示例在训练了一些先前任务后我们在任务 j 上达到了 90%的测试准确率。一个单独的、随机初始化的模型仅使用任务 j 的数据训练达到了 80%的准确率。那么前向迁移将是10这表明持续训练是有益的。通常前向迁移在文献中很少使用ACC 和 BWT 是主要的指标。结论在这篇文章中我描述了机器学习中常用的三种指标。平均准确率Acc衡量测试性能前向迁移BWT衡量灾难性遗忘前向迁移FWT评估与从头开始的任务特定训练相比持续训练的有效性。ACC 和 BWT 在文献中常用而 FWT 则很少使用。在我的文章中我专注于分类作为基本问题但这些指标也适用于回归或目标检测。要进一步探讨这些主题我推荐以下论文标题给出“梯度周期性记忆用于持续学习”“无遗忘的持续学习与获胜子网络”“持续学习的三种场景”参考文献[1] Lopez-Paz, David, and Marc’Aurelio Ranzato. “Gradient episodic memory for continual learning.” Advances in neural information processing systems 30 (2017).
持续学习的指标
发布时间:2026/5/18 10:46:14
原文towardsdatascience.com/the-metrics-of-continual-learning-08f2d1cd959b持续学习是机器学习的一个子领域它处理在持续到达的数据上增量训练神经网络。关键的是数据不能完全存储很多时候甚至无法从旧任务中携带任何样本。因为网络只优化当前可用的数据它们会覆盖旧参数。在覆盖它们的过程中旧知识通常会被破坏即遗忘。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2686d69049a171843914adec729d0d15.png图片由 Reid Zura 在 Unsplash 上提供为了基准测试持续学习和灾难性遗忘持续学习研究中使用了几个评估指标。在本文中我将详细介绍三个最常用的指标。虽然我会以分类为例但这些指标同样适用于其他问题例如回归。如果你对持续学习的主题不太熟悉我建议你阅读我之前的 两篇 文章以更深入地了解这个主题。像之前一样我将在文章末尾提供阅读推荐以进一步探索这个主题。平均准确率最常用的指标是平均准确率通常缩写为 ACC。正如其名所示它衡量每个任务的测试集准确率然后对特定任务的准确率进行平均。形式上定义为 [1]https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0b5d7162617d43f8f4d196a81e99f4f6.png在方程中k是当前任务_ak,j表示在任务k上训练后对先前任务jj k的测试准确率。以下示例应该会使这一点更清晰假设我们在三个任务 1、2、3 上训练网络。我们首先在任务 1 上训练并在所有先前任务上进行测试。因为没有先前的任务所以我们只测试任务 1。接下来我们在任务 2 的数据上训练。然后我们在所有旧任务上进行评估。现在任务一被认为是先前的任务因此我们在它上面测试我们的网络。然后在训练任务三之后我们在任务 1 到 3 上进行评估。在最后一种情况下在训练之后上述方程将变为以下求和https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cb48e008f0713a476693d450ffdc516c.png反向迁移当使用 ACC 来衡量性能时反向迁移BWT关注的是持续学习的性能变化——即灾难性遗忘。它衡量直接在任务上训练和在后续任务上训练后的测试集性能差异。形式上定义为 [1]https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0f8829855a5024ad67d5208696351393.png其中括号内的项表示性能差异。在大多数情况和研究中这个指标将是负值。负值表示遗忘对于某个任务的原始性能比后续训练任务时要好。以下示例应该会使它更清晰假设我们在任务 1 上进行训练并在之后直接对其测试集进行评估达到 90%的准确率。在后续任务上训练后我们后来再次评估我们持续训练的网络在任务 1 的测试集上的表现达到 90%的准确率。现在计算 BWTBurrows-Wheeler Transform简单就是 70% - 90%等于-20。这里持续训练我们的网络导致了灾难性遗忘。注意0 BWT即现在的性能差异是可能的。然而正的 BWT表示对旧任务的回顾性改进例如从 90%到 91%是非常具有挑战性的尤其是在没有访问旧数据点的情况下。前向迁移之前介绍的两个指标都是在持续设置中衡量性能。为了量化持续训练本身是否对学习新任务有益可以使用前向迁移度量 FWT。正式地FWT 定义为[1]。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9a76b0b6f46a099b3410a873b5dcd25d.png其中hat{a}是仅针对任务 j 的参考模型趋势的准确率。负的 FWTForward Weight Transfer值表明在先前任务上的顺序训练并没有导致优于从头开始训练的性能。示例在训练了一些先前任务后我们在任务 j 上达到了 90%的测试准确率。一个单独的、随机初始化的模型仅使用任务 j 的数据训练达到了 80%的准确率。那么前向迁移将是10这表明持续训练是有益的。通常前向迁移在文献中很少使用ACC 和 BWT 是主要的指标。结论在这篇文章中我描述了机器学习中常用的三种指标。平均准确率Acc衡量测试性能前向迁移BWT衡量灾难性遗忘前向迁移FWT评估与从头开始的任务特定训练相比持续训练的有效性。ACC 和 BWT 在文献中常用而 FWT 则很少使用。在我的文章中我专注于分类作为基本问题但这些指标也适用于回归或目标检测。要进一步探讨这些主题我推荐以下论文标题给出“梯度周期性记忆用于持续学习”“无遗忘的持续学习与获胜子网络”“持续学习的三种场景”参考文献[1] Lopez-Paz, David, and Marc’Aurelio Ranzato. “Gradient episodic memory for continual learning.” Advances in neural information processing systems 30 (2017).