分类模型不确定性度量:从信息熵到变异比的选择与应用 1. 项目概述为什么我们需要度量分类模型的不确定性在机器学习尤其是分类任务的实际应用中我们拿到一个模型的预测结果时往往不只是想知道“它预测了什么”更想知道“这个预测有多可靠”。模型输出一个“猫”的标签背后可能是99%的置信度也可能是51%的微弱优势。后者意味着模型自己都“拿不准”如果我们把这种模棱两可的预测当作确定事实传递给下游决策系统比如自动驾驶的障碍物识别、医疗诊断的辅助判断后果可能是灾难性的。这就是不确定性度量的核心价值将模型预测的“自信程度”量化出来。它不再是模型性能指标如准确率、F1分数那种事后评估而是对单次预测实时可信度的“健康检查”。一个成熟的机器学习系统不仅要输出预测更要输出对这个预测的“把握”让使用者能区分哪些结果是高置信度的、可以直接采纳的哪些是低置信度的、需要人工复核或触发其他备用方案的。你提供的材料聚焦于分类模型输出概率分布的不确定性度量这是一个非常务实且关键的课题。它探讨了如何用一个单一的统计量Statistic来概括一个概率分布向量例如[0.85, 0.10, 0.05]所蕴含的不确定性。最广为人知的度量是信息熵它源于信息论衡量的是分布的“混乱”或“惊喜”程度。但材料也揭示熵并非唯一选择像变异比这类基于“模态概率”即最大概率值的统计量在某些场景下可能更直观、更稳定。本文将带你深入这个领域不仅解释这些统计量“是什么”和“怎么算”更重点剖析它们“为什么”这样设计以及在不同场景下“如何选”。我们会结合土地覆盖分类和心房颤动检测两个详实的案例看看这些理论度量在实际数据上的表现差异并分享我在实践中总结的选择策略和避坑经验。无论你是机器学习工程师、数据科学家还是任何需要将分类模型投入实际应用的从业者理解并善用不确定性度量都将是你构建可靠AI系统的重要一环。2. 不确定性度量的核心思想与设计原则在深入具体公式之前我们必须先建立对“好的不确定性度量”的共识。它不是一个随意定义的数字而需要满足一些基本的、符合直觉的数学性质。2.1 不确定性度量的三大公理一个归一化的不确定性统计量F(p)其中p [p1, p2, ..., pK]是一个概率质量函数PMF满足Σpk 1且pk ≥ 0。它应该满足以下三个核心性质有界性F(p)的值域应在[0, 1]之间。0代表完全确定零不确定性1代表完全不确定最大不确定性。确定性下取极小值当模型对某个类别有100%的把握时不确定性应为零。即如果存在某个k使得pk 1则F(p) 0。这对应着概率向量p1 [1, 0, ..., 0]。均匀分布下取极大值当模型对所有类别“一视同仁”完全无法区分时不确定性应达到最大。即对于均匀分布punif [1/K, 1/K, ..., 1/K]有F(punif) 1。注意这些性质是评判一个统计量是否适合作为不确定性度量的“及格线”。你提供的材料中提到了一个反例某个统计量在均匀分布时取最小值这显然违背了我们的直觉——完全猜不透的时候不确定性理应最高。2.2 两种哲学全局视角 vs. 聚焦视角不同的统计量背后体现了度量不确定性的两种不同哲学全局视角如信息熵关注整个概率分布的形状。它认为不确定性来自于所有类别概率的分布情况。即使模态概率最大值相同剩余概率的分布方式不同也会影响总体的不确定性。例如分布[0.5, 0.5, 0, 0, 0]和[0.5, 0.25, 0.25, 0, 0]在熵的度量下后者不确定性更高因为概率质量更分散。聚焦视角如变异比主要关注模态概率bp max(pk)。它认为不确定性主要源于我们对“最可能答案”的信心不足。只要模态概率足够高其他类别具体如何分布是次要的。在这种视角下上述两个例子的不确定性可能被视作相同或非常接近。这两种视角没有绝对的对错选择哪一种取决于你的应用场景。如果你关心的是“模型是否清晰地指向了一个答案”聚焦视角更合适如果你关心的是“模型输出的整体概率分布有多混乱”全局视角更合适。在后续的案例中我们会看到这种选择带来的实际差异。3. 主流不确定性统计量深度解析现在我们来逐一拆解你材料中提到的几个核心统计量。我会给出公式、直观解释、计算示例并重点分析它们的特性和适用场景。3.1 基于模态概率的统计量聚焦视角这类统计量的核心思想是不确定性 1 - 置信度。它们直接利用模态概率bp进行计算。3.1.1 威尔科克斯变异比威尔科克斯变异比Wilcox‘s Variation Ratio, WVR是最直观的一种。它的定义是u_WVR(p) 1 - (K*bp - 1) / (K - 1)公式解读K类别总数。bp模态概率最大值。当bp 1完全确定时u_WVR 0。当bp 1/K均匀分布时u_WVR 1。公式中的(K*bp - 1) / (K - 1)实际上是将bp从区间[1/K, 1]线性映射到了[0, 1]然后被1减从而得到不确定性。二分类特例当K2时公式简化为u_WVR(p) 2*(1 - bp)。假设模型输出[0.9, 0.1]则bp0.9不确定性u_WVR 2*(1-0.9) 0.2。优点与局限优点计算极其简单物理意义明确——直接衡量与最高置信度的差距。局限完全忽略了非模态类别的概率分布。对于分布[0.51, 0.49, 0, 0, 0]和[0.51, 0.01, 0.01, 0.47, 0]WVR 会给出完全相同的不确定性值因为bp都是0.51。但直觉上后者存在两个强竞争类别不确定性应该更高。3.1.2 通用变异比通用变异比Universal Variation Ratio, UVR是WVR的扩展试图处理多峰分布即存在多个相同或接近的最大值的情况。u_UVR(p) (K^2 / (K^2 - 1)) * (1 - bp / m)公式解读m分布中“众数”mode的个数即概率等于bp的类别数量。当分布是单峰时m1UVR与WVR类似但乘了一个略大于1的系数K^2/(K^2-1)使得UVR值通常略小于WVR。当存在多个众数时例如均匀分布mKbp/m会变小从而增大不确定性值以反映“多个选项看起来一样好”的困境。二分类特例在二分类中除了均匀分布[0.5, 0.5]此时m2其他情况m1。因此公式简化为一个分段函数在bp0.5处有一个跳跃。实操心得UVR引入了“众数个数”m这使得它对于概率值的微小扰动非常敏感。例如分布[0.5001, 0.4999]和[0.5, 0.5]计算出的不确定性会有巨大差异尽管它们在实际意义上几乎相同。这种不连续性在实际应用中可能带来不稳定。3.1.3 模态标准差模态标准差Standard Deviation from the Mode, SDM在WVR的基础上更进一步它不仅看模态概率bp还考虑了所有类别概率与bp的偏离程度。u_SDM(p) 1 - sqrt( Σ(bp - pk)^2 / (K - 1) )公式解读根号内的部分计算的是所有概率pk与模态概率bp的均方距离可以理解为概率分布围绕其“峰值”的离散程度。离散程度越大不确定性越高。用1减去这个归一化的离散度就得到了不确定性度量。它本质上是在衡量“概率分布距离一个独裁分布所有概率集中在一点有多远”。与WVR的关系可以证明对于任何单峰分布u_SDM(p) ≤ u_WVR(p)。SDM由于考虑了全部信息其评估的不确定性通常不会高于只考虑bp的WVR。重要性质当所有非模态类别的概率相等时SDM会退化成WVR。这在很多高置信度预测的场景下是近似成立的这也是为什么在后文的案例中两者的中位数和四分位距非常接近。3.2 基于信息论的统计量全局视角3.2.1 信息熵信息熵Information Entropy, H是知名度最高、应用最广的不确定性度量源于香农的信息论。H(p) - Σ pk * log_K(pk)公式解读使用以K为底的对数进行归一化确保均匀分布时H(punif) 1。熵衡量的是“从分布中抽取一个样本平均能带来多少信息或‘惊喜’”。分布越均匀每次结果越难猜平均信息量不确定性就越大。熵对概率分布的整体形态非常敏感。即使bp相同剩余概率的分布越均匀熵值越大。二分类特例H(p) -[bp*log₂(bp) (1-bp)*log₂(1-bp)]。这是一个关于bp0.5对称的曲线在bp0.5时取得最大值1。优势与挑战优势理论根基深厚具有可加性等优良数学性质在机器学习中广泛用于损失函数如交叉熵。挑战对小概率事件非常敏感。当某个pk趋近于0时-pk*log(pk)也趋近于0但计算中需要处理log(0)的数值稳定性问题。在实际编码中通常会给概率加上一个极小的平滑项如1e-15。3.2.2 熵的变体与其它全局统计量变换熵 H*材料中提出了一种变换H*(p) (K*H(p) - 1) / (K - 1)。这个变换可以施加于任何满足第2.1节性质的统计量F上生成F*。其效果是压缩统计量的动态范围使得F*(p) ≤ F(p)。这意味着H*对概率分布的微小扰动不如H敏感在某些要求鲁棒性的场景下可能更合适。α-二次熵这是一个更广义的族通过参数α可以调节对分布的敏感度。α接近0时敏感度低α接近1时敏感度高。这为调参提供了灵活性但也增加了复杂性。定性变异指数IQV 定义为u_IQV(p) (K/(K-1)) * (1 - Σ pk^2)。它计算的是1减去概率平方和即赫尔维茨指数。IQV 可以看作是α1时的二次熵特例。它的计算比熵更简单且对极端概率不那么敏感。名义变异系数CNV 是 IQV 的另一种变换u_CNV(p) 1 - sqrt(1 - u_IQV(p))。这个变换确保了u_CNV(p) ≤ u_IQV(p)。它有一个优美的几何解释衡量概率分布向量p与均匀分布向量punif之间的欧氏距离相对于独裁分布p1与punif距离的比例。3.3 统计量对比与选择指南材料中的表2是一个非常精彩的对比实验。我们结合它来分析并给出选择建议。假设有三个概率分布pA:[0.75, 0.25]二分类中度不确定pB:[0.5, 0.1, 0.1, 0.1, 0.1, 0.1]六分类模态概率0.5其余均匀pC:[0.5, 0.46, 0.01, 0.01, 0.01, 0.01]六分类模态概率0.5但有一个强竞争类别统计量使用置信度(bp)使用全PMFpApBpCWVR是否0.500.600.60UVR是否0.330.510.51SDM是是0.500.600.56H否是0.810.840.50H*否是0.750.690.29IQV否是0.750.840.65CNV否是0.500.600.40关键洞察与选择建议二分类的简化在二分类中WVR、SDM、CNV 完全等价都等于2*(1-bp)。因此对于简单的二分类问题选择哪个基于bp的统计量区别不大。聚焦 vs. 全局的差异对比 pB 和 pC。两者bp都是0.5。聚焦视角WVR/UVR认为两者不确定性相同0.60/0.51。因为它们只关心“最高概率只有0.5”这个事实。全局视角H/IQV/CNV认为 pB 的不确定性高于pC。因为 pB 的概率质量均匀分散在6个类上而 pC 的质量集中在两个类上0.5和0.46后者实际上是一个“近乎二选一”的局面确定性更高。熵H在这里给出了最极端的判断pC的不确定性0.50远低于pB0.84。对中间状态的定义对于 pA[0.75, 0.25]有人期望不确定性正好是0.5介于完全确定和完全不确定中间。WVR/SDM/CNV 满足这一点而熵H0.81则认为其不确定性很高。这体现了熵对概率分布的“惩罚”更重。鲁棒性变换后的H*和CNV的值普遍低于原版H和IQV说明它们对分布变化的敏感度更低更鲁棒。如何选择—— 我的经验法则如果你的下游决策只关心“最可能的答案是什么”例如在信息检索中只返回Top-1结果那么使用WVR或SDM是简单有效的。它们直接度量了你对Top-1的置信度。如果你需要评估模型整体的“困惑度”或输出的“混乱程度”例如在主动学习中你需要挑选那些模型“最拿不准”的样本进行标注这时信息熵H是经典且通常有效的选择因为它对分布的细微变化捕捉得最好。如果你担心熵对极端值过于敏感希望一个更稳健的度量可以考虑IQV或CNV。它们计算更简单且数值行为更温和。如果你的分类问题可能存在多个合理答案多峰理论上UVR可以考虑但其不连续性是个麻烦。实践中更常用的方法是看第二大概率值或者计算Top-2 概率之和的补数如1 - (p1 p2)作为一个简单的多峰不确定性度量。首要原则是保持一致性在一个项目或系统中选定一种度量并贯穿始终比纠结于选择哪一种更重要。关键是要理解你所选度量的含义并能正确解读其数值。4. 案例研究一土地覆盖分类中的不确定性量化土地覆盖分类是遥感领域的经典问题即根据卫星光谱数据判断每个像素点属于哪种地表类型森林、农田、水体等。不确定性度量在这里至关重要因为分类结果会直接输入到气候、水文等模型中其可靠性影响深远。4.1 项目背景与数据处理流程我们使用的数据是Sentinel-2卫星的10个波段地表反射率数据标签是通过一种自动方法获取的“稳定像素”的LC类别。为了引入输入数据的不确定性我们聚焦于一个关键因素气溶胶光学厚度AOD用于大气校正。我们通过蒙特卡洛方法生成了25组带有AOD扰动输入数据从而为每个训练/预测样本得到了一个概率分布的“集合”。我们采用贝叶斯二次判别分析BQDA作为分类模型。贝叶斯方法的优势在于它能天然地将模型参数的不确定性认知不确定性和数据本身的噪声偶不确定性统一到后验预测分布中。简单来说对于一个新的像素点BQDA输出的不是一个确定的概率向量而是一个概率向量的分布。我们通过采样这个分布得到多个可能的概率向量再计算它们的期望作为最终用于评估的预测PMF。4.2 不确定性度量结果分析与解读我们在2020年和2021年的测试集上运行模型并计算了第3章介绍的所有不确定性统计量。表4和表5对应你材料中的表4和表5汇总了这些统计量在全体测试像素上的中位数、均值、四分位距和标准差。核心发现数值普遍极小无论是中位数10^-8到10^-5量级还是均值10^-3到10^-2量级所有统计量的值都非常接近0。这说明模型在绝大多数像素上的预测置信度极高不确定性很低。这与混淆矩阵显示的高准确率2020年损失率1.2%2021年5.7%是一致的。分布高度右偏中位数比均值小好几个数量级四分位距IQR也比标准差小很多。这表明不确定性值的分布有一个很长的右尾。大部分预测非常确定值接近0但存在一小部分预测非常不确定值较大这些“困难样本”拉高了平均值。在实际应用中我们恰恰需要关注这些长尾样本。年度性能退化与不确定性上升对比2020年和2021年所有统计量的中位数和均值都上升了2-3个数量级。这是因为模型在2021年外推年份的性能下降预测变得不那么自信导致不确定性整体升高。不同统计量的敏感度差异对于高置信度预测小值区域信息熵H的中位数和IQR最大表明它对高置信度PMF的微小变化最敏感。UVR的值最小最不敏感。对于不确定性较高的预测分布右尾IQV的标准差和均值在2021年最大表明它对接近均匀分布的不确定PMF变化最敏感。而变换熵H*的值最小最为鲁棒。WVR、SDM、CNV的相似性在大部分预测置信度很高的情况下非模态类别的概率通常很小且近似相等这使得SDM和CNV的公式退化为WVR因此它们的三分位数中位数、IQR几乎相同。4.3 实操心得与避坑指南理解量级设置阈值不要孤立地看不确定性数值。像本例中10^-5量级的不确定性在实际业务中几乎可以忽略。你需要结合业务场景定义一个可接受的不确定性阈值。例如可以计算所有样本不确定性的95%分位数将高于此阈值的预测标记为“低置信度”触发人工质检或备用流程。可视化是关键一定要绘制不确定性统计量的直方图或累积分布图。这能直观展示其偏态分布和长尾情况比只看汇总统计量更有信息量。可以将不确定性图与分类结果图叠加观察不确定像素在空间上是否聚集例如是否集中在不同地类的边界处。不确定性作为输入特征土地覆盖分类的结果常作为下游模型的输入。根据第3.3节的传播理论更好的做法是将完整的预测PMF而不仅仅是最大概率类别传递给下游模型。如果下游模型只能接受确定值至少可以将不确定性值作为一个额外的置信度特征输入让下游模型知道哪些输入是可靠的。注意“伪高置信度”在类别极度不平衡的数据集上如本例中的“定居点”类别模型可能仅仅因为某个类别样本多就对所有样本都给出高概率导致不确定性虚低。此时需要结合精确率-召回率曲线或按类别分析不确定性避免被整体低不确定性所误导。5. 案例研究二基于PPG信号的心房颤动检测心房颤动AF是一种常见的心律失常通过可穿戴设备如智能手表的光电容积脉搏波PPG信号进行筛查是当前的研究热点。这是一个典型的二分类问题AF vs. 非AF但因其应用场景关乎健康对预测可靠性的要求极高。5.1 模型构建与不确定性来源分解我们使用一个一维卷积神经网络1D CNN基于xresnet1d50变体来处理PPG信号片段。为了获得概率输出我们采用蒙特卡洛 Dropout技术。操作原理在模型训练和推理时都以一定概率随机“丢弃”置零网络中的神经元。在推理时对同一个输入样本进行T次前向传播每次Dropout的随机掩码不同得到T个不同的概率输出[p1, p2, ..., pT]。不确定性分解偶然不确定性这T个输出之间的平均概率向量的分散程度反映了数据本身的噪声如信号质量差、个体差异。这可以通过计算平均概率向量的熵或变异比来度量。认知不确定性这T个输出本身的分散程度反映了模型因为训练数据不足而对参数“拿不准”的程度。这可以通过计算T个概率向量两两之间差异的统计量如标准差来度量或者更简单地计算T次预测中类别标签的变异程度。总不确定性直接使用T次预测的平均概率向量计算其不确定性统计量如熵它融合了偶然和认知两部分不确定性。5.2 二分类场景下的特殊考量在AF检测这样的二分类任务中许多统计量都简化为相同的函数形式如WVR/SDM/CNV都等于2*(1-bp)。但这并不意味着选择变得无关紧要反而让我们可以更专注于如何解释这个单一的不确定性值。阈值的选择联动AF检测通常有一个分类阈值如0.5。不确定性度量可以帮助我们动态调整这个阈值。例如可以设定一个规则当预测的不确定性高于某个阈值U_thresh时无论其预测概率是否超过0.5都将其归类为“需要复核”。这比固定阈值更安全。与信号质量关联PPG信号质量受运动伪影、设备佩戴松紧度影响极大。一个重要的实践是分析不确定性值与信号质量指标如信噪比、峰值检测一致性的相关性。理想情况下信号质量差的片段应对应更高的预测不确定性。如果两者不相关说明模型可能没有学会正确处理低质量信号其不确定性估计可能不可信。校准至关重要在医疗等高风险领域我们不仅需要模型说出“我有80%的把握这是AF”还需要这80%是真实的——即在所有模型给出80%置信度的样本中确实有80%是AF。这就需要使用可靠性曲线等工具对模型进行校准。一个校准良好的模型其预测概率才是有意义的基于此计算的不确定性也才是可靠的。对于使用MC Dropout的模型其平均概率通常比单次前向传播的概率校准得更好。5.3 从不确定性到临床决策支持在AF检测的实际部署中不确定性度量的输出不应直接交给患者或非专业人士。它应该被转化为分层的决策建议高置信度阳性/阴性不确定性低于阈值且预测概率远离0.5。系统可直接给出“检测到疑似房颤建议就医”或“未检测到房颤”的提示。低置信度结果不确定性高于阈值。系统应提示“信号质量不佳或结果不明确请保持静止重新测量”或“建议通过更专业的设备如心电图进行确认”。持续监测模式对于佩戴式设备可以计算一段时间窗口内如24小时AF预测的不确定性趋势。如果出现“高不确定性簇”即使单次检测未报阳性也提示用户可能存在间歇性AF或其他心律失常建议进一步检查。这种基于不确定性的分级预警机制是机器学习模型在严肃医疗场景下安全、负责任应用的关键。6. 不确定性传播当分类结果成为下游模型的输入这是你提供的材料中非常深刻但常被忽略的一部分。在很多流水线系统中分类模型的结果会作为另一个模型的输入。例如先通过图像分类识别出作物类型再根据作物类型估算产量。此时第一级分类的不确定性会传播并影响最终产量估算的不确定性。6.1 理论框架从PMF到输出分布假设我们有一个分类模型f输出类别y及其PMFp [p1, ..., pK]。y作为下游模型g(x, y)的输入之一x是其他定量输入。下游模型的输出是z。关键在于由于y是不确定的由PMF描述因此z也是一个随机变量。其期望值和方差可以解析地计算出来E[z] Σ (pk * μk)其中μk是当y确定为第k类时下游模型g_k(x)输出的期望值。Var[z] E[z^2] - E[z]^2可以进一步展开为涉及pk、μk和σk^2g_k(x)的方差的表达式。这意味着只要我们能评估在每个确定类别下下游模型的输出及其不确定性我们就能精确地计算出考虑了一级分类不确定性后的最终输出的总不确定性。6.2 蒙特卡洛采样更通用的实践方法上述解析方法虽然优美但要求下游模型g的性质足够好例如可求期望和方差。在实际的复杂系统中例如g是另一个神经网络更通用的方法是蒙特卡洛采样从分类模型输出的PMFp中采样一个类别y_i。将y_i与输入x一起输入下游模型g得到一个输出值z_i。重复步骤1和2N次例如N1000。用这N个z_i的样本集合来近似z的完整概率分布。我们可以计算这个样本集的均值、标准差、分位数等任何我们感兴趣的统计量。这种方法直观、强大且适用于任何黑盒下游模型。计算成本取决于采样次数N和下游模型g的单次评估成本。6.3 实操建议与常见陷阱不要丢弃概率信息最常见的错误是第一级分类只输出一个硬标签argmax将丰富的PMF信息丢弃然后把这个确定性的标签丢给下游模型。这完全忽略了分类阶段的不确定性会严重低估最终结果的总不确定性。设计支持概率输入的接口在设计系统架构时应确保上下游模型之间传递的是概率分布或至少是概率向量而不是单个标签。这可能需要定义新的数据协议或API。不确定性预算分配通过不确定性传播分析你可以量化分类不确定性对最终结果不确定性的贡献占比。这有助于进行“不确定性预算”管理如果分类不确定性是主要贡献者那么投入资源提升分类模型精度比优化下游模型更能降低总不确定性。计算成本权衡蒙特卡洛采样需要多次运行下游模型可能带来高昂的计算成本。在实时性要求高的场景可以考虑使用重要性采样或近似贝叶斯推断等方法来减少采样次数或者在设计阶段就采用端到端的、能统一处理不确定性的建模框架如贝叶斯神经网络或概率编程。7. 总结与个人经验分享走过了从理论公式到实际案例的漫长旅程最后我想分享几点在工业界实践中打磨出来的、在教科书里不太会写的体会。第一没有“最好”的统计量只有“最合适”的。早期我迷信信息熵觉得它理论完美。直到在一个广告点击率预测项目里发现熵值对长尾item的微小概率波动过于敏感导致排序不稳定。后来换成了IQV问题迎刃之解。选择的关键是理解你的业务逻辑到底关心什么是Top-1的绝对置信度还是整体分布的混乱程度把这个想清楚选择就简单了。第二不确定性数字本身没有意义比较才有意义。告诉业务方“这个预测的不确定性是0.15”对方是茫然的。你需要建立参照系。例如“我们系统95%的预测不确定性低于0.05这个样本的0.15处于最高的5%区间建议重点审核。”或者通过A/B测试证明“当我们将不确定性阈值设为0.1并触发人工复核后整体错误率下降了30%而人工复核量只增加了5%。” 这样不确定性才从一个抽象的指标变成了一个可行动的、创造价值的杠杆。第三可视化永远是你的好朋友。一定要把不确定性画出来。在图像分类任务里把高不确定性的像素用热力图叠加在原图上在时间序列分类里把不确定性随时间变化的曲线画在预测概率下面。很多问题比如发现不确定性总在类别边界处升高或者与某个传感器噪声模式相关都是一眼从图里看出来的而不是从汇总表格里算出来的。第四校准和不确定性估计是两回事但都至关重要。一个模型可以给出非常“自信”低不确定性但完全错误的预测。因此在关注不确定性之前先用可靠性曲线、Brier分数等工具确保你的模型是校准良好的。一个校准良好的模型其80%的置信度意味着大约80%的正确率这时基于其概率计算的不确定性才是可信的。我习惯在项目初期就加入校准层如Platt缩放或Isotonic回归并将其作为模型上线前的必检项目。最后也是最重要的不确定性度量不是故事的终点而是起点。它的价值不在于提供一个数字而在于驱动一个更稳健、更透明、更负责任的决策流程。它帮助我们设计出能够说“我不知道”的AI系统而这或许是迈向真正可靠人工智能最关键的一步。当你下次构建一个分类模型时除了准确率报表不妨也多花半小时把不确定性曲线画出来看看或许会有意想不到的发现。